在chatGPT掀起人工智能(AI)热潮的当下,AI三要素之一的数据也成为了热门话题。
作为AI大语言模型高质量回答的基础,训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。其中,数据标注需要识别图像、文本、视频等原始数据,并添加一个或多个标签为机器学习模型指定上下文,帮助其做出准确的预测。
不过,数据标注是仍需要大量人工来完成的环节。“人工有多强大,智能才有多强大。”主营AI数据采集标注业务的杭州景联文科技副总裁刘云涛在接受第一财经采访时称,这还是一个先有鸡或先有蛋的故事。
【资料图】
但刘云涛同时表示,数据采集标注行业发展至今,已成为半人工智能、半人工化的行业。全栈AI数据及模型解决方案供应商倍赛科技创始人兼CEO杜霖也认为,数据标注本质上是一个研发密集型产业。
数据标注与大模型质量正相关
“当下的机器学习技术大部分依赖于human-in-the-loop,即有监督或来自人类反馈的学习。”杜霖在接受第一财经采访时表示,“而监督和反馈即人对数据的标注与评价。”
AI分析公司Cognilytica研究数据显示,在AI项目中,对数据相关的处理过程可占据超过80%的时间,其中数据标注环节的耗时占比可达25%。
数据标注是指对未经处理的语音、图片、文本、视频等数据进行转义、打点、拉线、拉框等操作,标注为电脑可以识别的信息,再上传到数据库,实现人工智能。一般来说,标注上传的数据越多、越准确,人工智能也就越智能。
招商证券表示,GPT-3与前一代产品GPT-2架构相同,但训练数据与参数量显著提升,GPT-2的预训练数据量为40GB、参数量仅有15亿个,而GPT-3的参数训练量达到45TB、参数量更是高达1750亿个,约有4900亿个tokens。从回答质量上看,ChatGPT回答内容比GPT-2更贴切、准确,并且符合人类语言习惯。
不过,杜霖认为,标注数据贵不在数量而在质量。
“从GPT的实验发现,随着模型参数量的增加,模型性能均得到不同程度的提高。但值得注意的是,通过来自人类反馈的强化学习(RLHF)生成的InstructGPT模型,比100倍参数规模无监督的GPT-3模型效果更好,也说明了有监督的标注数据是大模型应用成功的关键之一。”
如何提升数据标注的质量?刘云涛认为,一是提高标注准确率,二是提高贴合度。“以自动驾驶为例,红绿灯、车道线等标注准确度越高,算法精度就越高;贴合度从5个像素点变成1个像素点,算法精度也随之提升。”刘云涛表示,“此外,多维度也是提高质量的方式。比如chatGPT在面对一些问题时面对不同的人会有不同的答案。”
我国数据标注行业迅速发展
随着全球新一轮AI热潮来临,大量训练数据已成为AI算法模型发展和演进的“燃料”。
艾瑞咨询数据显示,包括数据采集、数据处理(标注)、数据存储、数据挖掘等模块在内的AI基础数据服务市场,将在未来数年内持续增长,到2025年,国内AI基础数据服务市场的整体规模预计将达到101.1亿元,整体市场增速将达到31.8%(2024-2025年)。
而据iResearch数据,2019年我国数据标注市场规模为30.9亿元,预计2025年市场规模突破100亿元,年复合增长率达到14.6%。
与此相伴随,中国数据标注行业正在迅速发展。招商证券认为,一方面,进入大数据时代后,人们各种行为的电子化、网络化带来海量数据,但产生的数据只有1%能被收集和保存,并且收集的数据中90%是非结构化的数据;另一方面,人工智能的兴起带来模型训练所用结构化数据的巨大需求,数据标注的重要性逐渐突显。
按照下游场景类型,2021年我国人工智能数据标注市场中,计算机视觉类、智能语音类和NLP类需求占比分别为45.3%、40.5%和14.2%。而AI基础数据及软件服务提供商龙猫数据相关人士告诉第一财经,随着数据量的不断增长和数据结构的不断变化,数据标注行业涉及的领域也越来越广泛,特别是在自动驾驶、AIGC等领域内,数据标注需求量极大。
刘云涛也持类似观点。“现在最大的需求点就是自动驾驶,目前数据采集标注这个行业内所有的公司都在围绕自动驾驶,未来5到10年的需求量还会越来越大。”
资料显示,国内AI训练数据提供商龙头海天瑞声(688787.SH)正在积极发力自动驾驶业务,该公司已于2022年6月上线第三代智能驾驶标注平台并发力研发第四代产品,截至2022年第三季度,海天瑞声已验收订单以及在手订单合计约5000万元,同比增长超200%。
AI大模型也将带来大量需求。刘云涛称,“预计今年10月国内会迎来一波大的类chatGPT大模型的数据需求,而且这是一个海量的需求,以目前国内几家头部数据标注公司来看,目前产能还不足以满足需求。”为此,景联文科技正加大对大模型方案的投入并深化相关业务。
AI背后:人工有多强大,智能才有多强大?
标注数据如同实现人工智能的一砖一瓦,对于数据采集标注企业来说,数据质量和经营效率无疑是最直接的竞争力,除了自研标注工具外,数据标注员的管理是重要抓手。
“当前,大部分数据标注任务仍然需要人工完成,而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。”龙猫数据相关人士表示。
据悉,数据标注员是数据标注公司最核心的岗位之一,主要工作是借助标注工具,对人工智能学习数据进行加工,数据一般为图片、视频、文本等,通过不断地拉框、标点等操作,为人工智能提供足够的数据集。
此前,数据标注员的门槛较低,只需要细致有耐心;如今在一些高难度、高质量标准的标注任务中,标注员的素质对标注过程和结果的准确性和稳定性至关重要。例如,在自动驾驶、AIGC等数据类型的标注任务中,标注员需要有相应领域的专业知识和技能才能准确地标注数据。
龙猫数据相关人士表示,数据标注行业压力也很大,市场竞争激烈,标注公司为了保持竞争优势,需要投入更多的成本来吸引、留存、培养和管理标注员队伍,而这些额外的成本也增加了行业的人力密集型特征。
刘云涛也赞同上述观点,不过,他表示,数据采集标注行业发展至今,已成为半人工智能、半人工化的行业。
面对大语言模型动辄上百亿参数的数据质量控制,需要通过标注平台将一个个复杂RLHF需求拆成很多个简单的工作流,让机器去做预处理,人去做深层的基于理解的反馈,以减少人在简单问题上的精力消耗,专注在专业问题上的标注。杜霖介绍,“比如交叉验证模式,即通过人和机器混合验证的模式或者复检的模式,来进一步提升标注质量;此外一系列标准化任务培训的机制,以确保人类反馈的答案一致性,也都是通过平台来实现的。”
景联文也采用主动质检加被动质检的方式,前者靠人为去做质检,后者是靠算法去做一些预识别。“现在数据标注行业还是‘人工智能的背后,人工有多强大,智能才有多强大’。虽然有标注工具,但这还是一个先有鸡或先有蛋的故事。”刘云涛坦言。
据悉,目前数据标注工具的准确率部分仅百分之几,部分准确率则可以达到80%、90%。“机器标注的识别率越高,我们的人工需求就会越少,成本、利润、速度、质量都能更加可控。”刘云涛称。
杜霖认为,数据标注行业的核心是高效的人机交互工具和任务分发管理平台,“我们公司员工大部分都是围绕着我们平台来做研发和运营管理,真正的标注则通过赋能产能网络去完成。我们主要积累的技术是围绕在怎么通过工具和更高效的流程来实现自动化的任务拆解、预处理与匹配,所以我们是本质上是一个研发密集型公司,而不是一个劳动密集型公司。”
龙猫数据相关人士则称,随着技术不断发展,未来数据标注行业可能会实现更高的自动化程度,但应用领域不同,仍然需要一定数量的标注人员来进行标注任务。
标签:
第一财经官方网站,7X24小时提供股市行情、经济大势、金融政策、行业动态、专家分析等财经资讯;全网独家直播谈股论金、今日股市、公司与行业
赢合科技1月18日在投资者互动平台表示,公司已有相关产品可用于4680电池的生产,并已向头部客户供货。钠电池与锂电池设备
4月11日,TCL科技(000100)融资买入5583 23万元,融资偿还4943 91万元,融资净买入639 32万元,融资余额29 24亿元。
每年四、五月份是北京杨柳絮飘飞的高峰期,不仅给市民出行和健康带来一定影响,还存在很大的火灾隐患。近日,北京东城消防组织辖区消防救援站
原标题:话剧《这些年》演绎时代变迁新华日报讯(记者于锋)4月11日晚,首届全国小剧场戏剧“紫金杯”优秀剧目展演迎来话剧《这些年》的精...
每经AI快讯,华西证券04月11日发布研报称,给予春风动力(603129 SH,最新价:122 97元)买入评级。评级理
据平安东莞:重播暂停00:09 00:26直播00:00进入全屏0点击按住可拖动视频近日,在东莞街头发生了惊险一幕一名蹲在停车场
1、ThinkPadT420是联想(Lenovo)公司于2011年4月,继英特尔发布第二代智能酷睿处理器后,搭载该平台
EDG官博下方最热门的评论如下,不少人都在怒斥leave,有人要求夏季赛换AD,他没有资格打LPL,这场BO5在中路被抓死好几波了,给了太多机会了。
众所周知,毁掉一部国漫最快的方法,那就是将他3D化!不知道从什么时候开始,2D画风改3D,已经和毁童年画上了等号,前有魔改版的神兵小将后有
成都失业补助金可在【四川e就业】公众号进行线上自助暂停办理步骤如下:第一步,进入【四川e就业】公众号,点击【业务办理】第二步:进入后,
中国软件国际(00354)公布,于2023年4月11日,受托人为股份奖励计划在市场
1、一个星期很快过去了,我想到妈妈又要开始做家务了。2、每次看见妈妈做家务她都很辛苦,这次我要帮助亲爱的妈妈做家务,减轻
国机汽车(600335)04月11日在投资者关系平台上答复了投资者关心的问题。
当前,我国就业形势总体稳定,但就业总量压力仍然存在。如何确保就业主体高质量就业,既关系宏观经济,也关系万家灯火。58同城
今天,大学路小编为大家带来了石家庄自考院校排名石家庄职业学校排名,希望能帮助到广大考生和家长,一起来看看吧!请教:2013年河北省石家庄市
中国网财经4月11日讯据国家林业和草原局网站消息,2023年4月9日—11日,受冷空气大风影响,我国北方发生了1次沙尘暴天气过程,其中,内蒙古局
第三届中国国际消费品博览会10日在海南海口开幕。意大利大米生产商“水彩画”公司创始人皮耶罗·龙多利诺表示,期待在中国找到与公司产品相...
阿里云推出对象存储预留空间产品OSS-RC;在阿里云峰会上,阿里云推出对象存储预留空间产品OSS-RC,用户购买1TB 年、1PB 年的存储费用相比按量
1、歌尔工作人员的流动性很大操作工比较辛苦,暑期短期工招聘已经结束,一般工种长期招聘。2、由于用人缺口较大,长期招聘。
1月至4月,房山区对辖区内十霞路、六石路、周张路、涞宝路、公韩路等26条公路集中实施专项治理工程,涉及16个乡镇,修复总面积93万平方米。本
蔬菜病毒病是大家一直非常关心的植保话题,很多菜农朋友总是咨询如何有效防治病毒病,以下是小编整理的蔬菜病毒病综合防治措施,希望可以帮到
重磅公告精选1、中远海控:预计一季度归母净利润69 33亿元,同比减少74 91%$中远海控(01919 HK)$公告,预计一季度实现息税前利润(EBIT)约为
深夜,哈尔滨街头一伙人在行动!如果你早上发现车上有这东西,要小心了!
1、内蒙古工业大学中的电力学院有二本及专科,行政归内蒙古工业大学管辖,毕业后发内蒙古工业大学的普通高校本科毕业证,与内蒙
据中国报告大厅对2023年4月10日上海苯乙烯价格最新走势监测显示:2023年4月10日上海苯乙烯(99 9%)均价91
1、学习吉他六线谱(TAB)是学习吉他必不可少的知识,六线谱是由六根线条组成用于直观的表达吉他演奏中左手手指按弦的位置和
格隆汇10月10日丨湖北能源(000883)(000883 SZ)公布,2022年9月,公司完成发电量23 56亿千瓦时,同比减少23 78%。其中水电发电量同
创业邦获悉,北京洞悉网络有限公司(以下简称:“洞悉网络”)已于2022年底完成数千万元A+轮融资。本轮融资将用于战略新产线研发以及加速国...
Copyright © 2015-2022 北冰洋服装网版权所有 备案号:沪ICP备2020036824号-3 联系邮箱:562 66 29@qq.com