2023中国AIGC数据标注产业全景报告.pdf
《2023中国AIGC数据标注产业全景报告.pdf》由会员分享,可在线阅读,更多相关《2023中国AIGC数据标注产业全景报告.pdf(26页珍藏版)》请在咨信网上搜索。
1、中国中国AIGCAIGC数据标注产业数据标注产业全景报告全景报告Panoramic ReportPanoramic Report ofof Generative AI Data LabelingGenerative AI Data Labeling IndustryIndustry inin China China 2023.11杨净量位智库 QbitAI Insights序序 数据标注,正迎来关键时刻。作为AI认识世界的起点,数据标注本质上是将现实世界信息结构化、数字化,充分发挥数据信息的价值。模型时代到来,AIGC众多垂直场景落地,以及通智能、具智能等前沿领域探索,与质量、专业化的场景数据
2、密不可分,数据标注从劳动密集型加速朝着知识密集型转型,业壁垒进步提。作为底层基础服务,数据标注贯穿模型全命周期(训练测试、评估验证和应迭代)。,牵涉关键Know-how,更多模型公司/AI企业选择建标注团队和管线;另,上下游合作关系将更为紧密和耦合,专业数据服务提供商更多机会将在垂直领域,帮助企业完成私有化部署。机遇与挑战并存。合成数据作为新衍赛道,潜在市场空间巨。与此同时,数据标注标准难以统、数据处理流程尚未规范,学历多领域多专业成为标注才的硬指标。模型时代下的数据标注!#!$!%录录AIGC数据标注四变化AIGC数据标注三影响因素数据标注产业竞争格局/市场规模数据标注代表玩家案例集!&模型
3、时代下的数据标注!数据标注是AI认识世界的起点n 本:词性标注、分类标注、情绪标注、命名实体识别、语义标注、意图标注等;n 图像:图像分类、语义分割、实例分割、拉框、OCR转写等;n 频:语识别、声纹识别、语转写等;n 视频:标跟踪、为识别等;n 3D点云数据标注是将原始数据进加处理,如分类、拉框、注释、标记等操作转换成机器可识别信息的过程。国内数据标注商,义称之为基础数据服务提供商,通常需要完成数据集结构/流程设计、数据处理、数据质检等作,为下游客提供通数据集、定制化服务、数据闭环具链等。这也是本次AIGC数据标注全景报告的研究对象。根据原始数据类型原始数据类型以及训练任务训练任务划分:般数
4、据处理流程:原始数据数据清洗模型训练测试/验证数据标注数据质检数据标注中的定律定律通常在一个AI项目中,数据准备工作需要80%时长,模型训练和部署仅占20%。模型时代下的数据标注海天瑞声是国内唯家AI数据上市公司,今年2以来股价受ChatGPT热潮曾度狂飙,截1110股价较年初上涨59.75%。上市公司股价狂飙,创业公司融资加速上市公司股价狂飙,创业公司融资加速模型数据解决案多处开花,以站式、定制化服务为主模型数据解决案多处开花,以站式、定制化服务为主围绕模型开发全命周期(包括预训练、监督微调、RLHF、红队测试、基准测试等),专业数据服务商、模型企业、AI公司等各都拿出相关数据解决案,部分以
5、站式、定制化服务为主。云测数据:向垂直业模型数据解决案 星尘数据:星尘COSMO模型数据字塔解决案 澳鹏Appen:AI聊天反馈和基准测试两解决案 引擎:(涵盖数据服务模块)百度:个模型数据标注基地模型范式涌数据标注,动化标注槛幅降低模型范式涌数据标注,动化标注槛幅降低以SAM模型为代表的图像分割模型开源;GPT-4、GPT-4V为代表的模型也被验证在本、图像领域标注具有可性,并衍出专做数据标注的模型,幅降低动化标注槛。国内不少数据服务商进相关模型研发,部分产品已经发布:海天瑞声:数据产垂直模型(研发阶段)曼孚科技:动驾驶数据标注视觉模型(已完成研发)猫数据:动驾驶模型AutopilotGPT
6、(发布)商汤:明眸SenseAnnotation动化数据标注平台(发布)标科技:烘焙师模型Baker-GPT(发布)创业代表公司融资情况星尘数据22年125000万A轮标科技23年4超亿元B2轮整数智能23年6数千万Pre A轮柏川数据23年7千万元天使轮曼孚科技23年9数千万B轮恺望数据23年4战略融资23年9数千万Pre A轮智能驾驶新感知范式,智能驾驶新感知范式,BEV+TransformerBEV+Transformer是机遇也是挑战是机遇也是挑战作为最具代表性应场景,智能驾驶迎来新感知范式:以BEV+Transformer为代表的四维感知替代掉2D+CNN为代表的维感知案,给数据服务
7、商带来更多机遇与挑战,包括不限于标注场景难度、数据量产能要求等。前国内部分商给出了数据闭环具链和解决案等。(图源:特斯拉)AIGC重塑数据标注量位智库认为,数据标注正迎来重新洗牌的关键时刻,有四关键趋势:1 1、数据标注要求从客观到主观,很难建统标准、数据标注要求从客观到主观,很难建统标准模型的开发范式决定了模型数据标注对然语要求要求很,包括排序、改写、多轮对话、评估等操作,难以依靠客观的评价体系,如准确率、效率等。本科以上多领域多专业开始成为标注才的硬指标,标注也随着模型全命周期更为细分,如AI训练师、模型精调师、指令程师等。模型Know-how涉及到数据处理流程的设计,模型公司/AI企业开
8、始建数据标注团队和数据处理管线,甚对外输出服务,产业链重新洗牌。量位智库预计,国内AI基础数据服务市场规模将达百亿规模,约占全球市场10%份额。其中合成数据作为衍出来的新赛道,存在巨市场空间,增速超40%。2 2、学历多领域才成刚需,缺或达百万、学历多领域才成刚需,缺或达百万3 3、产业链重构,模型公司、产业链重构,模型公司/AI/AI企业涌企业涌4 4、国内百亿级市场规模,合成数据增速最、国内百亿级市场规模,合成数据增速最AIGC数据标注四变化!#需求变化:与业场景强相关,高质量数据需求长期且持续模型时代的到来,正加速推动智能开发从以模型为中朝着以数据为中的向转变。质量数据服务需求贯穿模型全
9、命周期。前模型技术路径已经完整清晰,训练流程主要分为三个阶段:预训练模型监督微调SFT强化学习RLHF次预训练*实际训练过程中,部分垂直领域大模型需用小规模语料进行二次预训练操作数据处理流程设计涉及模型Know-how,直接决定模型性能好坏。尤其后两个阶段需要专业成数据或对数据进改写或排序,最终形成符合类标准(如专业逻辑、核价值观等)质量数据。后随着模型持续地实时更新迭代、朝着多垂直领域落地,尤其通智能、具智能等相关探索,如何快速扩展到更多真实边缘场景,质量场景数据也将成为刚需。除此之外,实时保障输出内容的安全合规,也远以往更受重视。从训练、迭代到应落地,数据服务贯穿模型全命周期。泛认知,模型
10、是以数据为中的产物。数据数量和质量很程度决定着模型能的上限。n 以模型为中:迭代模型,数据相对固定。n 以数据为中:关注数据本,模型成为了数据的容器。企业端客需要期且持续的数据服务,产业链上下游供应关系远以往更为紧密和耦合。(图源:OpenAI官)(图源:Data-centric AI:Perspectives and Challenges)处理流程侧变化:标准从客观到主观,学历多领域成才硬指标传统数据标注模型数据标注领域划分按不同领域或任务划分按不同阶段划分具体实操拉框、描点、转写等操作排序、改写、成等操作标注要求偏客观偏主观评价指标准确率+效率难以对标准解决案具/平台标注+类质检专业培训、
11、定期开会对等举措才要求专科为主本科以上,多领域专业才标注按职能划分标注员、质检员、管理员按阶段划分AI训练师、模型精调师、指令程师、红队测试军团等。覆盖区域主要集中在三四线城市重新打散例如,百度在海专为模型建设的数据标注基地,本科例100%,培训专业才已达1000。未来五年,数据标注相关专业才缺将达百万量级。数据标注从劳动密集朝着知识密集型转变。业务变化:合成数据成新衍赛道,潜在市场空间巨合成数据的优势&特点1、降本增效降低数据获取成本,成数据带质量标注,缓解“数据荒”问题。2、数据可定制应可扩展性强,灵活度,可覆盖更多边缘、尾场景。3、隐私安全天然规避掉数据隐私安全合规的问题。数据增强动驾驶
12、机器融物医药业模型验证可解释AI具智能AR/VR应场景企业案例群核科技Coohom Cloud(群核云)作为前为数不多提供室内场景数据服务的代表商,能针对不同应场景合成2D、3D数据集,客覆盖全球,服务多家海内外科技巨头公司,并于英特尔在产研等开源性项上进深度合作。所谓合成数据,即是AI成数据真实产,能够替代真实数据来训练、测试和验证模型。前主要在动驾驶、机器、物医药等领域应。英伟达Meta亚逊等全球科技巨头均有相关布局(投资、收购等)。OpenAI CEO Sam Altman曾放:未来所有数据都将变成合成数据。量位智库预计,合成数据将成为未来增速最快赛道,年增率可达45%。(图源:官)供应
13、链变化:重新洗牌,模型公司/AI企业涌硬件硬件/云服务商、资源商云服务商、资源商基础数据服务提供商基础数据服务提供商数据需求数据需求(AI企业、传统企业、政企机构、科研机构等)百度智能云引擎阿云华为云腾讯云综合招聘平台专业数据服务提供商模型公司/AI企业中团队群核科技海天瑞声云测数据星尘数据曼孚科技标科技猫数据倍赛科技整数智能晴数智慧数据堂博登智能37度数据景联科技科乐园百度智能云引擎商汤科技京东阿云毫末智模型公司/AI企业建数据处理管线,对外输出模型数据解决案,传统产业链重新洗牌。部分商还具备云服务能,同数据服务打包输出,更易建起客之间的碑和信任,具备竞争优势。京东云澳鹏中国恺望数据卓印智能
14、未有科技云数据朗势科技柏川数据冰数据AIGC数据标注三影响因素!$三影响因素:以技术+场景聚合的轮效应数据标注作为AI底层服务,最本质是为客降本增效。持续迭代技术能的企业将有机会脱颖出,包括不限于以下点:n 数据闭环具链的智能化平n 对模型/算法Know-how的理解n 数据程化能、数据基础设施建设n 业Know-how*质量场景数据*能够根据客需求,快速找到并利与场景最为贴合的资源。n 数据标注仍具备轮效应;n 新创业公司局槛进步提;n 专业数据服务商更多机会将在垂类场景,帮助企业完成私有化部署;n 对外输出数据服务的模型公司/AI企业也存在竞争优势。业务量增业务量增获客容易获客容易获得碑渠
15、道+AIGC数据处理能越强获客越容易获客越容易标注经验标注经验越丰富越丰富可扩展性灵活性更强获得碑技术+场景看技术能看技术能看场景资源看场景资源三看轮效应三看轮效应场景专业才(领域专家、深度等)传统数据标注轮AIGC赋能数据标注轮产业竞争格局/市场规模!%市场竞争格局数据标注业传统依靠渠道、等形成的低成本竞争优势将被重塑,数据需求将更看重数据质量、场景多样性和可扩展性。基于以上原因,量位智库将从数据基础设施、场景资源两个来分析前的业内玩家分布及现状。数据基础设施质量场景资源大模型相关数据解决方案大模型数据资源/标注团队我国数据标注业企业竞争格局我国数据标注业企业竞争格局代表公司:海天瑞声数据堂
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 中国 AIGC 数据 标注 产业 全景 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。