2021人工智能竞赛白皮书:1000场竞赛的深度分析.docx
《2021人工智能竞赛白皮书:1000场竞赛的深度分析.docx》由会员分享,可在线阅读,更多相关《2021人工智能竞赛白皮书:1000场竞赛的深度分析.docx(100页珍藏版)》请在咨信网上搜索。
2021人工智能竞赛白皮书1000场竞赛的深度分析 ■图1-3 2006-2020年CASP比赛中最正确蛋白折叠预测系统的评分表现 ALPHAFOLD图片来源:DeepMind Blog 第二章 人工智能竞赛是敏捷的数据探索与 应用创新方式一、数字化转型本钱高昂,暗藏诸多风险 二、整合关键创新要素,快速实验创新应用三、低耗高效可持续,生态化创新动能不断 人工智能竞赛是敏捷的数据探索与应用创新方式 11作为赛事主办方,通过人工智能竞赛可以提升数据资产的利用价值、挖掘高质量数据人才、征选优质的人工智能应用方案、以及构建自 身的开放创新的数字化生态,在这些方面人工智能竞赛都有着得天独厚的优势,可以把它看作为是一种敏捷的价值探索与应用创新的手 段。 -、数字化转型本钱高昂,暗藏诸多风险 数字化创新需要不同的技能、工作实践、组织模式甚至是文化。要让一个为结构化的、有序的、面向流程而设计的组织,变成为生态系统、 适应、学习和实验设计的组织,是非常困难的。Gartner研究副总裁Marcus Blosch 推进数据科学工程每一环节都面临着诸多难题数据科学工程的推动需要经历一系列艰难 全面部署I 应用验证 口 |・・ 环节,但凡有一环节出现迟滞或脱节,都有 可能导致重大损失,或在瞬息万变的数字化 时代丧失创新开展的先机。 提出创意算法开发 形成方案■全面部署本钱高 ■模型时效性强,优势很 快丧失・回报周期长 ■效果与预期有出入•测评方式不科学 -应用效果反响周期长■数据储藏缺乏、质量差 -技术实现难度大 ■创意盲区■创新动力缺乏 -创意是实情割裂・创意天马行空无法 收敛•落地难度大 ■落地本钱高 引领企业进行技术落地场景的创新探索 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 兼具性价比、敏捷性、持续性的人工智能竞赛带来数字化价值指数级增长的飞轮效应 /性战出' 逐聂任一万即 可收耗寿业 的敛箍科学 \、 股铐定持/ 制新曲E舞与琐,制下, 率远高于长崎餐方渐褊E与蹩合 与圈酒为可涛嫁 的粉术副新应用 探索提崇了接球 设淞平台 竞赛低耗高效可持续,创新探索敏捷化数字化创新方法投入比照 酎同需要1G人的管理、宛漫 和0C闭队 需要JU人的团队 送行漫讨研究与投后管港 需要1-3人的对接团队评估在一个月左右 侬习周期不少干半年 技术外包周期不小于1年左右 服务器、电脑、计算贲检后管理资源支出 办公场地等如走啄霸窥基他鳞糠毅a质隧企业内部资源周提的 ;!»本钱风险将窗妾收网煽 外包后成果的延展性对 可实现性 因果h能会获得评情较好益肩决,案 可能会成功捕获 优翁的创新方向 g粉会获得 良好的外起成果 询一嶷薇黑颈鳗;; 嘉舜阙嬲酿新他营舞懒森嫣疑 ,宏鳏威瑟.品牌号省弼黜卜 环境里,赛事主办方往往只需要承当一个业务负责人的角色,与 竞赛运营平台沟通其创新诉求,配合轻量级的付出即能够获得赛 事运营团队和数据科学研发人员的专业服务与支持。 工程总少不了反复的试验和排错,传统方式下的每一次试验往往 因投入巨大可能导致决策者投鼠忌器。但籍由人工智能竞赛以更 经济的投入换取更快速的反响,便为多轮连续验证创造了空间, 实现了敏捷的创新。 收麴薮字化企北■ 自疆研宾团院 a与科技豫司矍立 逑略招降关系 成立凰除梭播基带数字化创新耗时 数据兄赛“最具性赞比的数 字化倒新方式需 创新成功反响率(),低 数字化创新本钱数据来源:和鲸科技(heywhale )制作。引用请注明出处。 表2・1人工智能竞赛对企业的价值总结数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 各类赛事主办方的数字化创新需求与难点通过人工智能竞赛得到了满足诉求 诉求 BS 挖桐潜在技术创新方位 和数浜应用域W.明露檄 据科学核心能尢 政资管理藏裾化、智能促 利用数据建设智穗地带 构建尸放共赢的数据生态钵系 需叁进行数据科学学 科建设.平养优秀的弱 据科学人才 科研成果创新落地 保证科研方向的领先性 程升数据科学向新应用的核心腕方 完善.教学羊美体系 实3r教学练内实期 提升斛研水平■进行科研投 式成桌的创新落地 H难人才缺乏、研荒落地成水喜、创新动力不殍.成果反情尾 挑酸期长、数据纬燧广探索方才发散还田收敛…… H难人才缺乏、研荒落地成水喜、创新动力不殍.成果反情尾 挑酸期长、数据纬燧广探索方才发散还田收敛…… 数祸储藏缺乏、茴■差,缺乏功值完整的二具平台和贴近实 战的场景来讲行实践、教学及研发方向容易与市场割裂 最正确 策略 最正确 策略 聚集多方创意、人才、技术,在一个小的函景中防思果 学生能在口实的商业数据和应 坤加与企业的齐通创仁共辰 人工智能竞赛 w=ELL・GEN(nTO 第三章人工智能竞赛帮助促进高校的学科 交叉与产研融合 一、促进高校加强学科建设与学科交叉二、推动科研机构加速产研融合与技术开展 促进高校加强学科建设与人才培养 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 一、人工智能竞赛是人工智能技术创新 应用开展的重要推动方式, 受到各国政府高度重视二、人工智能竞赛是各地人工智能产业创新开展的重要实现方式 三、人工智能竞赛为各行业数字化转型创新持续输出动能第二章人工智能竞赛是敏捷的数据探索与应用创新 方式 -、数字化转型本钱高昂,暗藏诸多风险二、整合关键创新要素,快速实验创新应用 三、低耗高效可持续,生态化创新动能不断第三章人工智能竞赛帮助促进高校的学科交叉与产 研融合 -、促进高校加强学科建设与学科交叉二、推动科研机构加速产研融合与技术开展 第四章选手眼中的人工智能竞赛一、为什么参加人工智能竞赛 二、希望通过参赛收获三、认为竞赛对自己的意义 1 .自我效能感.内部满足感 2 .外部报酬第五章组织人工智能竞赛的挑战 -、对竞赛复杂性的调研结果.主办方对竞赛有高预期 1 .参赛者对竞赛有严要求二、人工智能竞赛的运营复杂度详解 1 .数据科学工程管理,支撑赛事成果有效性.保障赛事相关方体验需要面面俱到 第六章如何组织一场人工智能竞赛一、人工智能竞赛的关键要素 二、人工智能竞赛的必备条件 ►表3-1人工智能竞赛对高校的价值总结 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 推动科研机构加速产研融合与技术开展 一基础研究:为技术创造创造理论前提的 •应用研究:在理论基础上针对特定目标进行研究 一开发研究:将基础研究和应用研究成果投入生产实践 ► 表3・2人工智能竞赛对科研机构的价值总结 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 AAJTllnALzgELLGmNnE Zr" Illi f” 弟四早选手眼中的人工智能竞赛 一、为什么参加人工智能竞赛二、希望通过参赛收获 三、认为竞赛对自己的意义 ■”片不更妥 ■上醴小矍褒■ T □ 土樱堇绘 昨话堇聚 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 2 40 6〕百潮航索人脉拓屣交流学习 =尸明一天菅心理满足燧实力证明 实验、复现学术成果工作6习专/内至机会 技^gaibw、练比接触数抵 黑积莫在行业中应建经验赛事奖佥 =产明关w《心理满足飕实力避明 实验、复现学术成果 工作£习推荐,内寿会 技大国.习、练习 接触数据累积技术在行业U应用的经验 赛事奖佥 『人脉拓屣交访学习 H产明荣黄心理深足球、实力让印 实裳、fe现学术成果 -工作京习推荐/为转会 技术学习、练习 接卷据 -累卷术在行业n应用的@嬲 赛事奖金数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 1.自我效能感 2.内部满足感 3.外部报酬 *AJTFn・*L NMfflLLGENnM 第五章 组织人工智能竞赛的挑战一、对竞赛复杂性的调研结果 二、人工智能竞赛的运营复杂度详解 2018 Kinetics视频行为分类比赛 数据失误导致重大竞赛事故 扫描上方二维码 了解更多赛事详情 2018年,Kinetics视频行为分类比赛遭遇了赛事组织的屡次事故。起因在于赛事运营方发布的训练集数据中错误地混 入了测试集数据。一周后,赛事运营方重新发布的数据集再度出现重大疏忽一所有数据标签被泄漏,意味着能够验证 模型效果的答案遭到提前揭示,选手无须花费精力训练可靠的模型。参赛选手向赛事运营方发送邮件反响数据集的问题, 也未得到及时的回应和解决。赛事的公平性和参赛团队的积极性遭到了破坏,同时引起了舆论争议,赛事被迫延期。 1 .主办方对竞赛有高预期人工智能竞赛还是需要依赖专业的办赛平台,因为人工智能竞赛筹办区别于普通的活动组织,企业缺乏专业的的赛事运营人 员和赛题设计人员。 —上海电信互联网部产品技术研发中心副经理葛正荣术业有专攻,优秀的企业更懂得互补+合作:共赢的价值。同盾除了不断锻造自身技术实力外,也积极推行在产学研领域的 企业价值,创办专业的赛事、选拔潜在的专业科技人才,这需要专业的赛事平台参与其中,从学术性与商业性相融合的赛题 设计、到赛制中的数据质量与敏感把控,以及兼顾数据平安与赛题可解性,都需要更加专业的、垂直的竞赛平台来合作共建。 同时,专业的竞赛平台拥有过硬的技术实力,可以勘验参赛选手的成果。在整个赛事的宣传节奏把控上,也能够创造出丰富 的内容及足够触到达目标群体的有效渠道。 同盾大学运营人员娜娜 2 .参赛者对竞赛有严要求 掇鸡工巧隼至今窸与嗓察道欺疆泰软翱s摩 @竞赛新人 谯手Z羽竞嘉常客 ”一 G黄金玩冢WJ Top淄光之茴 K>白锹玩宸♦/J TOfp-或i物/间 青铜玩家 乜,TOIP的共之商 克寮新久 竟衰嚣密 M契老手 那么题、数据、测评的文字描述充分、到位、止确 6.0 赛题课匙科学正确、合理可解 7.0 数笔与赛题异标匹配 ■ 6.0 自湖测评方法科学合理 ■ 9.0 竞赛平台/主办方运营专:匕响应与解答及时 11.0 8.0 具有公平的费制 6.0 10.0 自动测评反响报缱信息清嘲明了 7.0 7.0 自动测评即闪出分、运行较快 8.0 配督蜉用的在燃.天发_L具、够耳的石资源算力与在线储存 9.0 8.0 12.0 有,领减权域专家的.主观:平亩与点评 10.0 14.0 15.0 赛题难度属技术前沿或行业立月前沿 11.0 9.0 数党质量艮好 12.0 10.0 7.0 仅需提交模型文生而非答案文件 13.0 15.0 13.0 激励(刍括奖金、工作机会等客钱激励)丰属 14.0 12.0 数条其实‘ 15.0 13.0 14.0 主办忘知名度大’ 16.0 16.0 11.0 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 39 40 41 43 45 45 47 49 51 51 53 54 5556 57 58 63 67 7378 80 80 80 81 81 8283 84 85 85 87 88 8991 1 .贴合实际场景的需求分析和赛题设计.审慎的数据筹备与质量管控 2 .科学有效的竞赛成果评价机制.平衡本钱和效率的计算资源管理与配给 三、人工智能竞赛的八大保障.数据脱敏、防泄漏等平安保障 1 .公平公正严防作弊的竞赛环境.参赛选手享有流畅的闭环体验 2 .云端竞赛环境突破本地配置局限.数据科学平台与赛事管理系统的应用 3 .即时高效的赛程运营与服务响应.多种针对性的辅助活动保障 4 .数据科学人才社区提供人才保障第七章覆盖多领域的人工智能赛事案例 赛事导航-、政府赛事 二、科研赛事三、产业赛事 四、高校赛事第八章人工智能竞赛生态幅员与竞赛平台 和鲸社区阿里云天池 华为云大赛平台DataFountain DataCastleKaggle (国外) 第九章人工智能竞赛的五大趋势与展望一、奖金投入意愿攀升,参与规模稳增 二、数据红利可期,数据投入姿态积极三、教育投入与日俱增,数据人才能力跃升 四、应用场景不断扩散♦标杆行业优势初显五、商业数字化趋势渐强,有赖技术创新落地 六、人工智能竞赛驱动的创新生态展望附录 主办忘知名度大 主办忘知名度大 看铜乐嬴白银嬴冢赞会菊霸16.0 费题、数理测评的文交描述充分、到勺、止确 自动测评即四出分、运行较怏 具有公平的赛制 1.0 5.0 3.0 40 2.0 9.0 3.0 7.0 赛题课题科学正确.、合理可解 4.0 10.0 1.0 自动测评方法科学合理 5.0 2.0 10.0 自劭测评反读报禁信息港阳明了 6.0 4.0 9.0 皴据与赛题三标匹配 7.0 1.0 5.0 竞赛平台/主办方运营专业、响应与解答及时 8.0 8.0 11.0 仅需提交模型文化而非答案文生 9.0 15.0 15.0 有,领耍权威专家的寺观怦亩与点评 10.0 13.0 16.0 配甯灯用的在线Ah发工具、够;1的云资源算力与在线储存 11.0 3.0 13.0 赛题解展属技术前沿或行业应月前沿 12.0 6.0 6.0 数变质量良好 13.0 11.0 7.0 激励(刍括奖金、工作机会等磨款激励)丰属 14.0 12.0 2.0 数至其实 15.0 14.0 14.0 16.012.0 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 1.数据科学工程管理,支撑赛事成果有效性 组织人工智能竞赛的挑战 31 ■图5・5开放性方案题与算法题的参与规模与提交数量比照 800 如一二--1 一一 次 0 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 算法模型类赛题相比开放性方案赛,有更加稳定的表现,其 设计过程也存在着诸多考验:在需求分析结果和赛事数据条 件的基础上,在本钱限制、计算资源、数据平安的约束条件下, 最终的赛题需要平衡可解性、前沿性和创新性等多方面的要b.数据管理 赛题设计需要兼顾是否可解、是否具备业务应用价值或前沿技术 探索价值等多方面的因素,而这皆以“数据”为基础。数据层面 有三个重点:数据质量、数据集切分、数据平安,任何一点的疏 漏都会导致潜力巨大的赛题难以兑现价值。 (1)数据质量数据质量问题可能发生在数据收集、治理、加工和采样的各个阶段, 数据质量低下表现在字段缺失、信息过时或信息不准确等方面。 在人工智能竞赛的时间要求下,数据质量低下容易导致选手分散 过多精力进行数据的二次处理,限制了算法所能到达效果的天花 板。 质量低下的数据难以反映实际生产生活中的真实情况,最终影响 模型成果在业务场景的表现。另外一种常见的数据质量问题是信 息交互泄漏(Data Leakage),如数据的某些属性、特征、字段 已潜在暴露了需要通过算法模型进行预测的信息结果。 求。 算法赛题需要以清晰明确的表达方式,帮助参赛选手充分理解 其考察重点和开发目标,同时配套科学的测评方法对赛事效果 进行合理评价。 一个易懂的例子是,一道赛题要求参赛者识别图片中的动物是否 为鸟类,而在进行数据采样时,所有鸟类的图片ID均以1开头, 而所有非鸟类的图片ID均以2开头,参赛选手通过图片ID字段 即能判断结果,通过取巧的模型也有不俗的分数表现,但没有业 务价值。利用信息交互泄漏漏洞而取得虚高分数的行为,也会破 坏竞赛的专业性、公平性,激发负面的评价。 (2 )数据集切分数据集切分是模型构建的重要前置工作。在人工智能竞赛中,数 据需要被切分为训练集和测试集两局部。其中训练集供参赛者用 以搭建、训练模型,测试集那么用以检验其模型的性能水平。举例 来说,在数据量总体有限的情况下,假设测试集的数据量过少,那么 无法客观反响数据全貌。 如果在切分数据集时未能控制好数据分布,也会影响模型实际表 现的上限,容易出现模型在某个数据集上过拟合的情况♦进而影 皴据管II需要it顾 令蜃面蓊通点 搬据赢•晶◎锻据平安 驯氨黑测该集 播抵检洌模型 训靠缓型性能水平 薮据脱敏技术性陡泄露 数据能支撑赛题解答,保障算法效果 • 冼手无须泡卷大量时值做二次清游防止信息交互泄漏 0窘核点且公也具有一定的镶蔽性 •控制切分比例和字段 分布 •说敏不影响模型训练效果和在实际 :场景中的应用价值 • .脱敏操作的可行性 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 2 .保障赛事相关方体验需要面面俱到 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 组织人工智能竞赛的挑战 34 C.工具支撑人工智能竞赛的组织具有较高的技术难度,从最初要求顺畅地跑 通竞赛全流程,到能够进行云端协同开发,再到保障日益敏感的 数据平安,越来越多的问题有赖于产品工具的功能保障。 (1)竞赛工具1.0时代——人工智能竞赛系统人工智能竞赛系统是人工智能竞赛最基础的工具系统,为了实现 对人工智能竞赛全生命周期的管理。作为连接参赛选手、赛事运 营管理者和赛事主办方的线上桥梁,其功能覆盖竞赛页面信息配 置、竞赛任务发布、评审系统设置和参赛成果统计等方面,目标 是提高赛事运营管理者工作效率,便于赛事主办方了解赛事进程。 人工智能竞赛的公平性在很大程度上有赖于评审环节是否妥当, 而评审又涉及复杂的算法和规那么:既要保障不同复杂程度的客观 评审规那么的自动化执行,又要对主观评审的分工权重与规那么做出 合理呈现,也能对屡次提交和赛程各阶段的结果实现高效处理和 统计,及时反响报错信息或得分情况,可以说评审系统是整个竞 赛系统开发的难点和重点。 ■图5・8竞赛工具1.0的功能要求 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 组织人工智能竞赛的挑战 35 (2)竞赛工具2.0时代——人工智能竞赛系统+数据科学协同 平台+云计算在企业上云和协同开发的趋势下,竞赛工具2.0时代迎来了数据 科学协同平台的整合。通过实现在云端协作进行数据分析和算法 建模等工作,让人工智能竞赛真正贴近业界实际的数据科学研发 场景。 目前全球范围内接受度较高的工具包括国外的Jupyter Notebook、Kaggle KernelsGoogle Colab,以及国内的 K・Lab。 在人工智能竞赛环境中需要至少满足三个方面的要求:提升效率, 令参赛选手更加专注于开发本身;加强协同,为参赛团队打造交 互式体验;弹性调度云计算资源降低算力应用门槛与本钱的同时, 也让比赛更公平更有效。 ■图5・9竞赛工具2.0的功能要求 云资重(A巡邑.间津 云、.鹤土云) 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 组织人工智能竞赛的挑战 36 (3)竞赛工具3.0时代一一人工智能竞赛系统+数据科学协同 平台+云计算+数据平安在大数据产生巨大社会价值的同时,一次次的数据平安事故也引 发了全社会的担忧。人工智能竞赛作为数据公开应用的大规模尝 试,数据平安的保障更是重中之重。除了采用数据脱敏等传统手 段外,通过竞赛工具的技术功能来保障数据平安也日益受到重视。 ■图5/0竞赛工具3.0的功能要求 数据平安屋方案 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 人工智能竞赛各环节的工作内容,展示了数据科学研发的工程项 目所需具备的基础能力。通过数据、云计算、人工智能技术、数 据科学人才的连接・人工智能竞赛在帮助赛事主办方探索创新方 向、树立技术驱动的品牌形象同时,也在为其在内部积累数据、治理数据、应用数据提供了全流程的借鉴。 在这个过程中,赛事主办方可以充分利用外部优质资源加速实现技术落地的创新探索,同时积累扎实的数据科学核心能力。 —1- 弟八早如何组织一场人工智能竞赛 一、人工智能竞赛的关键要素 二、人工智能竞赛的必备条件 三、人工智能竞赛的八大保障社区支持 ・记'建久才粘性y史置忠皴翳渗艮Z繇-活践的社又互动促进技术先进;甘. 悻的网罗^的真寰秦例沉淀评审 机制 评审 机制 赛事专区 清晰准确地描述赛事重要信息 求与业务特征 与刖沿性平衡 赛制 规划 一阶爱却分.因黑温:定,曾勰疥,谨 科学合舞 盘霸主颜.窈 便捷高效的赛事进程 管理与进展监测 黄海靠解 算资流 数据科学协同工具、 在线协作开发,灵活跨云调度,支持千人并 发运为 •开箱即用的统一环境,无需繁琐的硬件部署 和运城 •参赛团队队友之间能够实现代码文件的提供、 I 评论和协作编辑,更高效地管理工作成果 ) 即时高效的赛程运营管理与服务响应 •整合内部资源统筹赛事全程推进 •双边信息同步与需求响应 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 .. . 刖三数字科技正逐渐渗透到经济、商业、社会生活方式等方方面面,人们对于数据智能时代的来临充满了期 待。然而,从现阶段的开展来看,我们距离真正的大数据时代仍有距离,各行各业的数字化转型进程未 能如期落地。数据的力量究竟该如何激发?带着这样的疑惑,我们把视角对准了人工智能竞赛这一载体, 以期为行业提供启发。通过全面的调研、分析,我们得到了寻找创新路径和探索最正确实践的总结,形成 这份《人工智能竞赛白皮书》提供给大家。 全球人工智能竞赛已经历了 20余年的探索,其开展起点可追溯至1997年由国际顶级学术会议KDD (Conference on Knowledge Discovery and Data Mining ,知识发现和数据挖掘会议)推出的 KDD Cupo此后,一系列国际顶尖学术会议也陆续牵头组织人工智能竞赛。 国际顶会人工智能竞赛往往会积极兼顾市场应用的需求,通过与企业、政府机构合作,聚集当下技术与 数据应用中的难点寻求解决思路,不断缩短科研成果与落地应用之间的距离。创立于2010年的Kaggle 作为目前全球最大的数据科学技术提供社区,更是为人工智能竞赛的平台化发 展奠定了模式化基础, 其合作伙伴除了 Google、Facebook、Airbnb、Yelp等互联网时代诞生的巨头,亦不乏Walmart、 Airbus、Genentech等声名日久的传统行业领头羊。 放眼中国市场,人工智能竞赛自2014年萌芽以来,数量每年以翻倍之势增加,主导者不乏权威的科研 机构与高校,亦有来自各行各业的领军企业。身担城市管理与民生重任的政务机构也在“群众创业、万 众创新”的政策驱动下,开始意识到数据的力量,牵头组织了多场大型人工智能竞赛。 人工智能竞赛绝不仅仅只是“主办方发布赛题、传播品牌美誉,参赛者参与开发、收获丰厚奖金”的公 关活动。对双方而言,人工智能竞赛已经成为了数字化转型的“云端实验室”,很多领先机构已经把人 工智能竞赛当作是他们最正确的“数字化练兵场”、"数字化人才挖掘器”和“数字化生态构建器“。主 办方紧跟数据智能的开展趋势,通过挖掘数据价值的场景和树立“数据+算力+人才+算法”的价值闭 环,积累数据科学研发的核心能力;参赛选手能够积累如何在真实业务场景中应用先进技术的实际经验, 在与众多高手的交流切磋中不断成长。 基于这一现状意义,在中国人工智能产业开展联盟(AIIA )的指导下,和鲸科技携旗下中国领先的第三 方人工智能竞赛平台”和鲸社区(Heywhale. com )”,联合中国信息通信研究院数据研究中心、北京邮 电大学人工智能学院、人工智能开源社区“DataWhale.club”,共同发布《2021人工智能竞赛白皮书》, 分析全球市场人工智能竞赛开展趋势,提出对人工智能竞赛推动前沿技术落地的创新价值思考,并在业 界开源优质人工智能竞赛运营方法论与最正确实践。 L贴合实际场景的需求分析和赛题设计 肉都缴鎏 外部翻梃 肉部皴程 数据 纬度 网缸粉丝数据 &粉丝结构 用红历史推文内容 &评论/转发情况 焚化数据 史广告筹划&点 信需 消费者特征洞察 网红特征洞察 网红影响力洞察 广告筹划有效性 促销活动有效性 縻身 鸵区 TT 县逐醒旷般i苴£生⑨獭蟋跳更 予尹书广信随同党至三儒福 多维度建萌肖费者,进行精准的营销投放, 通过有效转化,实现产品销量提升 筹划广告标题” 黑布时间与频率 筹划 大与面向人群 堤升消圈者转化、留抵 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 案例特写:中国银联高校极客挑战赛 赛题拟定充分贴合实际业务价值 周赛事主办方: 中国银联于2019年6-9月举办了高校极客挑战赛,希望为2020年的校园招聘提前网罗优秀的数据科学人才,同时与 高校进行技术碰撞。因此,赛题的拟定需要与银联的业务特征高度契合。最终,竞赛运营平台设计的赛题要求参赛选手 基于脱敏和采样后的约40,000条用户消费行为数据,预测在未来的一段时间内,用户对于某产品是否会有购买和收藏 的行为。相较于大量结构化数据支撑的赛题,这场竞赛着重考察了选手在业务冷启动时对于小数据量的适应和调整能力, 而这也符合银联大量新生业务在数据量积累缺乏的条件下仍赖于通过数据建模提供决策支撑的真实情况。 2.审慎的数据筹备与质量管控 案例特写:同盾科技声纹识别建模大赛 数据处理充分考量竞赛成果未来应用条件 置赛事主办方:司盾科技 同盾科技希望籍由人工智能竞赛引领语音智能识别领域的工业级算法创新,要求参赛选手开发算法模型来判断任意两段 语音出自同一说话人的概率,从而加速声纹识别在金融风控方向的技术落地。考虑到声纹识别模型未来在目标场景中的 应用存在各类约束条件,如模型要能在各性别、口音中都能发挥平衡效果,模型对长句和短句均具有较快的识别效果等, 因此在为赛题筹备数据时就应予以提前考虑,并对数据做出相应的加工处理。 声纹识别模型未来应用时的约束条件场景噪音 说话人的方言、性别影响 场景噪音 说话人的方言、性别影响 在局部音频上人工叠加背景场景噪声在测试集中等分了方言、性别的语音数据对 模型在说话人长短不一、内容不一的语音对上都能有较 好表现1.做文本无关(text-independent)的说话人比对 2,将有限的音频在兼顾等分的条件下进行合理的人工拼 剪,形成数千对长短不一的数据,并与短句音频进行比 对 额外补充公开数据来扩充数据量级 扫描上方二维码 了解更多赛事详情 通常深度学习模型在越大规模的数据集上的效果会明显 优于经典模型,因此需通过更大规模的数据来再训练, 以增强模型 在优质数据的充分支撑下,260支参赛团队最终呈交出了出人意料的优质成果。其中,冠军团队实现了一种端到端的声 纹特征学习模型,EER得分高达0.0011111分(越接近零分意味着模型精确度越高),已经到达甚至超越了声纹识别的 工业级水平,引发了广泛的行业关注。 如何组织一场人工智能竞赛 41 -首先,采用一系列分析手段来量化判断在不同的切分方式下,-最后,依据该相似度指标切分数据集,邀请专业人士进行测试, 训练集和测试集之间的相似度变化; 确保切分结果能够保证比赛质量的同时考察模型的泛化性能。 在此基础上,结合实际赛题的业务价值、难度定位、效果预估 等多方面因素找到最合适的相似度指标;■图6・3数据集切分示意 麴据切分 切分 内容 膜型开发用娜懒! 原那么 控制好切分比例 浜过分相似过拟合,模型无法被验证 $3相似度极低模型结论截然不同 按指标名分后济滋蜗集,遨靖 专业人I •粉f泞娜噂 切分空-1断不同二„$ 流程条E海/联世汨橐—.哨 参与 人员 数目居科学家专业测试人员 数据来源:和鲸科技(heywhale.sm )经调研统计得出。引用请注明出处。 3.科学有效的竞赛成果评价机制设计科学的评价机制,能够有效评估参赛选手的真实水平和竞赛 成果的价值,帮助赛事主办方对于人工智能竞赛的意义有更加直 观的感受,也能为数据科学研发的迭代指明方向。从参赛选手的 视角出发,在其付出和能力得到客观评价的同时,更重要的是能 够在清晰合理的评价反响引导下更加高效地优化模型性能。 (1)评审机制评审机制包括评审类型、评审次数和评审反响。 其中,评审类型包括客观测评和主观评审两大类: -客观测评是通过测评脚本进行的自动化评审,评价的是竞赛成 果模型在一些既定维度上的客观表现效果;•主观评审那么会兼顾考查竞赛成果模型的实现本钱、在时间和空 间上的运行复杂程度、算法思路的创新性等,甚至包括参赛选 手最终在决赛路演中是否清晰地传达了自己的解题思路等。 为了保障评审机制的平衡性,需要对评审次数和评审反响内容进 行精细化设计。具体来说,过多的评审次数可能引发刷分现象, 过少的评审次数据又限制了参赛选手通过获得反响来进行成果优 化的机会,因此在两相之间需要有所平衡。 评审反响是指参赛选手提交成果,接受评审后所能获得的反响信 息。比方在客观测评后能够看到评审算法所反响的分数,或假设提 交失败,收到报错原因的具体反响等。其中,报错反响的设计尤 为需要周全与具体,其设计要能尽可能同时给到选手全部的提交 报错原因,能提供建设性提示。 例如: 通过摄像头实时画面识别工人进入施工现场是否佩戴平安帽的算法更着重考察的应是查全率(Recall ),即确保尽可能所有 未佩戴平安帽的目标都能够被检测到并发出告警,宁肯因为错误识别佩戴了平安帽的目标而发出冗余告警,也要杜绝因为遗 漏而导致的平安隐患。 无人超市的顾客在前往自助柜台结账时,机器会翻开摄像头检测顾客是否为数据库内记录的有过逃单行为的顾客,如发现疑 似历史逃单客户那么会给工作人员发起提示。在这个过程中,算法需更加着重考察查准率(Precision ),即尽量不错怪顾客, 否那么会给顾客带来不必要的麻烦甚至伤及其名誉。 4.平衡本钱和效率的计算资源管理与配给 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 应愿索靠 使解附梭⑶)时】600 500400 300200 1002019-10-08 2019-10-10 2019-10-12 2019-10-14 2019-10-16 2019-10-18 2019-10-20 数据来源:和鲸科技(heywhale )经调研统计得出。引用请注明出处。 AWS.paddlepro-aws-m4.2xlarg AWS-LONG WS-p2.xlarg一 0 2019-10-06 AWS: 124.5• AWS.paddle:17.5 pro-aws-m4.2xlarge:0 • jd-p.n1v100.2xlarge:0 AWS-LONG:0AWS-p2.xlarge:0 R-3.6.0:0 .数据脱敏、防泄漏等平安保障 数据平安屋原理示意 传文件 传数据 X 下载数据 对外发送邮件 数据来源:和鲸科技(heywhale.8m )经调研统计得出。引用请注明出处。 案例特写:快手・用户兴趣建模大赛 数据脱敏保障数据平安的同时缓解数据存储压力 扫描上方二维码 了解更多赛事详情 画 赛事主办方: 内容生产和分发是短视频开展的两大关键要素。在快手,每天都有数以亿计的视频被播放、被上传、被转发,服务器需 要在转瞬间处理海量信息与内容,过多的违规内容会挤压内容生产者的流量,而匹配不精准的内容推荐也是对资源的巨 大浪费。在有限的时间内,仅仅依靠人力显然无法高效完成对视频内容的识别、理解,以及对海量用户的精准推荐。可 以说,人工智能- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2021 人工智能 竞赛 白皮书 1000 深度 分析
咨信网温馨提示:
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【二***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【二***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。
关于本文