2024年大语言模型综合能力测评报告.pdf
《2024年大语言模型综合能力测评报告.pdf》由会员分享,可在线阅读,更多相关《2024年大语言模型综合能力测评报告.pdf(42页珍藏版)》请在咨信网上搜索。
1、1大模型综合能力测评报告20242模型市场发展洞察2023年,全球模型市场进爆发阶段3模型诞阶段模型探索阶段模型爆发阶段2017-2018年2019-2021年2022-2023年 6.12 歌推出于处理然语任务的Transformer 神经络架构2017 6.11 OpenAI 发布 GPT-1 11.22 歌推出BERT2018 3.16 百度推出可以准确理解语义的 ERNIE 1.0 8.21 OpenAI 发布 GPT-2 并部分开源 10.11 歌推出 BERT 模型的两个新版本RoBERTa 和 XLNet2019 11.5 OpenAI发布120亿参数图像版GPT-32020 1
2、.16 OpenAI推出能实现本成图像的DALL-E模型 4.25 华为正式发布盘古模型 8.10 OpenAI推出Codex2021 2.7 歌发布Bard以应对ChatGPT 2.20 复旦团队发布MOSS 2.23 微软基于ChatGPT发布New Bing 2.25 FaceBook发布LLaMA-13B 3.14 OpenAI发布GPT-4并实现图像识别 3.16 百度发布 3.17 微软宣布将GPT-4接Office全家桶 4.10 昆仑万维发布天3.52023 11.30 OpenAI 推出 ChatGPT2022在诞阶段,以Transformer为代表的全新神经络架构,奠定了模
3、型的算法架构基础,使模型技术的性能得到了显著提升。在 探 索 期,基 于 类 反 馈 的 强 化 学 习(RHLF)、代码预训练、指令微调等开始出现,被于进步提推理能和任务泛化。在爆发期,数据、算和算法完美结合,具备了多模态理解与多类型内容成能。4.11 阿云发布通义千问 5 百度发布模型3.5 5.6 科讯发布认知模型 5.11 歌更新Bard并推出PaLM 2模型 5.24 微软宣布Windows系统全位集成Copilot2023年中央及地政府积极制定政策励和规范模型产业发展4序号时间件名主要内容12023年7成式智能服务管理暂办法明确了成式智能“提供者”内容产、数据保护、隐私安全等的法定
4、责任及法律依据,确了智能产品的安全评估规定及管理办法。22023年7上海市推动智能模型创新发展的若措施推动上海模型创新发展,营造通智能创新态,加快打造世界级智能产业集群。32023年8电信息制造业20232024年稳增动案励加数据基础设施和智能基础设施建设,满智能、模型应需求。42023年10形机器创新发展指导意到2025年,形机器创新体系初步建,“脑、脑、肢体”等批关键技术取得突破,确保核部组件安全有效供给,开发基于智能模型的形机器“脑”。52023年11北京市智能业模型创新应书(2023年)从模型全球发展态势、国内外业应概述、北京应情况和发展建议等进了系统分析和阐述,旨在进步推动模型应落地
5、,展示北京市模型应成果,促进模型价值传播和供需对接。62023年11东省关于加快建设通智能产业创新引领地的实施意22条举措打造国家通智能产业创新引领地。72023年12关于加快推进视听电产业质量发展的指导意持企业做做强,持智能企业研发视听应模型。82023年12“数据要素x”三年动计划(20242026年)(征求意稿)以科学数据持模型开发,深挖掘包含科技献在内的各类科学数据,通过细粒度的知识抽取,构建科学知识资源底座,建设质量语料稿库和基础科学数据集,持开展通智能模型和垂直领域智能模型训练。2023年,中央及地围绕基础设施、算法、算、数据等领域出台多项政策,坚持发展和安全并重、促进创新和依法治
6、理相结合的原则,励和规范作为硬科技的AI模型产业发展。2023年下半年,中国百模战掀开序幕50102036.14 360发布智脑模型4.06.15 百川智能发布开源Baichuan-7B6.25 清华&智谱AI发布开源ChatGLM2 7.7 华为发布盘古3.07.7 商汤科技发布商量2.07.9 湖发布湖模型7.19 Meta发布开源Llama22 0 2 3 年 6 2 0 2 3 年 8 8.3 阿云推出开源Qwen-7B8.7 元象科技发布开源XVERSE-13B8.11 发布模型MiLM8.17 字节跳动公测模型产品包8.21 云从科技发布从容模型1.59.5 商汤科技发布商量3.0
7、9.6 百川智能发布开源Baichuan29.7 腾讯发布混元助9.20 上海智能实验室发布开源InternLM-20B9.25 OpenAl发布多模态GPT-4V2 0 2 3 年 8 2 0 2 3 年 1 0 10.9 之暗发布Kimi Chat10.17 百度发布模型4.010.24 科讯发布星模型3.010.27 智谱AI开源了ChatGLM3等模型10.30 百川智能发布Baichuan2-192K10.31 阿云发布通义千问2.011.7 OpenAI发布GPT-4 Turbo11.16 OPPO发布AndesGPT11.24 零万物发布开源Yi-34B12.22 腾讯发布混元模
8、型标准版2 0 2 3 年 1 0 2 0 2 3 年 1 2 本理解和逻辑能提升、具备初级代码成、跨模态能多模态、本、逻辑能加强6业模型数据来源:InfoQ研究中根据商官、媒体资讯等公开资料整理服务商研究机构科技公司其他融教育汽游戏电商社交娱传媒影视能源制造通模型从头部企业到百模家族,模型井喷式爆发增医疗在法规的指导下,部分产品开始持证上岗7批次模型名称所属企业第批ABAB模型MiniMax百川模型百川智能混元模型腾讯GLM模型智谱AI盘古模型华为新模型商汤书通模型上海智能实验室通义模型阿百度星认知模型讯云雀模型抖紫东太初模型中科院批次模型名称所属企业第批百灵模型蚂蚁集团MathGPT模型好
9、未来Moonshot之暗壁露卡Luca壁智能奇元模型360天模型昆仑万维WPSAI办公序列猴出问问模型易有道知海图AI模型知乎模型(未公开)美团百度、阿、腾讯、智谱AI、百川智能等多家企业和机构,按照互联信息服务算法推荐管理规定履算法备案和变更、注销备案续,获得备案批准,对公众全开放,标志着模型发展进新阶段,加速推动模型产业化应。截到2023年1231,已有两批超过20个模型获得备案,向公众开放。应范围涵盖然语处理、图像识别、语识别等多个领域,可应于融、医疗、教育等各个领域。说明:表格内大模型排序按照大模型名字拼音首字母进行排序商业经济 20.74%教育医疗 18.09%通用 15.43%工业
10、制造 9.57%生活消费 9.04%传媒&营销 6.91%公共事务 6.91%信息&安全 6.91%其他 3.72%文化娱乐 2.66%2023年,中国模型产品从通产品向多业拓展8Q1Q2Q3Q4未知2023年中国主要模型发布时间统计 2023年公布的中国模型产品中,84.57%的模型产品为通业模型。其中商业经济、教育医疗占均于通模型占。数据结果统计显示中国模型产品发布时间集中于Q2和Q3,占达全年的80.32%。45.21%35.11%2.66%13.3%3.72%80.32%数据来源:根据公开资料搜集的中国188个模型&产品统计得出通15.43%通业 84.57%2023年中国通模型和业应
11、产品统计2023年,模型层百花放,并逐渐开始应探索9数据来源:InfoQ研究中根据商官、媒体资讯等公开资料整理AntFinGLM云商悟道PolyLM郎神天河天元紫东太初moss科技公司研究机构教育模型教育服务商游戏电商盘古跨境电商模型传媒影视传媒/影视业模型盘古媒体模型社交娱曲模型游戏业模型通模型业模型仓颉汽模型v汽融能源制造医疗其他能源/制造业模型融业模型航天/城市/社科/业模型星教育模型盘古矿模型盘古汽模型盘古象模型科讯营销模型因融模型FD-LLM吉利星睿大模型?ChatJD代码深睿医疗智能多模态科研平台光融智能助淘宝问问Hi Echo业模型应客服营销协同办公WPS AI其他通义犀混元盘古
12、鸿湖九天星河基础模型ChatGLM源1.0Baichuan智脑新从容孟天海湖天书星序列猴星医疗模型叮当HealthGPTChatBot从通模型到模型产品,模型细分应赛道不断涌现10102023年国内主要科技公司在推出通模型的同时,也正在根据企业资源特征、户使场景、态圈层需求等将通模型产品逐渐扩展成为覆盖多个应场景的产品家族。模型头部商逐渐形成。通模型:通义模型模型产品:通义千问业产品家族:融、法律、医疗等业9款产品通模型:模型模型产品:、格业产品家族:媒体、能源、融等业的13款产品通模型:讯星认知模型模型产品:讯星业产品家族:教育、办公、汽等业的4款产品通模型:混元模型通模型产品:腾讯混元业产
13、品家族:融、旅等业的5款产品2023年模型从极客世界向众11从定邀众户到 APP 端众可以直接下载,模型产品正在从极客世界向更多众。012023年上半年只有少数款产品可以直接申请使。部分产品需要获得开发的企业定向邀请,才能注册使。产品发布邀请测试022023年831起,、通义千问、讯星等产品逐步完全向公众开放,9APP应商店的下载冠军多次由模型产品获得。向公众开放测试03通义千问驻钉钉号,百度库也接了,上线了智能助功能。办公场景中,模型开始更直接地与户互动,性能平直线提升。常应中嵌套功能2023年下半年,中国模型户开始真正使产品122023年 86.2%2023年以前 13.8%32.83%3
14、8.98%28.19%2023年1月-6月2023年6月-8月2023年9月-12月开发者开始使模型产品的时间统计67.17%2023年9起,中国模型产品开始陆续开放公众注册和使功能。以开发者为例,户模型产品开始使时间67.17%集中在2023年下半年。数据来源,2023年12 InfoQ 编辑部发起的开发者调研,N=12172023年,中国模型正在进更多户的认知智中134.10%4.30%4.60%5.10%7.20%10.20%11.50%23.20%24.20%27.90%30.00%37.10%46.30%52.20%0.00%10.00%20.00%30.00%40.00%50.00
15、%60.00%商汤科技商量Sense Chat智源悟道大模型MOSS大模型360智脑大模型昆仑万维天工大模型Stable Video Diffusion百川大模型智谱Chat GLM 3大模型华为盘古大模型讯飞星火大模型LLaMA 2阿里通义大模型百度文心大模型GPT系列大模型开发者模型的认知度统计数据来源,2023年12 InfoQ 发起的开发者调研,N=1217第梯队GPT系列模型、百度模型近半数受访开发者了解或使过上述模型。01开发者认知智梯队基本形成02第梯队阿通义模型、LLaMA 2、讯星模型、华为盘古模型、智谱Chat GLM 3模型超过1/5的受访开发者了解或使过第梯队模型。03
16、第三梯队百川模型、Stable Video、Diffusion、昆仑万维天模型、360智脑模型、MOSS模型、智源悟道模型、商汤科技商量Sense Chat模型认知度为4%-11.5%。14模型产品测评法和综合结果大模型综合测评产品和版本15编号分类权重具体任务测试法题类型1语义理解10%语理解能古诗识记、中分词和词性标注、命名实体识别、阅读理解、实体关系抽取关键字提炼、语义相似判断、怎么办题2学写作5%根据给定条件,成连贯本制作案作写作、中特写作给出主题,成连贯本制作多种类型的案对对联、写诗词3知识问答5%知识问答历史常识、法律常识、地理常识、商业常识、医学常识、科学常识、活常识、购物常识4
17、逻辑推理20%抽象给定应场景,执数学计算任务数值计算数学应题、数学计算题、商务制表题数学逻辑推理逻辑推理中特推理、MBA逻辑题、编程类5编程15%代码能程序编写、错误提示、IT知识问答代码动补全、错误提示和修复、本摘要、IT知识问答6上下理解15%多轮对话的理解、连贯上下题、多轮对话上下题模型综合测评产品和版本16本次测评选取的模型产品及使版本GPT-4ChatGPT 4模型4.0专业版百川模型53B百川模型v1.0星认知模型3.0讯星V3.0360智脑4.0360智脑4.0ChatGLM-3智谱清版云雀模型包Moonshot AI模型Kimi Chat版通义千问模型2.0通义千问V2.1.1
18、Gemini ProBard 2.0编号分类权重具体任务测试法题类型7语境感知10%通过语境推测身份商务应题营销案、视频脚本、市场分析报告、市场运营报告、邮件写作8多语能10%完成涉及多种语任务英翻译题英翻译、英阅读理解、英作9多模态能10%图、智能语等多模态问题字输图回答、字输语输出模型版本:产品版本:模型版本:产品版本:模型综合测评题库说明17本次问题部分共300题,具体分布如下:题类别问题总量分类题数知识题30科学常识4历史常识3医学常识3法律常识4地理常识3活常识3购物推荐5商业常识5词句理解题30关键字提炼10语义相似判断10怎么办题10商业写作题45营销案写作11邮件写作7视频脚本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 语言 模型 综合 能力 测评 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。