分销赏收藏举报申诉 / 42

立即下载开通VIP

当前位置：首页 > 研究报告 > 其他 > 2024年大语言模型综合能力测评报告.pdf

2024年大语言模型综合能力测评报告.pdf

上传人：Stan****Shan

文档编号：1233435

上传时间：2024-04-19

格式：PDF

页数：42

大小：4.18MB

《2024年大语言模型综合能力测评报告.pdf》由会员分享，可在线阅读，更多相关《2024年大语言模型综合能力测评报告.pdf（42页珍藏版）》请在咨信网上搜索。

1、1大模型综合能力测评报告20242模型市场发展洞察2023年，全球模型市场进爆发阶段3模型诞阶段模型探索阶段模型爆发阶段2017-2018年2019-2021年2022-2023年 6.12 歌推出于处理然语任务的Transformer 神经络架构2017 6.11 OpenAI 发布 GPT-1 11.22 歌推出BERT2018 3.16 百度推出可以准确理解语义的 ERNIE 1.0 8.21 OpenAI 发布 GPT-2 并部分开源 10.11 歌推出 BERT 模型的两个新版本RoBERTa 和 XLNet2019 11.5 OpenAI发布120亿参数图像版GPT-32020 1

2、.16 OpenAI推出能实现本成图像的DALL-E模型 4.25 华为正式发布盘古模型 8.10 OpenAI推出Codex2021 2.7 歌发布Bard以应对ChatGPT 2.20 复旦团队发布MOSS 2.23 微软基于ChatGPT发布New Bing 2.25 FaceBook发布LLaMA-13B 3.14 OpenAI发布GPT-4并实现图像识别 3.16 百度发布 3.17 微软宣布将GPT-4接Office全家桶 4.10 昆仑万维发布天3.52023 11.30 OpenAI 推出 ChatGPT2022在诞阶段，以Transformer为代表的全新神经络架构，奠定了模

3、型的算法架构基础，使模型技术的性能得到了显著提升。在探索期，基于类反馈的强化学习（RHLF）、代码预训练、指令微调等开始出现，被于进步提推理能和任务泛化。在爆发期，数据、算和算法完美结合，具备了多模态理解与多类型内容成能。4.11 阿云发布通义千问 5 百度发布模型3.5 5.6 科讯发布认知模型 5.11 歌更新Bard并推出PaLM 2模型 5.24 微软宣布Windows系统全位集成Copilot2023年中央及地政府积极制定政策励和规范模型产业发展4序号时间件名主要内容12023年7成式智能服务管理暂办法明确了成式智能“提供者”内容产、数据保护、隐私安全等的法定

4、责任及法律依据，确了智能产品的安全评估规定及管理办法。22023年7上海市推动智能模型创新发展的若措施推动上海模型创新发展，营造通智能创新态，加快打造世界级智能产业集群。32023年8电信息制造业20232024年稳增动案励加数据基础设施和智能基础设施建设，满智能、模型应需求。42023年10形机器创新发展指导意到2025年，形机器创新体系初步建，“脑、脑、肢体”等批关键技术取得突破，确保核部组件安全有效供给，开发基于智能模型的形机器“脑”。52023年11北京市智能业模型创新应书（2023年）从模型全球发展态势、国内外业应概述、北京应情况和发展建议等进了系统分析和阐述，旨在进步推动模型应落地

5、，展示北京市模型应成果，促进模型价值传播和供需对接。62023年11东省关于加快建设通智能产业创新引领地的实施意22条举措打造国家通智能产业创新引领地。72023年12关于加快推进视听电产业质量发展的指导意持企业做做强，持智能企业研发视听应模型。82023年12“数据要素x”三年动计划（20242026年）（征求意稿）以科学数据持模型开发，深挖掘包含科技献在内的各类科学数据，通过细粒度的知识抽取，构建科学知识资源底座，建设质量语料稿库和基础科学数据集，持开展通智能模型和垂直领域智能模型训练。2023年，中央及地围绕基础设施、算法、算、数据等领域出台多项政策，坚持发展和安全并重、促进创新和依法治

6、理相结合的原则，励和规范作为硬科技的AI模型产业发展。2023年下半年，中国百模战掀开序幕50102036.14 360发布智脑模型4.06.15 百川智能发布开源Baichuan-7B6.25 清华&智谱AI发布开源ChatGLM2 7.7 华为发布盘古3.07.7 商汤科技发布商量2.07.9 湖发布湖模型7.19 Meta发布开源Llama22 0 2 3 年 6 2 0 2 3 年 8 8.3 阿云推出开源Qwen-7B8.7 元象科技发布开源XVERSE-13B8.11 发布模型MiLM8.17 字节跳动公测模型产品包8.21 云从科技发布从容模型1.59.5 商汤科技发布商量3.0

7、9.6 百川智能发布开源Baichuan29.7 腾讯发布混元助9.20 上海智能实验室发布开源InternLM-20B9.25 OpenAl发布多模态GPT-4V2 0 2 3 年 8 2 0 2 3 年 1 0 10.9 之暗发布Kimi Chat10.17 百度发布模型4.010.24 科讯发布星模型3.010.27 智谱AI开源了ChatGLM3等模型10.30 百川智能发布Baichuan2-192K10.31 阿云发布通义千问2.011.7 OpenAI发布GPT-4 Turbo11.16 OPPO发布AndesGPT11.24 零万物发布开源Yi-34B12.22 腾讯发布混元模

8、型标准版2 0 2 3 年 1 0 2 0 2 3 年 1 2 本理解和逻辑能提升、具备初级代码成、跨模态能多模态、本、逻辑能加强6业模型数据来源：InfoQ研究中根据商官、媒体资讯等公开资料整理服务商研究机构科技公司其他融教育汽游戏电商社交娱传媒影视能源制造通模型从头部企业到百模家族，模型井喷式爆发增医疗在法规的指导下，部分产品开始持证上岗7批次模型名称所属企业第批ABAB模型MiniMax百川模型百川智能混元模型腾讯GLM模型智谱AI盘古模型华为新模型商汤书通模型上海智能实验室通义模型阿百度星认知模型讯云雀模型抖紫东太初模型中科院批次模型名称所属企业第批百灵模型蚂蚁集团MathGPT模型好

9、未来Moonshot之暗壁露卡Luca壁智能奇元模型360天模型昆仑万维WPSAI办公序列猴出问问模型易有道知海图AI模型知乎模型（未公开）美团百度、阿、腾讯、智谱AI、百川智能等多家企业和机构，按照互联信息服务算法推荐管理规定履算法备案和变更、注销备案续，获得备案批准，对公众全开放，标志着模型发展进新阶段，加速推动模型产业化应。截到2023年1231，已有两批超过20个模型获得备案，向公众开放。应范围涵盖然语处理、图像识别、语识别等多个领域，可应于融、医疗、教育等各个领域。说明：表格内大模型排序按照大模型名字拼音首字母进行排序商业经济 20.74%教育医疗 18.09%通用 15.43%工业

10、制造 9.57%生活消费 9.04%传媒&营销 6.91%公共事务 6.91%信息&安全 6.91%其他 3.72%文化娱乐 2.66%2023年，中国模型产品从通产品向多业拓展8Q1Q2Q3Q4未知2023年中国主要模型发布时间统计 2023年公布的中国模型产品中，84.57%的模型产品为通业模型。其中商业经济、教育医疗占均于通模型占。数据结果统计显示中国模型产品发布时间集中于Q2和Q3，占达全年的80.32%。45.21%35.11%2.66%13.3%3.72%80.32%数据来源：根据公开资料搜集的中国188个模型&产品统计得出通15.43%通业 84.57%2023年中国通模型和业应

11、产品统计2023年，模型层百花放，并逐渐开始应探索9数据来源：InfoQ研究中根据商官、媒体资讯等公开资料整理AntFinGLM云商悟道PolyLM郎神天河天元紫东太初moss科技公司研究机构教育模型教育服务商游戏电商盘古跨境电商模型传媒影视传媒/影视业模型盘古媒体模型社交娱曲模型游戏业模型通模型业模型仓颉汽模型v汽融能源制造医疗其他能源/制造业模型融业模型航天/城市/社科/业模型星教育模型盘古矿模型盘古汽模型盘古象模型科讯营销模型因融模型FD-LLM吉利星睿大模型?ChatJD代码深睿医疗智能多模态科研平台光融智能助淘宝问问Hi Echo业模型应客服营销协同办公WPS AI其他通义犀混元盘古

12、鸿湖九天星河基础模型ChatGLM源1.0Baichuan智脑新从容孟天海湖天书星序列猴星医疗模型叮当HealthGPTChatBot从通模型到模型产品，模型细分应赛道不断涌现10102023年国内主要科技公司在推出通模型的同时，也正在根据企业资源特征、户使场景、态圈层需求等将通模型产品逐渐扩展成为覆盖多个应场景的产品家族。模型头部商逐渐形成。通模型：通义模型模型产品：通义千问业产品家族：融、法律、医疗等业9款产品通模型：模型模型产品：、格业产品家族：媒体、能源、融等业的13款产品通模型：讯星认知模型模型产品：讯星业产品家族：教育、办公、汽等业的4款产品通模型：混元模型通模型产品：腾讯混元业产

13、品家族：融、旅等业的5款产品2023年模型从极客世界向众11从定邀众户到 APP 端众可以直接下载，模型产品正在从极客世界向更多众。012023年上半年只有少数款产品可以直接申请使。部分产品需要获得开发的企业定向邀请，才能注册使。产品发布邀请测试022023年831起，、通义千问、讯星等产品逐步完全向公众开放，9APP应商店的下载冠军多次由模型产品获得。向公众开放测试03通义千问驻钉钉号，百度库也接了，上线了智能助功能。办公场景中，模型开始更直接地与户互动，性能平直线提升。常应中嵌套功能2023年下半年，中国模型户开始真正使产品122023年 86.2%2023年以前 13.8%32.83%3

14、8.98%28.19%2023年1月-6月2023年6月-8月2023年9月-12月开发者开始使模型产品的时间统计67.17%2023年9起，中国模型产品开始陆续开放公众注册和使功能。以开发者为例，户模型产品开始使时间67.17%集中在2023年下半年。数据来源，2023年12 InfoQ 编辑部发起的开发者调研，N=12172023年，中国模型正在进更多户的认知智中134.10%4.30%4.60%5.10%7.20%10.20%11.50%23.20%24.20%27.90%30.00%37.10%46.30%52.20%0.00%10.00%20.00%30.00%40.00%50.00

15、%60.00%商汤科技商量Sense Chat智源悟道大模型MOSS大模型360智脑大模型昆仑万维天工大模型Stable Video Diffusion百川大模型智谱Chat GLM 3大模型华为盘古大模型讯飞星火大模型LLaMA 2阿里通义大模型百度文心大模型GPT系列大模型开发者模型的认知度统计数据来源，2023年12 InfoQ 发起的开发者调研，N=1217第梯队GPT系列模型、百度模型近半数受访开发者了解或使过上述模型。01开发者认知智梯队基本形成02第梯队阿通义模型、LLaMA 2、讯星模型、华为盘古模型、智谱Chat GLM 3模型超过1/5的受访开发者了解或使过第梯队模型。03

16、第三梯队百川模型、Stable Video、Diffusion、昆仑万维天模型、360智脑模型、MOSS模型、智源悟道模型、商汤科技商量Sense Chat模型认知度为4%-11.5%。14模型产品测评法和综合结果大模型综合测评产品和版本15编号分类权重具体任务测试法题类型1语义理解10%语理解能古诗识记、中分词和词性标注、命名实体识别、阅读理解、实体关系抽取关键字提炼、语义相似判断、怎么办题2学写作5%根据给定条件，成连贯本制作案作写作、中特写作给出主题，成连贯本制作多种类型的案对对联、写诗词3知识问答5%知识问答历史常识、法律常识、地理常识、商业常识、医学常识、科学常识、活常识、购物常识4

17、逻辑推理20%抽象给定应场景，执数学计算任务数值计算数学应题、数学计算题、商务制表题数学逻辑推理逻辑推理中特推理、MBA逻辑题、编程类5编程15%代码能程序编写、错误提示、IT知识问答代码动补全、错误提示和修复、本摘要、IT知识问答6上下理解15%多轮对话的理解、连贯上下题、多轮对话上下题模型综合测评产品和版本16本次测评选取的模型产品及使版本GPT-4ChatGPT 4模型4.0专业版百川模型53B百川模型v1.0星认知模型3.0讯星V3.0360智脑4.0360智脑4.0ChatGLM-3智谱清版云雀模型包Moonshot AI模型Kimi Chat版通义千问模型2.0通义千问V2.1.1

18、Gemini ProBard 2.0编号分类权重具体任务测试法题类型7语境感知10%通过语境推测身份商务应题营销案、视频脚本、市场分析报告、市场运营报告、邮件写作8多语能10%完成涉及多种语任务英翻译题英翻译、英阅读理解、英作9多模态能10%图、智能语等多模态问题字输图回答、字输语输出模型版本：产品版本：模型版本：产品版本：模型综合测评题库说明17本次问题部分共300题，具体分布如下：题类别问题总量分类题数知识题30科学常识4历史常识3医学常识3法律常识4地理常识3活常识3购物推荐5商业常识5词句理解题30关键字提炼10语义相似判断10怎么办题10商业写作题45营销案写作11邮件写作7视频脚本

19、10访谈提纲5市场分析报告6市场运营报告6学题20简单作写作5对对联5写诗词5中特写作题5题类别问题总量分类题数逻辑推理题60中特推理题10商务制表题10数学应题15幽默题5数学计算题10MBA逻辑题10编程类60代码动补全15错误提示和修复15本摘要15IT知识问答15翻译题15英译中5英阅读理解5英写作5多模态20字输图回答10字输语输出10上下阅读20连贯性测试10上下推理10部分进阶能板块获得得分率，模型能整体提升18排名测试类型综合得分率1编程类87.00%2翻译题85.00%3知识题84.68%4商业写作题82.22%5学写作题81.00%6词句理解题74.17%7上下理解题65.

20、25%8逻辑推理题51.92%9多模态20.50%模型综合测试结果数据说明：InfoQ 研究中绘制测评结果仅基于上所列模型，测评截时间为2024年1503进阶能更为进阶的理解02进阶能逻辑推理能01基础能认知和学习能知识类题、学写作能平依旧较多模态和上下识别能展现了显著的进步与提升编程类、商业写作能表现良好核发现模型“进阶能”幅提升19题类型得分率增逻辑推理题（进阶能）49.45%编程类（进阶能）34.70%上下理解题（进阶能）34.54%知识题（基础能）30.14%翻译题（进阶能）24.4%学写作题（基础能）7.28%商业写作题（基础能）4.5%词句理解题（基础能）2.12%23.39%与2

21、023年5测试结果相，整体得分率平均提升23.39%（除多模态题）。30%+与2023年5测试结果相，近半数能得分率提升了超过30%。35.77%与2023年5测试结果相，进阶能平均得分率提升了35.77%。核发现编程能得到开发者认可，付费率达63.5%20开发者模型付费例已经付费没有付费63.5%模型产品因在开发者中泛使，编程能提升迅速，编程题平均得分87%，较上次测试得分率提升49.45%。作为批使模型产品的户，开发者对模型整体认可程度，付费率达63.5%。付费超过1000元的开发者占12.1%。开发者模型付费的额分布87%平均得分率49.45%较上次提升数据来源，2023年12InfoQ

22、编辑部发起的开发者调研，N=1217本次测试结果16.90%12.80%13.10%8.50%12.10%100元以下101-200元201-500元501-1000元1000元以上21核发现上下能攻坚，平幅提升4.0对于前后乱序、模糊意图、潜台词等复杂提示词的理解能基本形成。另外也具备了输条素材图同时成海报、案和视频的综合能。相2023年4发布的1.0版本，通义千问2.0参数量全提升千亿级别，据介绍，其在复杂指令理解、学创作、通数学、知识记忆、幻觉抵御等能上均有显著提升。通义千问Kimi Chat的字处理量达到了20万字。2.5倍于Anthropic公司的Claude-100k（实测约8万字

23、）。可以处理公众号、企业财报、学术论等多种超字量内容。Kimi Chat百川智能发布Baichuan2-192K模型，上下窗达192k，能够处理约35万个汉字，是模型Claude2的4.4倍，更是GPT-4的14倍，是前全球最的上下窗之。百川智能连贯性测试情景适应上下推理代词混乱隐喻和喻上下理解能主要体现为以下能：65%平均得分率34.02%较上次提升本次测试结果核发现多模态能从到有，能搭建进中22包通义千问智谱清ChatGPT2023年5前2023年122023年5国内产品只有具有多模态能，到2023年12多家企业产品具有多模态能。尽管当前平均得分率依旧不高，但与2023年5月的测试成绩相比

24、，分数实现了20倍的显著增长。-0.71%20.05%平均得分率2023年5月测试结果本次测试结果核发现知识能平趋同23得分率 TOP3 产品分类得分率96.88%360智脑90.63%百川智能89.06%医学常识得分率最，获得98.33%科学常识得分率较低，仅为66.25%84.68%知识题平均得分率98.33%96.67%93.33%89.00%83.00%77.50%73.33%66.25%医学常识地理常识活常识商业常识购物推荐法律常识历史常识科学常识知识题得分率分布核发现知识能平趋同24得分率 TOP3 产品分类得分率ChatGPT88.33%81.67%通义千问78.33%怎么办题得

25、分率最，获得94.5%关键字提炼得分率较低，仅为51%74.17%词句理解题平均得分率94.50%77.00%51.00%怎么办题语义相似判断关键字提炼词句理解得分率分布精彩知识题回答25东院的花鸡在院的鸡窝下了个蛋，这个蛋的“产权”应归谁呢？这个问题具有幽默感，涉及到对“产权”的有趣解读。先，让我们从个不同的度进分析：从字意义上看，蛋是花鸡产的。根据这个逻辑，蛋的“产权”应该属于下蛋的花鸡。从地理位置度看，蛋是在院的鸡窝下的。这意味着院的鸡窝为蛋提供了保护。因此，院或鸡窝的主可能会认为他们拥有这个蛋的“产权”。考虑到法律或常规的所有权观念，般来说，动物产的物品（如鸡蛋）通常归该动物的主所有。

26、所以，如果花鸡属于东院，那么蛋的“产权”应该归东院的主。综上所述，这个问题没有明确的答案，因为它取决于我们如何定义和看待“产权”。从物学度看，蛋属于下蛋的花鸡；从地理位置度看，蛋属于院或鸡窝的主；从般的所有权观念来看，蛋可能属于花鸡的主，即东院的主。因此，这个蛋的“产权”归属是个开放的问题，取决于解读的度和背景。答案1问题1 问题2答案怀孕期间不能吃什么果？怀孕期间，以下类型的果应适量或避免：易过敏果：如菠萝，部分孕妇可能对其过敏，出现肤瘙痒、发红、恶呕吐等症状。难消化果：如桃和杏，含有鞣酸等物质，量可能导致消化不良，特别是对于有消化疾病史的孕妇。热量果：如榴莲，糖分和热量较，过多可能引起体重

27、过重和糖升，甚导致妊娠期糖尿病。热性果：中医认为荔枝、桂圆等属于热性物，过多可能使孕妇上，出现燥、便燥等症状。寒性果：如，被认为是寒性果，过量可能伤脾助湿。刚从冰箱取出的果：冷可能会对孕妇的胃肠造成刺激，引发消化不良、胃肠功能紊乱和腹痛。通义千问答案答案2核发现写作能平表现突出26写作能得分率 TOP3 产品分类得分率90%360智脑90%Bard90%学题平均得分率简单作写作得分率最，获得90%对对联得分率较低，仅为70%81%90.00%87.00%77.00%70.00%简单作写作写诗词中特写作题对对联学题得分率分布核发现写作能平表现突出27得分率 TOP3 产品分类得分率通义千问91.

28、54%Bard89.87%讯星87.60%访谈提纲得分率最，获得100%市场运营报告得分率较低，仅为66.67%82.22%商业写作题平得分率100.00%96.43%80.91%78.50%70.83%66.67%访谈提纲邮件写作营销案写作视频脚本市场分析报告市场运营报告商务写作得分率分布核发现写作能平表现突出28得分率 TOP3 产品分类得分率93.33%通义千问93.33%百川智能93.33%英写作得分率最，获得100%英译中得分率较低，仅为73%85%翻译题平均得分率100%74.55%73%英文写作英文阅读理解英译中翻译题得分率分布精彩写作题回答29请帮我写诗抒发我在游完后的美好情归

29、来欢畅，仙境之美难相忘。奇峰异眼帘，云海翻腾似浪漾。松送爽畔响，清溪流洗庞。此留下美好忆，情永悠。答案1问题1 问题2答案史铁的格描写我感觉很累在这个纷扰的世界，我感到了前所未有的疲惫。每天，我都像是在尽的沙漠中跋涉，每步都沉重艰难。我渴望宁静的绿洲，个可以让我放下重担，让灵得到刻安宁的地。然，活总是不断地向我提出挑战，我必须坚强，必须继续前。Kimi Chat答案答案2精彩写作题回答30问题3 请帮我根据以下场景，撰写视频脚本：某企业即将召开年度的技术会，主持需要围绕“升级数智底座”的话题，进街采、体验以及点评。让没到场的观众也能对会有整体的感受，了解会要传递的核价值。时间4-5分钟镜头1画

30、展示繁华的城市街景，楼厦、流如织旁：在这座城市的脉搏中，场技术的盛宴即将拉开帷幕。镜头2画切换主持站在街头，持话筒主持：家好，我现在所在的位置是城市名，这即将举办场引领时代的技术会“升级数智底座”！镜头3画展示街采段，市或专业谈论对会的期待市A：常期待这次会，希望能看到更多前沿技术！专家B：我认为“升级数智底座”这个主题常契合当下的发展趋势。镜头4画切换主持体验新技术产品或服务的场景主持：家看，这就是我亲身体验的最新技术产品。它不仅改变了我们的常活，更是引领了业的发展向！镜头5画展示会现场的热闹场景，们交流、展示、学习的瞬间旁：这就是会的现场，个充满激情与活的交流平台，汇聚了来世界各地的技术精

31、英。镜头6画切换主持站在舞台中央主持：通过今天的体验和街采，我们可以深深感受到这次技术会所带来的震撼和魅。它不仅展示了最前沿的技术成果，更是激发了我们对未来限可能的美好期待。结尾画展示会logo和期旁：敬请期待公司名称举办的“升级数智底座”技术会，我们不不散！答案答案3核发现逻辑能仍然是模型的主要挑战31得分率 TOP3 产品分类得分率59.17%通义千问56.67%ChatGPT56.67%商务制表得分率最，获得79.5%数学计算和数学应题得分率较低，仅为44%左右。51.92%逻辑题平均得分率79.50%74.00%51.25%45.00%44.67%44.00%商务制表题幽默题中特推理题

32、MBA逻辑题数学应题数学计算题逻辑题得分率分布核发现逻辑能仍然是模型的主要挑战32得分率 TOP3 产品分类得分率82.50%百川智能75.00%ChatGPT75.00%Kimi Chat75.00%65.25%上下题平均得分率；连贯性测试得分80.91%上下得分49.09%80.91%49.09%连贯性测试上下推理上下题得分率分布核发现编程类题表现亮眼33得分率 TOP3 产品分类得分率95.00%通义千问95.00%360智脑93.30%IT知识题得分率最，获得94%代码动补全题得分率较低，为78.33%87%编程题平均得分率94.00%93.33%82.33%78.33%IT知识问答错

33、误提示和修复本摘要代码动补全编程题得分率分布精彩逻辑推理题回答34林黛三打精讲的什么故事？林黛是中国古典说红楼梦中的主要物之，精是中国古代说游记中的妖怪。因此，“林黛三打精”并没有特定的故事情节，可能是的创意脑洞或者些次创作、同作品的内容。答案1问题1 问题2答案20222023-20212024这个题的计算过程是什么？2022 2023-2021 2024=(2021+1)2023-2021 (2023+1)=2021 2023+2023-2021 2023-2021=2023-2021=2 百川智能答案答案2核发现多模态能是头部企业的领先特征35得分率 TOP3 产品分类得分率ChatGP

34、T95.00%77.50%讯星75.00%20.5%多模态题平均得分率在多模态产品的得分率中存在显著差异，多数产品虽具备转图功能，但字输语回答能较少。41.50%-0.50%文字输入图片回答文字输入语音回答多模态题得分率精彩多模态题回答36请制作系列关于鸭的表情包答案1问题1 问题2ChatGPT答案请以以下诗句花幅画，间四芳菲尽，寺桃花始盛开答案答案2讯星答案国内模型产品格局初步形成，头部企业呈现领先态势37排名模型产品综合得分率1ChatGPT483.32%2专业版82.90%3讯星 V3.070.77%4通义千问 2.169.95%5Bard 2.067.82%6包62.19%7智谱清版

35、61.91%8Kimi Chat 版61.14%9360智脑4.061.00%10百川模型v1.058.93%产品能具有阶段性特征，产品间仍然存在时间差386前发布的产品2023年6前发布的多数产品已少完成两次更新，其中升级4.0版本、讯星升级3.0版本、通义千问升级到2.1版本。这些产品的对话基础能已相当成熟，并正逐步深化进阶功能。它们在产品逻辑、编程及上下处理能上，显著领先于6以后发布的产品。6后发布的产品6以来发布的产品，例如包、百川智能等，多数仍处于个版本阶段，产品多数拥有项或两项突出的能，如常识对话（部分产品）、视频脚本（包）、逻辑推理（百川智能和 Kimi Chat）等。但是从整体

36、的综合能考量，这些产品的综合能相对较弱。进阶能攻坚基础能夯实39模型产品未来发展展望40户超级多 2023年初 Open AI发布ChatGPT4，迅速获得了量户，成为全球最快达到1亿户的应，仅了短短2周的时间。中国的模型产品在娱乐、教育等户基数领域具有泛的应场景，未来有望在全AI浪潮的推动下，快速聚集超级量级的户规模。01装机必备在2024年，OpenAI推出了其创新性的模型应商店，这平台被视为AI时代的核应集散地，为业发展设定了新的标杆。中国在软硬件结合领域，特别是在强的机制造业基础上，展现了其独特优势，这为中国在软件领域的进步发展奠定了坚实基础。论是由硬件商还是软件商主导，模型产品的合

37、作将在2024年成为业内显著的发展趋势，这不仅预示着业未来的发展向，也将塑造业的未来格局。02模型产品有望诞新的超级应模型产品具有诞新超级应的潜，模型产品有望成为AI时代的新户增引擎41融、教育、医疗、能源等业量企业开始意识到模型产品的价值，并积极倡导使这些产品来提员的作效率。随着企业对数字化转型的需求不断增，模型产品在企业级市场的应场景也在不断拓展。企业侧模型价值显现在业落地场景中，模型产品的应已经从简单的客服机器扩展到了智能客服、智能控、智能推荐等多个领域。这些应场景的探索不仅为企业带来了更效、更智能的解决案，还为整个业的发展注了新的活。2024年模型企业级市场有望迎来快速发展的时期。从统计数据可以看到成式AI开发者已经在办公、业制造、教育、融等多个业开展研发作。其中，办公场景中模型已经被泛应起来，未来业制造、教育、融、社交等场景也将快速推进，推动模型整体业的快速升级。企业侧模型应场景快速推进42.60%26.70%23.80%20.00%19.60%15.00%13.80%13.60%11.80%6.20%办公业制造教育融社交汽游戏媒体消费零售其他成式AI开发者所在业统计2024年企业级需求落地将成为重要的业向数据来源，2023年12 InfoQ 编辑部发起的开发者调研，N=1217

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档保存到电脑，查找使用更方便

25 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 2024 语言模型综合能力测评报告

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，个别因单元格分列造成显示页码不一将协商解决，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【Stan****Shan】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。

关于本文

本文标题：2024年大语言模型综合能力测评报告.pdf
链接地址：https://www.zixin.com.cn/doc/1233435.html

Stan****Shan

内容提供者

实名认证

查看上传人更多文档

部分上传会员的收益排行 01、路***（￥15400+），
02、曲****（￥15300+），
03、wei****016（￥13200+）,
04、大***流（￥12600+），
05、Fis****915（￥4200+），
06、h****i（￥4100+），
07、Q**（￥3400+），
08、自******点（￥2400+），
09、h*****x（￥1400+），
10、c****e（￥1100+）,
11、be*****ha（￥800+），
12、13********8（￥800+）。

相似文档

自信AI助手