2023爱模型厂商全景报告.pdf
《2023爱模型厂商全景报告.pdf》由会员分享,可在线阅读,更多相关《2023爱模型厂商全景报告.pdf(77页珍藏版)》请在咨信网上搜索。
1、?1?|?2023?1?|?2023?2?|?2023?目录 1.研究范围定义?1 2.厂商全景地图?5 3.市场分析与厂商评估?11?3.1 知识库问答?1818 爱数 14 3.2 对话式分析?1818 飞算科技 21 3.3 AI Agent?2626 澜码科技 28 3.4 通用大模型?3232 出门问问 34 3.5 行业大模型?4040 拓尔思 42 3.6 企业大模型?4646 滴普科技 49 3.7 大模型安全流通平台?5555 揽睿星舟 58 4.入选厂商列表?64 关于厂商全景报告?70?3?|?2023?关于爱分析?71 研究与咨询服务?72 法律声明?73?4?|?20
2、23?研究范围定义?1?|?2023?1.研究范围定义 研究范围 大模型是指通过在海量数据上依托强大算力资源进行训练后能完成大量不同下游任务的模型。2023年以来,ChatGPT 引爆全球大模型市场。国内众多大模型先后公测,众多互联网领军者投身大模型事业,使得大模型市场进入“百团大战”阶段,2023 年成为公认的“大模型元年”。企业用户方面,大模型的应用速度之快超乎想象。2023 年初,企业管理层对大模型的话题还停留在大模型是什么,是不是概念炒作。短短半年,大模型已经从饭后谈资走向落地应用。大企业管理层们希望了解到大模型能为企业发展带来哪些变革,大模型的应用路径是什么,如何提升大模型的投资回报
3、率,以及应该为拥抱大模型做哪些准备。而且,大模型吸引的人群也愈发广泛,不仅吸引 CIO、CTO 等技术管理者的关注,CEO、CMO 等非技术类管理者同样期待大模型在业务中发挥价值。这些转变表明,大模型的变革之力正日益得到产业界的认可。通过对市场规模数据的分析,能较为直观地体现出企业对大模型应用落地的热情。爱分析数据显示,2023 年中国大模型市场规模约为 50 亿元(人民币,下同)。2023 年,企业在大模型方面的采购特点是论证多、采购少,各企业计划在 2024 年开始大量释放大模型预算,因此市场规模将大幅增长,预计达到 120 亿元。爱分析认为,大模型市场从技术架构角度可以划分为基础层、模型
4、层、中间层和应用层。基础层是指为大模型训练推理而提供的基础环境,包括湖仓一体、向量数据库、智算中心、大模型安全流通平台等。模型层是指基础大模型以及微调后的大模型,包括通用大模型、行业大模型、领域大模型和企业大模型。中间层是模型层和应用层之间的“桥梁”,有利于大模型在各种实际场景快速落地,包括大模型应用开发工具、LLMOps 工具等。应用层是指大模型应用和解决方案,包括知识库问答、智能客服、对话式分析等。大模型市场划分详见下图。?2?|?2023?本报告重点选取知识库问答、对话式分析、AI Agent、通用大模型、行业大模型、企业大模型、大模型安全流通平台七个市场进行研究。厂商入选标准 本次入选
5、报告的厂商需同时符合以下条件:?3?|?2023?l 厂商的产品服务满足各市场分析的厂商能力要求;l 近一年厂商具备一定数量以上的企业付费客户(参考第 3 章各市场分析部分);(注:“近一年”指 2023 年 Q1 至 2023 年 Q4)?4?|?2023?厂商全景地图?5?|?2023?2.厂商全景地图 爱分析基于对甲方企业和典型厂商的调研以及桌面研究,遴选出在大模型市场中具备成熟解决方案和落地能力的入选厂商。?6?|?2023?7?|?2023?8?|?2023?9?|?2023?10?|?2023?市场分析与厂商评估?11?|?2023?3.市场分析与厂商评估 爱分析对本次大模型项目重
6、点研究的特定市场定义如下。同时,针对参与此次报告的部分代表厂商,爱分析撰写了厂商能力评估。3.1 知识库问答 市场定义:知识库问答是指将大模型与知识库相结合,改变原有的知识库构建、应用与运维的方式,致力于更好地支撑企业管理层及全体员工的知识检索与应用需求。甲方终端用户:企业管理层及全体员工 甲方核心需求:成本可控、验证速度较快、覆盖的企业内部用户比较多等多重因素共同作用下,知识库成为大模型在企业落地的首选场景之一。从渗透情况来看,大模型在知识构建、知识校验和知识库应用三个环节渗透较深。图 1 知识库构建流程及大模型渗透情况?12?|?2023?基于大模型在知识库场景的渗透情况,当前甲方对知识库
7、问答主要有三项核心需求,一是压缩知识库冷启动时间,二是降低知识校验环节对人工的依赖,三是企业亟需解决幻觉问题。l 压缩知识库冷启动时间。当前,知识构建工作比较依赖话术师,他们负责整理问答对和扩写相似问,此过程比较依赖他们的个人经验。一个话术师整理一类知识库通常需要耗费大约 1-3 个月的时间。知识构建是知识库冷启动的核心环节,知识构建效率偏低会直接导致知识库冷启动时间比较长。企业需要借助大模型的理解能力和生成能力压缩知识库冷启动时间。引入大模型之后,可以提升问答对整理和相似问扩写的速度,甚至可以直接采用“大模型+文档库”的方式,实现更极致的冷启动压缩。l 降低知识校验环节对人工的依赖。在完成知
8、识构建后,企业需要校验知识准确性以及文法细节,此环节主要靠人工来实现。并且,该工作对相关人员的工作经验有较高要求。企业希望借助大模型实现自动化知识校验。l 知识库交互方式变化,企业亟需解决幻觉问题,生成可信的答案。传统知识库主要采用人工检索方式,很难直接告诉用户答案,该交互方式比较低效。企业需要利用大模型的生成能力直接生成用户所需的答案。但是,交互方式的变化也为知识库应用带来新的挑战,即大模型幻觉导致的答案不可信。厂商能力要求:厂商需要满足三项能力要求,一是具备利用大模型进行知识分类、知识抽取和问答对拆分的能力,二是具备解决两个校验难题的方案,三是具备 RAG、微调等缓解大模型幻觉的能力。l
9、具备利用大模型进行知识分类、知识抽取和问答对拆分的能力。引入大模型之后,首先可以做知识域的自动分类。第二个作用是自动抽取知识点的实体和关系,本质是基于大模型做预处理,?13?|?2023?降低对人工的依赖程度。第三个作用是问答对拆分和相似问扩写。过去,该环节非常依赖话术师,有大模型以后可以实现自动化,相关人员则转变为审核职能,即主要负责知识管理,而非知识创建。l 具备解决两个校验难题的方案。直接利用大模型进行知识校验存在两个比较明显的问题。首先是过度校验。即原来的回答比较准确,但大模型会演绎出很多新内容,导致校验工作质量下降。第二个问题是新词校验存在滞后性,因为大模型背后的知识是无法实时更新的
10、。厂商可以通过Prompt 工程、RAG、微调大模型等方式解决上述两个问题。l 具备 RAG、微调等缓解大模型幻觉的能力。企业需要利用大模型的生成能力直接生成用户所需的答案。但是,交互方式的变化也为知识库应用带来新的挑战,即大模型幻觉导致的答案不可信。厂商需要具体幻觉大模型幻觉的能力,主要有 RAG、微调两种方式。RAG 是指在大语言模型推理生成答案时,额外检索调用外部的知识,然后综合其检索结果进行回答生成。RAG 为大模型提供了准确、丰富、可解释的知识支撑,从而实现更准确的语义理解、答案推理以及答案解释。微调则是厂商根据行业或企业数据,对基础大模型进行优化,以便其更好地胜任特定任务。对基础大
11、模型进行后训练也是一种缓解大模型幻觉的方式,但较高的成本导致其可行性较低。入选标准:1.符合知识库问答市场分析的厂商能力要求;2.近一年厂商在该市场至少服务 1 家企业(含 POC)。代表厂商评估:?14?|?2023?爱数 厂商介绍:爱数是一家全域数据能力服务商,通过全域数据的整合、治理、洞察与保护,实现数据的资产化和知识化,与客户共同打造数据驱动型组织。2003 年爱数在长沙起步,2006 年上海爱数成立,2023 年爱数集团正式成立,公司双总部位于上海、长沙,目前全球员工约 1700 人,业务遍及 60 多个国家与地区,合作伙伴超过千家,客户积累超过 27000 家,分布于金融、高端制造
12、、运营商、政府、公共事业等各行业。产品服务介绍:爱数产品架构分为基础层、认知层和产品层。基础层提供 GPU 集群和混合数据湖;认知层则通过领域大模型与领域知识网络相互增强,实现认知能力;产品层是指 AnyFabric(数据编织架构)、AnyShare(智能内容管理平台)、AnyRobot(可观测性平台)和 AnyBackup(统一数据管理平台)等多个应用产品,它们通过认知助手获得大模型赋能。AnyShare family 7 是 AnyShare 的最新产品,它是爱数打造的属于 AGI 时代的智能内容管理平台。AnyShare family 7 通过挖掘非结构化数据的标签、编目、实体对象,形成
13、的事件信息和知识,可以服务于合同一致性和风险审核、文案撰写、资料查找。并且,在 AnyShare 认知助手加持下,AnyShare family 7 实现了大模型辅助创作、辅助内容阅读和智能搜索,同时可以通过内容开放 API 和组件被企业应用集成。?15?|?2023?厂商评估:爱数提供“企业知识+大模型”端到端解决方案,涵盖算力、基础大模型、知识化、应用等多个层面。并且,AnyShare 存量客户只需采购爱数大模型一体机和 AnyShare 认知助手,即可实现轻量化升级。在大模型幻觉方面,爱数以检索增强生成模式(RAG)实现大模型领域化,可以有效缓解幻觉产生。在交付方面,爱数拥有完备的数据管
14、理能力和服务团队,有利于大模型在企业真正发挥价值。同时,AnyShare family 7 全模块开放,支持企业搭建个性化应用和流程。l 爱数提供“企业知识+大模型”端到端解决方案,涵盖算力、基础大模型、知识化、应用等多个层面。在算力层面,爱数推出大模型一体机(AS19000),不仅让企业能够“开箱即用”,而且该产品将大模型训练与推理分离,实现低成本训练和低资源推理。爱数大模型一体机具有国产芯片和国外芯片两种型号,可以满足不同企业的需求。在基础大模型方面,爱数采用“中立”的架构设计,避免捆绑企业。如果企业没有倾向的大模型,可以直接采购封装了基础大模型的爱数大模型一体机;如果企业有倾向的大模型,
15、可以直接将其接入 AnyShare family 7。基础大模型之上是企业数据知识化能力层,爱数可以通过机器学习算法对企业数据进行解构,然后通过重新组装实现语义对齐,最终将其编织到领域知识网络之中。在此方面,爱数具备将企业数据以低成本、自动化方式转化为企业知识的能力。最上面是应用层,爱数提供内容门户、文档中心、工作中心、知识中心、表格中心、SAP 数据资产管理等多个应用。l AnyShare 存量客户只需采购爱数大模型一体机和 AnyShare 认知助手,即可实现轻量化升级。企业比较担心大模型应用对企业现状的挑战。一是 IT 投入挑战,如果需要企业将原有系统推倒,转而使用大模型相关应用,会带来
16、比较高的投入。二是 IT 负责人规划能力会受到质疑,因为企业原有系统可能刚刚完成建设,未到更新换代的时候,IT 负责人推进大模型应用落地可能受到来自企业内部的质疑。三是业务连续性受到挑战,企业将原有系统推倒重建,可能需要较长时间完成系统切换,影响业务开展。爱数 AnyShare 产品推出时间较久,有众多存量?16?|?2023?客户。对他们而言,只需采购爱数大模型一体机和 AnyShare 认知助手,即可实现轻量化升级。大模型一体机包含算力和基础大模型,AnyShare 认知助手包含爱数所有基于大模型构建的 AI 能力。因此,AnyShare 存量客户无需推倒原来系统,即可低成本、快速地完成“
17、大模型升级”。l 爱数以检索增强生成模式(RAG)实现大模型领域化,有效缓解大模型幻觉。目前,大模型领域化有两种解决思路,分别是检索增强模式(RAG)和 Finetune(微调)。检索增强是指在大语言模型推理生成答案时,额外检索调用外部的领域知识网络(领域数据、概念库、知识图谱等),然后综合其检索结果进行回答生成。领域知识网络为大模型提供了准确、丰富、可解释的知识支撑,从而实现更准确的语义理解、答案推理以及答案解释。相比单纯依靠模型训练,外部领域知识网络的引入可以大幅提升回答的准确性和合规性。它有效减少了大模型幻觉,使应用更加可控。爱数以领域知识网络“可控制、可编辑、可保护、可溯源”等特性弥补
18、大模型“不可控、难编辑”等缺陷,有效减少大模型“幻觉”现象的发生。同时,在构建领域知识网络的过程中,爱数利用大模型的知识提取能力,从已有数据中抽取补充知识,实现知识网络的不断丰富和优化。通过这种良性循环,外部知识网络的引入强化了大模型的知识抽取能力,从而反过来进一步完善知识网络本身。最终使基于该知识网络的大模型应用效果持续提升。l 爱数拥有完备的数据管理能力和服务团队,有利于大模型在企业真正发挥价值。基础大模型是实现“企业知识+大模型”的核心,但不是全部,厂商还需要具备权限控制、杀毒、水印等一系列数据管理能力。如果厂商只掌握预训练、微调等方法,容易导致企业在“企业知识+大模型”的应用之路上停留
19、在比较初级的阶段。爱数 AnyShare 产品已有十余年历史,交付了数千家企业,经过几轮迭代逐渐形成比较完备的数据管理能力,包括权限控制、海量分布式文件管?17?|?2023?理、容灾、备份、杀毒、水印、国产化、涉密管理等。以权限控制为例,企业内不同角色能接触到的数据、能用大模型来理解的数据必受个人权限限制,爱数能够保证经过语义理解的生成式搜索结果一定是根据使用者所拥有权限能看到的文档所产生的,并能在几十到几百毫秒完成一系列查找、生成工作。除此之外,爱数拥有比较完备的组织架构为企业提供端到端的服务。爱数打造了专业的、独立于产品研发的服务团队,分区域为当地客户提供开发、部署等服务。爱数的产品研发
20、团队则专注核心产品的研发迭代,保持产品稳定性。相较于组织架构比较单一的厂商,爱数在交付周期、版本控制、服务品质等方面具有一定优势。l AnyShare family 7 全模块开放,支持企业搭建个性化应用和流程。AnyShare family 7 拥有全新的架构设计,每个模块均保持高度开放性,支持企业搭建个性化应用和流程。企业里一个文档全生命周期包括自动采集录入、对象处理、信息化、杀毒、知识化、纳入知识体系、搜索、门户呈现等环节,AnyShare family 7 在每个环节让特定模块来负责,并保持它们的高度开放性。比如企业可以自定义审批、打水印等流程,自定义搜索目标(人、文档或者产品),自定
21、义门户的个性化呈现等。企业可以在每一环节低成本、快速地按照自身需求进行系统接入和开发。典型客户:国泰君安、金诚同达?18?|?2023?3.2 对话式分析 市场定义:对话式分析是指将大模型与数据分析相结合,改变原有的交互方式与工作流程,致力于更好地支撑企业管理层和业务部门数据分析需求。甲方终端用户:企业管理层、业务部门 甲方核心需求:随着大模型带来能力突破,让 AI 与数据分析相互结合,使分析结果更好地支撑企业管理和业务发展,促进企业内部数据价值释放,成为了当下企业尤为关注的话题。爱分析认为,对话式分析是大模型在 2024 年的重要落地场景之一。核心原因在于对话式分析正在朝着逐渐降低门槛,增强
22、企业业务部门自主性,从而实现自助式分析能力的方向发展。企业对对话式分析有两项核心需求,一是借助大模型实现更准确的意图理解和 SQL 生成,二是借助大模型实现深度分析。l 借助大模型实现更准确的意图理解和 SQL 生成。传统的取数过程中,用户需要明确掌握 SQL语言和相应的数据库结构来提取所需信息。随着 NL2SQL 技术兴起,用户只需使用自然语言描述需求,由后端系统将其转换为适当的 SQL 语句,简化了查询过程。但 NL2SQL 技术仍有缺陷,其自然语言处理能力较弱,在处理模糊查询和复杂意图查询方面存在挑战。例如,NL2SQL技术难以解决像“我想查询公司内部有多少本科以上学历的员工”这种问题,
23、该模型可以准确识别“本科”一词,但难以理解“本科以上”这四个字。大模型为 NL2SQL 带来了更强大意图?19?|?2023?理解能力,在处理模糊、多义或复杂的用户查询时,系统可以更准确地识别用户的真实需求。当然,在大模型出现之前,市场上也存在解决以上问题的方法。这是主要依靠项目化的方法,通过不断的配置和人工微调的方式来解决查询模板无法处理的问句。该方法导致项目交付周期长、成本投入大,并且长期需要运维人员持续维护。除在意图理解方面的优势外,大模型在 SQL 生成方面也可以给企业带来更好的体验。2023 年8 月,Defog 团队推出 SQLCoder 大模型,专门用于将自然语言问题转化为 SQ
24、L 查询。这是一个拥有150亿参数的模型,在自然语言到SQL生成任务上,其性能略微超过gpt-3.5-turbo,并且显著地超越了所有流行的开源模型。l 借助大模型实现深度分析。取数可以视为分析的前置动作,也可以视为浅层分析。其属于描述性分析,用于回答“发生了什么?”,核心要求是呈现全面、准确、实时、可视化的数据。除此之外,企业还需要诊断性、预测性和处方性数据分析。诊断性分析用于回答“为什么会发生”,核心要求是能够深入了解问题的根本原因。预测性分析用于回答“未来可能发生什么”,核心要求是通过历史数据来预测未来。处方性分析用于回答“现在我应该做什么”,核心要求基于数据和分析技术提出具体建议。诊断
25、性、预测性和处方性数据分析需要用相关性分析、预测性分析、因果推断等分析方法来具体实现。企业对对话式分析的期待不局限于取数,而是希望它在深度分析方面可以发挥更大价值。?20?|?2023?图 2 数据分析的四个层次 厂商能力要求:厂商需要满足两项能力要求,一是具备限定查询边界的能力,二是具备训练或微调大模型的能力。l 具备限定查询边界的能力。为保证取数准确率,目前主要采用限定查询边界的解决思路。具体而言,有两种实现路径。一是将大模型与宽表或语义层相结合,运用宽表和数据源来构建语义层,继而在该语义层上进行相应的匹配和查询。这类模式的具体操作方式是,先去精准地匹配到语义层,如果未能实现精准匹配,一般
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 模型 厂商 全景 报告
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。