2024“弈衡”多模态大模型评测体系白皮书.pdf
《2024“弈衡”多模态大模型评测体系白皮书.pdf》由会员分享,可在线阅读,更多相关《2024“弈衡”多模态大模型评测体系白皮书.pdf(30页珍藏版)》请在咨信网上搜索。
1、弈衡弈衡多模态多模态大模型大模型评测体系白皮书评测体系白皮书(20242024 年)年)发布单位:中移智库发布单位:中移智库编制单位:中国移动通信研究院编制单位:中国移动通信研究院.1.31.1 多模态大模型发展现状.31.2 评测需求.41.3 评测问题与挑战.5.72.1 主要评测方式.72.2 典型评测维度.72.3 常见评测指标.8.10.134.1 整体框架.134.2 评测场景.144.3 评测要素.164.4 评测维度.22.25.271随着人工智能技术的迅猛发展,它已成为全球科技革命的核心驱动力。特别是 2017 年Transformer模型提出后,人工智能大模型以超凡的性能和
2、无限的可能性,迅速成为科技界的焦点。2023 年初,GPT-41的问世更是在全球范围内引起了巨大反响,标志着大模型技术首次进入公众视野2。随着大模型技术的不断演进,其处理能力已从单一的文字信息扩展至图像、语音等多模态数据,多模态大模型进入快速发展阶段。它们不仅在日常生活中的辅助作画、图片解读等场景中展现出应用潜力,更在视频数据分析、多目标识别等生产领域发挥着重要作用。目前典型的多模态大模型有国外的GPT-4Vision、Gemini,国内的文心一言、讯飞星火、智谱清言等3。这些大模型算法各异,在不同的任务场景下各有优劣,如何对这些多模态大模型开展客观、科学的评测,评估特定任务场景下的最优选择,
3、对大模型的研发迭代以及应用落地都具有重要意义。相比于语言类大模型,多模态大模型具备对文本、图像、视频和音频等数据进行综合处理的能力,在生产生活领域中具有广泛的应用前景。同时,多模态大模型评测面临评测数据更多样、评测任务更丰富、评测方式更复杂、评测成本更昂贵等挑战。如何应对上述挑战,构建全面、客观的多模态大模型评测体系,成为业界关注的热点问题。目前,部分业界企业和研究机构,如微软、谷歌、智源研究院、上海AI实验室、腾讯优图实验室、厦门大学、南洋理工大学等,发布了相关论文、评测报告,从性能、参数量等维度对业界主流多模态大模型进行了评测,并基于评测结果形成了榜单,如MMbench、MME等。为提升多
4、模态大模型的实际应用效果,推动大模型与生产生活的快速结合,有必要从用户视角出发,构建一套客观全面、公平公正的多模态大模型评测体系。中国移动技术能力评测中心作为中国移动的第三方专业评测机构,联合业界权威机构、头部企业,攻关多模态大模型评测难点技术,基于前期评测数据和评测经验积累构建“弈衡”多模态大模型评测体系,并编制本白皮书,旨在为多模态大模型的评测场景、评测指标、评测方式等提供参考基准,为评测数据和评测工具的构建提供参考指导。本白皮书聚焦于文生图、图生文、图文理解等各类应用场景,深入分析多模态大模型的应用需求,系统总结行业典型评测体系,并创新地提出“弈衡”多模态大模型评测体系,助力大模型技术与
5、行业应用的深度融合。具体包括如下四方面内容:一是总结梳理多模态大模型的应用需求与评测挑战,将评测需求划分为识别、理解、创作、推理四种任务;二是广泛调研业界多模态大模型评测2技术和评测体系,从评测方式、评测维度和评测指标等方面进行分析总结;三是提出“弈衡”多模态大模型“2-4-6”评测框架,针对图文双模态大模型,详细阐述基础任务和应用任务两大评测场景,评测指标、评测数据等四大评测要素,以及功能性、准确性、交互性、安全性等六大评测维度;四是针对多模态大模型演进趋势,展望评测技术重点方向。未来,中国移动将持续跟进多模态大模型发展,不断优化“弈衡”多模态大模型评测体系,与业界合作伙伴一道,共同打造评测
6、产业标准化生态,推动多模态大模型产业成熟和落地应用,为AI+赋能千行百业贡献力量。31.1 多模态大模型发展现状随着人工智能技术的快速发展,多模态大模型对图像、文本、视频和音频等信息的综合处理能力不断增强,其跨模态理解能力、高精度识别与理解能力、强大的泛化能力、丰富的表达能力、增强的交互体验,进一步推动了人工智能技术在各行业的广泛应用4,成为推动产业升级与生产力变革的强大引擎。目前,多模态大模型正在迅速融入到各行业的应用场景中,服务于生产生活的各方面。多模态大模型在多个领域的典型应用如下:行业领域应用企业应用内容创作与审核领域用于图片创作、图片内容理解、图形合成修改等任务。教育科技领域利用图文
7、数据为教育领域提供智能化支持。金融风控领域根据签字等图像数据辅助金融机构提高决策效率。医疗健康领域利用内置摄像头进行辅助诊断,协助医生提高医疗效率。智能制造领域进行缺陷图片检测,助力工厂实现智能化生产、降本增效。软件开发领域根据现有图形界面,辅助提升开发人员的软件开发效率。市场分析领域帮助企业洞察市场动态,优化产品、提供更加安全的服务。法律领域用于文书识别等法律相关任务,降低法律服务成本。媒体与娱乐领域为画师、视频创作者等相关从业者提供创意灵感,提高创作效率。人力资源领域实现人脸识别等人力资源智能管理功能。客服领域应用于智能客服助手等任务,实现图形理解,提高客服效率。公共服务领域利用摄像头等终
8、端识别提高政府服务效率,优化公共资源配置。个人应用旅游领域提供景点照片匹配等个性化的旅行建议和服务。个人金融业务领域用户人脸识别、收支明细预测等个人金融业务。教育辅导领域针对题目进行智能搜索、解答等教育辅导工作。数据搜索领域实现拍图识别、搜索等智能搜索功能。图像修复领域针对老照片、不完整照片等图像进行智能修复与补全。多模态大模型中,图文双模态大模型发展尤为迅速,它在处理图像与文本及其复杂交互关系上取得了显著成果,为内容创作、信息检索、智能决策等多个应用场景带来了革命性的变化,应用范围不断拓宽,影响力日益增强。鉴于图文双模态大模型的重要性和广泛应用前4景,本白皮书主要聚焦图文大模型评测,深入分析
9、评测需求以及面临的问题和挑战,系统讨论关键评测技术,旨在为业界提供一套科学、系统、可操作的图文双模态大模型评测框架,促进技术的健康发展与广泛应用,进一步加速人工智能技术在各行各业的深度融合与创新实践。1.2 评测需求图文大模型相较于传统视觉模型和大语言模型,在图像识别、图文深度理解与推理以及图片创作等复杂图文交互任务中展现出了显著的优势。由于不同图文大模型在处理应用场景时各有专长,因此选择适合各行业特定应用需求的模型变得尤为重要。在对图文大模型进行评测时,需面向不同任务类型,从各个维度进行综合全面的评测,以评估图文大模型的真实性能和用户体验。目前,对图文大模型的评测需求包括但不限于以下几类任务
10、:识别类任务:识别类任务主要是指对图片中的特定事物进行识别、计数等工作。识别类任务主要可分为基础任务和应用任务两类。其中基础任务包含实例识别、颜色识别、手势识别、目标检测等基础场景;应用任务则包含商品识别、垃圾满溢识别、道路安全识别、智慧养殖等更加复杂的端到端场景。识别类任务作为目前最广泛应用的任务之一,是衡量图文大模型性能的重要场景,具有极高的评测价值。在评测识别类任务时,需着重关注模型的准确性、鲁棒性、实时性和泛化能力等指标。理解类任务:理解类任务主要是指针对输入图片进行内容理解,并回答对应问题。理解类任务也可分为基础类及应用类两种。基础类理解任务侧重于考察图文大模型的通用能力,而不过分强
11、调某一特定应用场景中的实际能力。常见的基础类任务包含场景理解、实例属性、空间关系、字幕匹配、图像质量分析等底层核心场景;而应用类任务则着重考察图文大模型在专一领域的实际能力,与目前具有智能化需求的场景结合更加紧密,如活体检测、人像属性、人脸属性、口罩检测、舞蹈艺考评分等。理解类任务相较识别类任务,不仅仅考察模型对某一特定事物的特征识别能力,更要求图文大模型对图像整体场景及各事物之间关系进行精准把控,并依据提问内容进行匹配跟踪,相较识别任务难度更大。在评测理解类任务时,需着重关注模型的准确性、上下文感知、通用性与专一性以及语义一致性等指标。创作类任务:创作类任务主要是指通过给定的文字或图像提示信
12、息进行图片创作或图像修改。常见的创作类任务包含图像生成、图像风格转换、图像合成等,图文大模型根据要求生成相应图片,图片需要在美观上符合人类需求,在逻辑上符合基本的事物原理,在匹配度上完全实现提示词或提示图片中的内容要求。创作类任务综合考察了图文大模型的文字图像理解和图像创作能力,是目前应用最为广泛关注度最高的任务之一。在评估创作类任务时,5需着重关注模型的生成质量、内容匹配度、多样性和创新性等各项指标。推理类任务:推理类任务主要是指结合输入的图像和文本信息,进行逻辑推理、归纳推理或演绎推理等。推理类任务着重考察图文大模型对图片内容中涉及的各类逻辑知识进行理解、推理和解答的能力,是对图文大模型内
13、在核心思考能力的真实反馈。常见的推理类任务包含下一张图像预测、代码编写、数学推理等。这些问题需要精细的思考及相应的专业知识训练才可作答,对普通人而言也具有较高难度,是对图文大模型核心能力的重点考察方向。在评测推理类任务时,需着重关注模型的推理准确性、推理深度、专业知识应用、逻辑一致性和可解释性等指标。1.3 评测问题与挑战图文大模型具有任务多样、模型复杂等特点,传统小模型的评测方式无法完全评估图文大模型在特定场景下的实际使用效果,需要针对图文大模型评测的问题与挑战进行深入分析,并不断迭代评测方法,以更好地促进图文大模型的良性发展。首先,图文大模型的高泛化性对评测任务选取提出挑战。图文大模型最突
14、出的特点就在于任务适用性广,一个图文大模型往往可以在识别、理解、创作、推理等各类任务中实现较好的性能。但是,任何模型都具有局限性,目前某些任务图文大模型尚无法解决。因此,如何选择合适的评测任务场景,既能满足业务需求,又不超越模型现有能力,便成为了一项重要的考虑因素。为全面评价模型能力,需要对行业痛点和图文大模型研究现状具有充分的了解,从而制定更为全面、合理的评测任务。其次,图文大模型的高复杂度对评测数据构建提出更高要求。图文大模型参数量极大,内部极为复杂,相关训练原理和训练数据分布难以获取,这就导致图文大模型评测数据构建难度大。人类视角下的题目难易与模型视角下的不一定一致,比如绘制人手对于人类
15、来说比较简单,而对于目前的图文大模型则较为困难。如何梯度性设置测试用例,以合适的低中高难度比例对模型展开全面测试,真实反馈出模型性能,是一项需要解决的难点问题。需要针对各个任务领域,对业界典型图文大模型进行大量验证,不断迭代优化测试用例的设置,才能构建更为合理的评测数据。再者,图文大模型评价结果的客观性也需要重点考虑。图文大模型的任务设置和输出结果丰富多样,这其中既有计数、识别等易客观评测的基础任务,也有图像生成、风格转换等创作类任务。后者往往需要通过主观评价的方式对图文6大模型的对应能力进行测试评估,这对评价人员技术水平提出更高要求。因此,需要制定好主观评测体系基准,尽可能缩小不同评价人员带
16、来的随机程度,以更加客观的方式实现对图文大模型创作能力的公平评价。综上所述,随着图文大模型的快速发展,相关评测体系也需要不断迭代优化,着力解决行业痛点,积极应对评测挑战,以客观全面、公平公正、用户视角为评测基本原则,对图文大模型展开合理测试,更好地促进图文大模型的良性发展。7近年来图文大模型发展迅猛,各大企业和研究机构对图文大模型评测体系进行了深入探索,并发布论文、技术报告、评测榜单等各类研究成果5。本章参考谷歌、微软、智谱研究院、上海AI实验室、腾讯等企业及研究机构的成果,对主要评测方式、典型评测维度和常见评测指标等关键评测技术进行梳理与总结。2.1 主要评测方式图文大模型的评测方式主要包括
17、客观评测和主观评测两种。客观评测是指利用客观评价指标对图文大模型的生成结果进行定量评估,常见的客观评测方式有准确率、召回率、模型推理时间、可支持图片分辨率等。客观评价指标种类多样,可以从各个维度对图文大模型的生成结果进行准确、全面、公平的评价,是对大模型进行评测的主要方式。此外,由于客观评测指标可由计算机直接计算得到,因此能够通过自动化脚本实现批量测试,大幅提高评测效率和规模6。主观评测是指通过人工打分的方式对图文大模型的预测结果进行评价,主要应用于创作类任务中,如图片生成、风格变换、图像合成等7,这些测试用例没有明确的标准答案,因此无法以合适的客观指标进行完整评测。主观评测相较客观评测更加灵
18、活,更能真实反映用户视角下的模型能力,但存在评价结果不稳定、难以大规模实施等问题,因此,需要针对具体任务制定合理的主观评测方法。2.2 典型评测维度依据谷歌、微软、上海AI实验室、腾讯等企业和研究机构的研究,图文大模型的典型评测维度,可分为模型性能、模型泛化能力、模型鲁棒性和模型一致性四个方面8。模型性能评测是图文大模型的核心维度,主要评测图文大模型对图像和文字的识别能力、8理解能力、推理能力,如生成的图像或文字结果相较正确答案的准确度。常用性能评测指标有图像识别准确率、与提示词的匹配度等。模型泛化能力评测主要评测图文大模型在多任务上的适配能力,该评测维度可以反映出大模型在实际部署中的泛化性。
19、常见的评测方式为针对大模型未训练的场景和图文数据,测试模型的应用效果。模型鲁棒性评测主要评测模型应对各类干扰时的鲁棒性及可靠性,如对输入图片施加肉眼不可见的噪声和数据扰动,验证对抗攻击情形下模型应用效果。模型一致性评测主要评测在面对不同规模解空间的问题时,图文大模型能否在相同知识点上给出一致答案的能力,如模型生成的图片描述是否与相同知识点的判断结果一致。2.3 常见评测指标目前,各类图文大模型评测指标从不同角度对模型性能进行了综合评判,常见指标有准确率、F1 值、BLEU、IS指标、CLIP相似度、PSNR、SOA、CIDEr、mAP、IoU、FID、SSIM、RP、碳足迹等9。指标描述准确率
20、Accuracy,计算图文问答题目中预测结果正确的比例,是最常用的客观指标F1 值F1 Score,综合考察图文问答题目中预测结果的精确率(Precision)和召回率(Recall),兼顾图文大模型预测结果的正确样本比例和查全比例BLEU评价图生文的文本质量,比较生成文本与真实答案间的重叠程度IS 指标Inception Score,利用分类模型评测生成图片的类别确定性和类别多样性CLIP相似度利用 CLIP 大模型的文本和图像编码器针对图片中关键物体进行质量判定PSNR峰值信噪比,评价图文大模型生成图片的像素质量和清晰度SOA衡量生成的图像中是否符合文本描述中的各对象类别,考察文本类别还原
21、度CIDEr针对图像描述任务,评价描述结果与人类真实描述间的相似度mAPmean Average Precision,反映图文问答题目中,预测结果在所有召回率水平下的平均准确率IoUIntersection over Union,衡量图像中指定物体的预测框与实际边界框的重合程度FIDFrchet Inception Distance,用于评估文生图任务中生成图像和真实图像之间的相似性的指标SSIM结构相似度,评价文生图任务中生成图片与标准正确图片之间的相似度RP全称 R-precision,衡量文生图任务中文本描述和生成图像之间的视觉语义相似度碳足迹计算模型训练、推理阶段消耗电力的二氧化碳排放
22、量9除以上提到的各类常用指标外,部分评测还针对图文大模型在业务中的实际应用场景,选取更有针对性更能反映业务性能的其他指标,如召回率、多轮对话轮次等。10近年来,随着图文大模型的快速发展,多家科研机构及企业提出了一系列大模型评测体系,如上海AI实验室的MMBench、华中科技大学的OCRBench、智源研究院的智源评测体系、微软的LLaVA-Bench、希伯来大学的VisIT-Bench、腾讯的SEED-Bench等,这些体系从多个方面对图文大模型进行了评测,具有较高的参考和应用价值。本章将对典型评测体系进行概括介绍。MMBench10MMBench是上海人工智能实验室于 2023 年 8 月提
23、出的多模态大模型评测体系,相关研发人员针对当下评测方式存在的主观评测多样性差、客观评测任务覆盖少等问题,提出了逐渐细化的评测任务设置和CirularEval评测方式。具体来说,在评测数据构建上,MMBench从三个维度设计了大量单选题,第一级是感知与推理能力,第二级包含细粒度感知、逻辑推理、相关性推理等六项能力,第三级包含目标定位、图像质量、社会关系等二十项能力。在评测方式上,针对当前大模型指令跟随性不完善的问题,利用ChatGPT进行辅助评测,并将问题选项进行环状重排,从而更好地反映大模型的真实性能。OCRBench11OCRBench是华中科技大学联合其它机构于2024年2月提出的多模态大
24、模型评测体系,该体系针对OCR领域的常见任务和典型数据集,对Gemini、GPT-4V等十四个多模态大模型进行了评测。具体来说,OCRBench聚焦于多模态大模型的OCR能力,针对文字识别、场景文本视觉问答、文档视觉问答、关键信息抽取和手写数学表达式识别这五种任务设计专门的提示词,并选取COCOText、STVQA等二十七个主流开源数据集进行测试验证。智源评测体系12智源评测体系是智源研究院于 2024 年 5 月发布的大模型评测体系,该体系对国内外一百四十余语言及多模态大模型进行了全方位测评。在评测任务设置上,智源评测体系针对图片问答、文本生成图像、文本生成视频、图像文本匹配等任务进行了测试
25、,主要考察了模型11的理解和生成能力。在评测数据选取上,该体系选取了COCO、Flickr30k等主流开源数据集。在评价指标筛选上,该体系从主观和客观两个维度针对各个任务进行了单独设计,客观指标主要选取了准确率、召回率、FID、CLIPScore等常见指标,主观指标则采取人工打分的形式进行模型评价。LLaVA-Bench13LLaVA-Bench是威斯康星大学、微软等研究团体于 2023 年 4 月提出的多模态大模型评测数据集,包含LLaVA-Bench(COCO)和LLaVA-Bench(野外)两个数据集。它聚焦于视觉指令跟随任务,着重考察图文大模型的对话、图片描述及复杂推理能力,在结果评定
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2024 弈衡 多模态大 模型 评测 体系 白皮书
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。