AIGC赋能的科技情报智能服务:特征、场景与框架.pdf
《AIGC赋能的科技情报智能服务:特征、场景与框架.pdf》由会员分享,可在线阅读,更多相关《AIGC赋能的科技情报智能服务:特征、场景与框架.pdf(12页珍藏版)》请在咨信网上搜索。
1、收稿日期:基金项目:国家自然科学基金面上项目“重大突发事件网络舆情受众的参与行为标定、轨迹拟合与靶向导控研究”(项目编号:)。作者简介:刘逸伦(),男,博士研究生,研究方向:情报服务、应急管理。黄微(),男,教授,博士生导师,研究方向:网络舆情分析、应急情报。张晓君(),女,正高级工程师,研究方向:网络舆情分析、情报服务。通讯作者:李贺南(),男,研究员,研究方向:科技情报、科技战略研究。情报业务与情报服务 赋能的科技情报智能服务:特征、场景与框架刘逸伦 黄 微 张晓君 李贺南(吉林大学商学与管理学院,吉林 长春;吉林大学教务处,吉林 长春;吉林省科学技术信息研究所,吉林 长春)摘 要:目的
2、意义 人工智能技术正在世界范围内掀起一场生产力和生产关系的颠覆性革命,人工智能生成内容()正在重塑目前的知识生态与数字化技术环境。因此,探索 技术在科技情报服务中的融合应用对我国情报服务事业的智能化发展具有重要意义。方法 过程 本文通过归纳 技术的内核与优势,结合情报 时代背景下我国科技情报服务面临的问题及需求,探讨 在科技情报服务中的技术应用路径和场景,结合系统工程理论构建 赋能的科技情报智能服务框架。结果 结论 文章提出了由支撑保障层、智慧应用层、平台服务层、成果产出层组成的科技情报智能服务框架,通过新技术的应用提升我国科技情报服务智能化水平,为科技情报服务的创新发展提供新思路。关键词:人
3、工智能生成内容;科技情报;智能服务;服务框架:中图分类号 文献标识码 文章编号 ()(,;,;,):,(),:;年 月第 卷第 期现 代 情 报 ,在 掀起的新一轮“军备竞赛”浪潮下,人工 智 能 生 成 内 容(,)作为人工智能技术应用的前沿领域正迅速成为当前研究热点。我国于 年 月公布了 生成式人工智能服务管理办法(征求意见稿),在政策上明确支持对相关技术的自主创新、合作研究与推广应用。在此背景之下,科技情报服务应充分发挥“耳目、尖兵、参谋”的历史使命,时刻关注前沿技术,抓住人工智能技术大发展的历史性机遇,充分利用技术红利解决自身发展当前面对的问题。在科技情报服务相关研究中,依据我国科技情
4、报服务在不同发展阶段的特征和特色,我国科技情报服务已历经情报 和情报 时代,现已进入以“互联网”和智能服务为主旋律的情报 时代。在此大背景下,我国研究者开展了对新时代科技情报服务能力的相关研究,文献提出了 四层科技情报服务能力模型,文献则在此基础上构建了情报 下的科技情报服务能力评价指标体系。针对我国面对的新形势和复杂环境,相关文献对我国科技情报事业的发展指出了新的发展方向,并对我国科技情报技术基础建设和科技情报知识生态体系的构建进行了探究。随着近年来人工智能相关技术的飞速发展,有研究者对人工智能技术与我国情报工作的融合进行了理论性研究。文献探索了情报、智能与智慧三者间的关联,同时指出自然语言
5、处理是科技情报工作者在未来重点关注的技术领域。此外,文献基于情报是人脑做出的有价值的判断这一核心概念,针对未来可能出现的基于人工智能技术的情报判读系统,明确了人工智能技术在情报工作中的应用依然是将“人的经验纳入情报工作”,因而不会改变情报工作的本质。文献通过总结 技术的演进,探讨了 技术应用对开源情报工作带来的影响。然而,在科技情报研究领域,目前我国对 技术与科技情报服务的融合研究尚处于起步阶段。基于以上研究,我国科技情报服务进入“情报 ”时代,既是网络信息技术、大数据和人工智能技术发展到一定程度后的必然,也是新技术与科技情报生产中各环节要素间相互作用、共同演进发展的结果。一方面,新的技术环境
6、带来了传统科技情报业务流程上的变化;另一方面,新需求的出现推动传统科技情报机构进行服务功能拓展。具体表现在以下几个方面:如何在复杂信息环境下保障信息获取的全面性与数据的有效性,;如何高效地处理和分析海量多源异构数据,;如何感知用户需求并提供个性化情报服务,。据此,本文通过探索 的技术特征,明确其技术赋能场景,进而构建 赋能的科技情报智能服务框架,以新技术的应用对以上问题的解决提供新思路,推动我国科技情报服务向智能化发展,更好地为打破外部技术封锁、同步世界科技水平前沿和开展原创性科技创新提供基础性支撑和保障。人工智能生成内容()的内核与特征 人工智能生成内容()目前,我国学术界对于人工智能生成内
7、容()的概念的界定主要从“内容生产者”和“内容产生方式”两个角度出发。其中,既是指代由机器(人工智能)作为内容生产者所产生的一类内容,又代指一种内容生产的方式,即智能内容自动生成相关技术的集合。从广义上看,人工智能生成内容,一般认为是相对于(专业生成内容)、(用户生成内容)和(辅助创作内容)而提出的概念。在此基础上,可以看作是像人类一样具备创造能力的内容生成式 技术,即生成式。它可以通过数据训练和算法模型自主生成并创造文本、图像、音乐、视频、交互内容等各种形式的内容和数据。对此,国际上通常称之为“人工智能合成媒体()”,其定义为:通过人工智能算法对数据或媒体进行生产、操控和修改的统称。从技术组
8、成上看,由 个关键部分组成:数据、硬件和算法。训练数据可直接影响生成式 的能力,训练数据越庞大、数据来源越丰富、数据形式越多样,则生成式 所生成的内容越具备智慧性、专业性和时效性。算力支持则直接决定了生成式 的学习效率与生成式 对数据处理的效率,本地硬件提供的算力越强,则生成式 在进行大规模机器 年 月第 卷第 期 赋能的科技情报智能服务:特征、场景与框架,学习和深度学习时的效率越高。近年来,随着芯片技术与集成电路技术的飞速发展,硬件运算设备也随之快速迭代,大规模机器学习的效率不断提高。目前,英伟达与 年推出的 纳米工艺的 ,其图形处理单元的时脉速度已经达到,相比于英伟达于 年推出的,当二者同
9、时用于 的大型推理运算时,的运算效率达到了 的十倍以上。此外,云计算技术的发展也进一步为机器学习提供了额外的算力保障,通过云技术支持的 和 集群进一步增强大型数据训练的效果。算法技术是 是否具备人类经验与智慧的决定性因素。其中,模型是许多先进算法模型的基础,它不仅应用于自然语言处理()领域,也同时可被应用于对图像、音频等多模态数据进行的处理,因此具备良好的多模态数据融合能力。作为一种神经网络,其最初用于弥补循环神经网络()在处理上下文关系感知上的不足导致的机器语言翻译存在翻译不准确问题。具有独特的自我关注机制,使之可以直接计算任意两个词之间的相关性,不再需要通过隐藏层进行传递,进而充分挖掘序列
10、各节点之间的深度信息,因此可以轻松地捕捉全局信息。此外,区别于传统的神经网络,模型中的自我注意力机制使之可以通过矩阵计算的并行化实现完全的并行计算,以便其进行大规模数据计算时更充分地利用 算力资源,强化模型的训练和推理性能。此外,人类反馈强化学习()也是保障生成式 能够提供真实的、有效的反馈内容的重要步骤。作为一种机器学习的方法,通过独特的“奖励与惩罚”信号机制,使 能够在人为设定的奖惩规则内,自行探索学习最合适的行为策略。同样具备广泛的适用性,能够用于多种不同类型的任务,如:自然语言处理、图像处理等,其目前已经被应用于 开发的 系列聊天机器人中。总结来说,高性能硬件提供的充足算力、庞大的训练
11、数据和先进的算法模型是 技术进一步发展的必要基础前提。技术包括以 技术为代表的诸多种类的内容生成式 技术。根据内容分类,的技术体系可以分为 生成的自然语言技术、生成的视觉内容技术和 生成的多模态内容技术三大类,如表 所示。表 技术分类分 类技术模型应用案例 生成文字内容自然语言处理()循环神经网络()长短期神经网络()()、快笔小新、中文在线、腾讯梦幻写手等 生成视觉内容计算机视觉预训练()卷积神经网络()扩散模型()生成对抗模型()变分自编码器()神经网络模型()模型图宇宙、百度文心一言、视觉中国、蓝色光标创意画廊、等 的多模态 跨模态生成内容()扩散模型()、网易天音、剪映、蓝标分身、谷歌
12、、倒映有声、,年 月第 卷第 期现 代 情 报 ,从数据模态上看,可以被分成单模态生成式 与多模态(跨模态)生成式,如图 所示。其中,生成文字内容技术与 图像处理技术可以被看作单模态内容生成模型()。这一类模型在设计时,主要用于接收所输入的特定模态的原始数据(文本、图像等),并通过预测后以同样模态的数据输出结果。与之相对的则是 的多模态及跨模态内容生成,依托于多模态跨模态内容生成模型,其中包括视觉语言生成()、文本音频生成()、文本图像生成()和文本代码生成()等。图 单模态与多模态模型示意图 的技术优势特征综合上文的分析和总结,技术有着学习能力强、数据规模巨大、数据处理高效、人机智慧融合的显
13、著特征。大规模数据训练为了保障 生成内容的实用性、专业性和时效性,对 进行大规模的数据训练成为最佳途径。目前,在卷积神经网络()和 模型基础上,机器学习的规模已经突破亿级。目前,由 开发的世界首个大规模图文多模态数据集 的数据量级已经达到 亿个图片文本配对数据。百度开发的百度文心一言所应用的大规模训练数据也已达到万亿级网页数据、搜索数据和图片数据以及 亿的事实知识图谱。年 月,宣布推出 的人工智能()多模态语言模型,该模型通过数百万张来自 的授权图片进行预训练,参数高达 亿个,达到了 的 模型规模的两倍以上。因此,在目前技术条件下,技术已经能够支持多模态数据的大规模模型训练,经大规模数据训练后
14、的生成式 本身即可作为拥有巨大知识存量的 系统。多模态数据处理与内容生成能力目前已有多种 技术产品支持多模态及跨模态的内容生成,如 开发的 和 推出的 等。使用者可通过自然语言 年 月第 卷第 期 赋能的科技情报智能服务:特征、场景与框架,向 输入指令,要求 根据指令和用户提供的其他形态数据进行各类内容生成任务。例如,由 公司开发的 作为 发展史上首个单一模态模型,可以依据文本生成图像,也可以为图像生成文本描述,并回答有关图像内容的问题,或根据文本指令编辑输入的图像。此外,得益于算力与算法技术的发展,生成式 在知识组织与挖掘方面表现出较大提高。在针对文献的知识挖掘中,生成式 不再局限于简单的标
15、题、摘要或关键词,而可以深入到文献内容,实现更细粒度的知识表达,有利于语义知识的组织与表达。在行业应用中,生成式 已在多领域实现了多模态与跨模态融合的应用。如:在影视制作领域,生成式 发挥其创造力进行协同创作,有助于特效制作与剧本改进;在教育领域,生成式 可以将抽象的教科书文字内容转换为具体的可视化的图片、视频、音频等多种形式,有利于增进学习体验;在工业生产和建筑领域,生成式 可以将给定的数字几何数据迅速转化为基于物理环境的 模型,为工业生产和建筑建设节省大量成本并提高工作效率。智慧交互能力人工智能内容生成技术()利用技术赋予机器部分人类思维能力,以生成有价值内容。智慧性是 产生有价值内容的基
16、础,具备人类思维与智慧交互能力是其发展趋势。因此,“智慧性”是 能够产生有价值内容的基础要求,具备人类思维认知并具备智慧交互的能力,已经成为 未来发展的必然趋势。根据目前现有研究发现,大语言模型在语言理解推理、对话生成等多项任务上已经达到甚至超越了人类的平均水平。而在感情分析方面,在情感分析上有着高达以上的准确率。目前,生成式 已经具备语言翻译、语义分析、智能推荐、智能问答、知识综述、知识提炼的相关能力,并且在部分行业领域的服务场景下已经展开了拓展应用。如 已开放其 端口,应用程序可通过 接入进而为用户提供多种内容生成服务;微软与谷歌也接连宣布在其 系列软件和谷歌邮箱服务中内置生成式,为用户提
17、供写作辅助、写作建议、主题文稿自动生成、自动邮件回复、自动排序和摘要、图片、声音、音视频会议笔记自动记录等功能。的技术赋能路径、场景与工作模式综合上文所述,本文认为:技术“大数据”“多模态”“智慧交互”的特性与我国科技情报服务目前亟待解决的问题和需求高度契合,共同构成了基于技术需求场景的 技术赋能路径与场景,如图 所示。图 技术需求场景下的赋能路径与场景 复杂信息环境下的信息获取当前网络信息技术的高度发达,为信息的传播提供了多样化的渠道,同时使信息的传播变得空前迅速,继而带来信息总量的骤增。然而,网络信息空间中存在着大量的虚假信息、垃圾信息和不良信息,导致了网络信息质量的良莠不齐。网络信息空间
18、的发展既为情报工作中的数据获取带来了便利,但也为有效数据的获取带来了挑战。对科技情报工作来说,“科学就是数据”“一切以数据为准”,所有情报成果的产出都离不开数据的支持。因此,年 月第 卷第 期现 代 情 报 ,情报 背景下的科技情报服务对信息获取渠道的全面性和所获取信息的有效性提出了更高的要求。在信息源上,主要包括商业数据库、公开信息数据和社会化媒体数据三大类。因此,在信息采集中,不仅要求在维普、万方、等非结构化数据库进行有效数据抓取,还需考虑在相关网站、论坛、微信、微博等媒体平台进行有效数据的抓取。只有对信息采集渠道的全面覆盖,才能够支持多种信息渠道的数据进行互相验证,保证所获取数据的真实性
19、和有效性。通过现有的 技术可以解决目前所面临的信息获取渠道全面性和数据有效性问题。目前,生成式 已经具备成熟的数据资源调用能力,通过 接口生成式 能够全面地获取近乎无穷的网络数据资源、云资源与科技情报机构自有的内部数据库,利用 技术可以自动识别和调用这些接口,获取信息采集不易触达的深层数据,扩展采集渠道的广度与深度。例如,目前 所采用的网页抓取技术(),能够支持 自动根据需求,从互联网网页上抓取文本数据进而提取出所需信息。此外,通过数据库查询技术和 收集技术,生成式 能够通过 接口实现与其他信息系统之间的数据交互,并进行数据检索和调用,如图 所示。图 生成式 的数据获取模式 在保障数据的有效性
20、上,目前生成式 在大量数据训练基础上已经具备对基础常识问题和部分专业领域问题进行判断的能力。通过以科技情报领域的专业语料库对 进行强化训练的同时增加人类反馈强化学习(),可以进一步强化 的情报数据判别能力。此外,利用知识图谱等技术,对采集数据中的实体、事件和关系等要素进行知识验证与标注,能够在一定程度上判断数据信息的准确性与可信度,为后续利用提供参考依据。因此,通过 技术对获取数据进行过滤清洗、校验、仿真、交叉印证等方式进行数据清洗和真伪识别,替代人力对数据的有效性、真实性进行初步筛选、过滤和验证,能够有效防止垃圾数据、无效数据和无关数据对分析结果产生干扰。多源异构数据的分析和处理在情报 时代
21、,科技情报工作中的信息获取不再局限于传统的情报信息资源体系和信息获取渠道,情报数据分析的要求从抽样分析向全样本分析转变。随着网络信息空间的空前发展,科技情报工作正面临采集到的大量数据来源复杂、结构多样且真假难辨。从数据结构上看,所获取的数据包括结构化数据和非结构化数据;从数据的形式来看,包括文本、图像、音频、视频、数值等;从数据来源上看,分为公开信息数据库、商业化数据库和社会化媒体平台。因此,目前科技情报工作所需要进行处理和分析的数据通常具有海量化与碎片 年 月第 卷第 期 赋能的科技情报智能服务:特征、场景与框架,化的特征。在传统的科技情报服务中,往往需要投入大量人力、花费整个情报工作流程中
22、大部分时间用于处理与分析数据。因此,高效地处理和分析采集到的数据,已经成为当前科技情报业生产中的急需解决的问题。在此情况下,以机器学习、知识挖掘、语义推理、知识图谱等技术为基础的智能知识计算技术成为解决问题的最佳方案。在信息的处理与分析上,技术的多模态数据处理能力包括:真伪识别、内容转化、数据清洗、数据评估等,能够有效解决目前科技情报生产中大量多源异构数据的处理和分析问题。首先,如上文所述,技术的数据清洗能力能够删除冗余、提取词干、识别错漏进而辅助情报的真伪识别。同时,技术具有处理结构化数据、非结构化数据和半结构化数据的能力,能够实现这 种数据类型之间的自动关联、映射和融合,进而实现不同数据模
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AIGC 科技情报 智能 服务 特征 场景 框架
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。