人工智能驱动的研发新范式.pdf
《人工智能驱动的研发新范式.pdf》由会员分享,可在线阅读,更多相关《人工智能驱动的研发新范式.pdf(29页珍藏版)》请在咨信网上搜索。
1、 科研智能(科研智能(AI4R&D)人工智能驱动的研发新范式人工智能驱动的研发新范式 中国人工智能产业发展联盟(中国人工智能产业发展联盟(AIIA)科学智能(科学智能(AI4S)工作组)工作组 20242024 年年 7 7 月月 编制说明编制说明 本报告主要是在中国人工智能产业发展联盟指导和组织下起草编写,主要参编单位包括中国信息通信研究院、华为技术有限公司、北京百度网讯科技有限公司、北京深势科技有限公司、之江实验室、阿里云计算有限公司、北京航空航天大学、国网智能电网研究院有限公司、中冶京诚数字科技(北京)有限公司、中国科学院沈阳自动化研究所、中国华能集团清洁能源技术研究院有限公司、深圳华大
2、生命科学研究院、同方知网数字出版技术股份有限公司、上海和今信息科技有限公司、北京科技大学、北京市商汤科技开发有限公司、东方财富信息股份有限公司、北京新数科技有限公司。核心编制人员为张玮婷、董昊、丁欣卉、曹峰、周景才、王紫东、胡晓光、孙佩源、刘会师、刘大鹏、贡金鹏、李振廷、王忠新、蒙贵云、张艳博、周原野、杨康、王锦海。目目 录录 一、科研智能发展态势.1 二、科研智能产业发展情况.2(一)科研算力赋能科研智能高效运行.2(二)科研数据驱动科研智能创新发现.4(三)开发工具链全链路打造科研智能开发工具.7 三、科研智能应用发展情况.15(一)基础科学研究开展前沿探索,推动科学边界拓展.16(二)产
3、业研发创新构建核心驱动力,加速产业升级变革.18 四、科研智能生态建设情况.19(一)产业组织.19(二)社区建设.19(三)科研赛事.20(四)会议交流.21(五)教学培训.21(六)标准布局.21 五、总结与展望.22 附录一.23 表表 目目 录录 表 1 国外科研领域主要公开数据集.5 表 2 国内外典型科研智能算法库.10 表 3 我国代表性科学套件.12 表 4 2019 年至 2023 年 Science 杂志评选的十大科学突破.17 表 5 科研智能典型领域模型.23 科研智能(AI4R&D)人工智能驱动的研发新范式 1 一、科研智能发展态势 科研智能(AI for Resea
4、rch and Development,以下简称 AI4R&D,人工智能赋能科学研究及产业研发)是科学智能(AI for Science,AI4S)概念的延伸和扩展,主要包括两方面内涵,一是聚焦人工智能加速基础科学研究,拓展研究思路,加速研究进程;二是强调人工智能在应用研究和产业研发中的重要作用,全面提升工程技术创新的效率。科研智能代表了科技创新的新范式和新动能,有望全面加速基础研究和产业研发的进程,并缩短两者之间的转化周期,推动科技成果在工业界的产业化和规模应用。科研智能正在全球范围内加速发展。,各国相继发布政策构筑科研智能发展环境。2023 年 12 月,欧盟委员会发布政策简报人工智能在科
5、学中的应用,倡导为欧洲量身制定一项政策,促进人工智能在科学领域的应用。2023 年 5 月,美国新建 7 家国家人工智能研究所,推动人工智能在气候、脑科学、社会决策、教育等领域的应用研究。2022年 8 月,我国发布关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见,支持探索人工智能技术用于重大科学研究和技术开发的应用场景。AI 持续拓展科学领域问题解决的能力,围绕生命科学、物理等领域,形成了如Alphafold3 等代表性成果。另一方面 AI 不断加速产业研发进程,在材料研发、气象预测、工业设计等领域相继取得技术突破。科研智能作为一个新兴的交叉领域,目前尚处于发展的早期阶段,但
6、已经展现出巨大的发展潜力和广阔的应用场景,中国信息通科研智能(AI4R&D)人工智能驱动的研发新范式 2 信研究院(以下简称“中国信通院”)持续跟踪科研智能技术和产业动态,于 2024 年发布报告科研智能(AI4R&D)人工智能驱动的研发新范式,旨在描绘科研智能领域的生态全景,为政府部门制定产业政策、指导项目布局提供参考,为研究机构、科技企业把握技术方向、开拓应用场景提供借鉴,加速该领域的技术创新和应用实践,为我国在该领域抢占发展先机提供助力。未来,中国信通院将关注全球科研智能发展动向,深化对关键技术和产业趋势的研判,加强与科研机构、高校、企业等产学研各界的交流合作,共同推进科研智能生态体系建
7、设,为科技强国和创新型国家建设提供有力支撑。二、科研智能产业发展情况 科研算力与科研数据的深度融合为 AI4R&D 奠定了坚实基础。由 AI 框架、算法库、开发套件及领域模型组成的开发工具链极大提升了科研效率,促进了跨学科、跨领域的协同创新与融合,深刻改变了科学研究范式。(一)科研(一)科研算力算力赋能赋能科科研研智能智能高效运行高效运行 科研算力是指结合智能算力与超算算力的计算能力,通过异构计算架构满足高精度计算和 AI 模型训练推理需求。智能算力基于GPU(图形处理器)、TPU(张量处理单元)、NPU(神经网络处理单元)等 AI 芯片,提供高度并行计算能力,适用于人工智能的训练和推理计算。
8、超算算力依托超级计算机集群,实现大规模科学计算和模拟,能够处理复杂的科学计算问题,广泛应用于如行星模拟、科研智能(AI4R&D)人工智能驱动的研发新范式 3 药物分子设计、基因分析等场景。而科研智能算力整合了 AI 计算和科学计算两种方式,采用异构计算架构,结合多种计算单元,以满足高精度科学计算和人工智能模型训练、推理的双重需求。科研智能的研究涉及大量复杂的计算任务,包括大规模数据处理、深度学习模型训练和高精度科学模拟等,这些任务均需要充足的算力支撑。在多数场景下,为满足科学研究和工程应用的需求,如蛋白质结构预测模型 AlphaFold 2 取得了突破性进展,能够以原子级精度预测蛋白质的三维结
9、构,其预测效果可以与实验结果媲美,解决了生物学界长达 50 年的重大挑战,该成就被 Science 杂志评为2021 年度十大科学突破成果的第一位。这一进展也在很大程度上依赖于大规模的计算资源支持,在 AlphaFold 2 的研发过程中,DeepMind 团队投入了大量的算力资源,训练阶段使用了约 128 个TPU v3,历时 11 天才能完成1。以公有云模式提供智能算力服务。云服务企业以智能算力平台的形式提供计算资源,如阿里云灵骏智算平台、百度智能云 AI Studio、华为昇腾云等,面向基础科研、新药研发、工程仿真等场景提供一站式算力服务。政府、企业建设并对外提供服务的人工智能算力中心。
10、西安的未来人工智能计算中心已成功孵化出多个智能科研领域的大模型,如全球首个面向雷达遥感场景的“秦岭西电遥感脑大模型”,以及全球首个面向计算流体力学场景的“秦岭翱 1 数据来源:Highly accurate protein structure prediction with AlphaFold 科研智能(AI4R&D)人工智能驱动的研发新范式 4 翔大模型”。三是以一体机形式交付的科研智能算力。一体机通过将专用硬件、软件和服务集成在一个系统中,打造便捷、高性能的科研智能系统。如深势盒子是面向分子动力学模拟设计场景推出一体机,硬件层面以定制加速卡与 CPU 结合的方式提供计算能力,软件层面预装分
11、子动力学专业模拟软件。一是高端 AI 芯片的生产和购买受限,影响算力供给。二是国内智能算力的技术产业生态较弱,应用门槛高。三是智能算力资源主要集中于头部科技类企业,高校、科研机构和大量行业企业算力储备相对有限。建议层面,一是建立针对高校、科研机构和行业企业的算力资源保障机制,实现算力资源的合理供给、动态分配与高效利用,保障科研智能领域计算需求。二是构建跨地区、跨机构的科研算力资源共享平台,促进科研机构与产业界的协同创新。三是实施科研算力成本效益评估,优化资源投入与产出,加速科技成果的产业转化。(二)(二)科研数据科研数据驱动驱动科科研研智能智能创新发现创新发现 科研数据是指科学研究和产业研发活
12、动产生的原始数据、中间数据、结果数据和分析数据等,主要包括观测数据、实验数据、记录数据、调查数据、模拟数据及科研文献等内容。高质量的科研数据是科研智能的基础,规范的科研数据管理是科研智能开展的前提。科研智能数据相较于传统的行业数据,有如下特点。一是数据来源和类型更加多样。数据来自仪器设备、传感器、仿真模拟、文献等,科研智能(AI4R&D)人工智能驱动的研发新范式 5 数据格式和语义差别较大。二是数据质量要求高。数据的客观性、准确性、完备性、分辨率等质量要求很高,这会直接影响到计算结果的可信度。三是数据量更大。实验观测数据、仿真模拟数据等不仅规模巨大且增长快速,远超普通商业化数据。四是维度更高。
13、例如气象、地理、生物数据涉及时间、空间、物种等多个维度,结构更加复杂。在科研数据领域,公开数据集对于推动科研创新具有重要意义。国外方面,公开数据集资源丰富、体系成熟,已成为全球科研工作者开展研究的重要基础设施。美国通过一系列项目推动科研领域公共数据集的建设、共享及应用,如美国国家生物信息中心(NCBI)成为全球医疗 AI 研究人员的首选数据源,其数据可在亚马逊云平台和谷歌云平台上便捷访问。在气象领域,美国国家海洋和大气管理局(NOAA)的数据是气象大模型研发的重要支撑。材料科学方面,“材料项目”(The Materials Project)经过三十年发展,已成为该领域的标杆性数据库。数据资源的
14、长期积累为科技突破奠定了重要基础,如 AlphaFold2 在蛋白质结构预测领域的成功很大程度上得益于蛋白质数据库(PDB)的长期数据积累。我国方面,近年来在科研数据建设及共享方面也取得了显著进展。全国已建成 50 多个国家级行业科技数据中心和 200 多个地方科技数据中心,形成覆盖多领域的科学数据中心体系。在材料、天文、电磁、流体、气象、生命科学等领域已具备一定规模的公开数据集。表 1 国外科研领域主要公开数据集(中国信通院根据公开资料收集整理)科研智能(AI4R&D)人工智能驱动的研发新范式 6 领域领域 数据数据 持有单位持有单位 生命科学 全球蛋白质结构库(PDB)Worldwide
15、Protein Data Bank(wwPDB)人类基因库(EMBL)欧洲分子生物学实验室(EMBL)蛋白质数据库(UniProt)欧洲生物信息研究所(EBI)、瑞士生物信息研究所(SIB)及 美国国家生物医学研究基金会(NBRF)成立的蛋白质信息资源(PIR)DNA 序列数据库(Genbank)美国国家医学图书馆生物信息技术信息中心(NCBI)DNA 数据库(DDBJ)日本国立遗传学研究所 生物医学文献书目数据库(PubMed)美国国家医学图书馆生物信息技术信息中心(NCBI)材料科学 高通量材料计算数据库(AFLOW)美国杜克大学 剑桥结构数据库(CSD)英国剑桥晶体数据中(CCDC)开放
16、量子材料数据库(OQMD)美国西北大学 无极晶体结构数据库(ICSD)德国波恩大学 材料计算数据库(Materials Project)美国加州伯克利大学 金属和合金晶体数据库(CRYSTMET)加拿大渥太华大学 国际衍射数据中心的粉晶数据库(JCPDS)国际衍射数据中心 开放晶体结构数据库(COD)英国剑桥大学 密度泛函理论的材料数据集(JARVIS-DFT)美国国家标准与技术研究院(NIST)地球科学 ERA5 大气再分析数据集 欧洲中期天气预报中心(ECMWF)海洋再分析数据集(HYCOM)美国海军研究实验室(NRL)海洋生物化学数据集 美国航天局 GLORYS12 再分析数据 法国麦卡
17、托 SST 卫星观测数据 英国气象局 历史气候观测和模拟(ICAR-ENSO)气候与应用前沿研究院 ICAR 地球表面气候预测数据(EarthNet)/汽车 SAE 国际自动机工程师学会 ShapeNet 斯坦福大学 Ahmed Body Aerodynamics 英伟达 流体 周期山(PH-RANS、ERCOFTAC)慕尼黑工业大学 圆柱绕流数据集(Cylinder in Crossflow)/科研智能(AI4R&D)人工智能驱动的研发新范式 7 顶盖驱动方腔流动(CFDBench)/我国公开数据集建设不足,优质领域数据未能得到有效利用。一方面领域覆盖度有限,数据集建设不完善且质量有待提升。
18、例如,盘古、风乌、伏羲等国内气象大模型的研发均依赖国外公开数据集,而非国内数据集。另一方面在科研机构与行业企业中已积累的大量领域数据公开意愿不高,导致大量的优质数据资源处于“静默”状态。我国需加强数据集建设与共享,推动科研智能产业高效发展。我国需建立自己的科研数据战略,系统规划科研领域数据建设计划,推动以国家重点实验室、重点行业企业为代表的机构,积极开放共享数据。一是围绕公开数据集建设进行战略布局。建立健全科研领域公开数据集体系,在时空、区域气象等新兴和特色领域进行系统布局。二是建立科研数据共享激励机制,让数据贡献成为研究贡献的一部分。通过合理的措施,鼓励机构以及个人将共享数据,持续丰富公开数
19、据集的资源。同时加强对数据的安全保护,避免滥用。三是构建统一的科研数据空间,汇聚数据促进数据共享。促进跨机构、跨领域的数据整合与优化,为科研工作者和技术开发者提供更加便捷、高效的数据服务。(三)开发工具链(三)开发工具链全链路打造全链路打造科研智能开发工具科研智能开发工具 从人工智能框架的构建到算法的集成,再到开发套件与领域模型的推出,科研智能开发工具链的逐步完善,为科研人员提供了全流程支持。这些工具不仅降低科研门槛,提高研发效率,还加速科研成果的转化与应用。通过持续优化与创新,科研智能开发工具链科研智能(AI4R&D)人工智能驱动的研发新范式 8 正逐步成为推动该领域发展的核心引擎。1.AI
20、 框架构建核心架构,支撑高效算法实现 AI 框架是一组用于开发、训练和部署人工智能模型的工具、库和接口,它提供了一个结构化的环境,使开发者能够更加高效地构建、测试和优化 AI 算法和应用,当前主流的 AI 框架主要有TensorFlow、PyTorch、PaddlePaddle 和 MindSpore。为更有效地支持科研智能(AI4R&D),传统 AI 框架需要具备高效求解科学计算任务的基础能力。一是支持科研智能算子库,通过提供标准化接口和高度优化共性数学运算单元,如高阶微分、傅里叶变换、分数阶微分、积分、线性代数、复数运算等科研智能专用算子,降低科研计算程序的复杂度。二是提供科研智能计算库,
21、通过实现跨领域共性基础计算库,如微分方程求解计算库、几何形状定义计算库、方程符号化定义计算库、物理信息神经网络 PINN 求解方法计算库等,提升跨学科多领域典型数理方程求解效率。三是面向科研智能的作业调度优化,通过高阶自动微分变换和编译优化技术,实现异构混合架构灵活高效计算,整体提升科研计算任务计算速度。当前PyTorch和TensorFlow已经成为全球范围最主流的AI框架。PyTorch 基于动态计算图且接口简洁易用,适合科研探索的快速原型开发及频繁迭代,在学术界广受欢迎。TensorFlow 具备强大的分布式计算能力和完善的工具生态系统,当前在工业界广泛应用,支持成熟的部署解决方案。两者
22、均提供科研智能算子库、科研智能计算库和科研智能计算加速等相关能力。此外,谷歌推出的 JAX 框架具科研智能(AI4R&D)人工智能驱动的研发新范式 9 备自动矢量化和即时编译等先进特性,计算性能出色,适用于科学计算和机器学习任务,且支持高阶自动微分,有利于科研智能领域的模型开发。国内 PaddlePaddle 和 MindSpore 作为领先的人工智能框架,均将科研智能作为重点方向进行了适配和优化,目前已具备丰富的算子库和高阶自动微分等能力。现有 AI 框架未能完全适配科研智能需求。PyTorch 在大规模部署时运行效率相对较低,工业级部署支持相对较弱。TensorFlow 缺少基础算子体系,
23、科学计算所需的高阶自动微分功能可扩展性不足。JAX 处于发展初期,尚未形成成熟生态。国内框架对算子支持不完全,尚无法满足科研智能发展的需求。为推动科研智能的深入发展,我国需构建更高效、统一的科研智能 AI 框架。一是高性能计算优化。框架需要兼容不同类型的国产化硬件资源,如 GPU、NPU 等不同类型的 AI 芯片,提供高效计算解决方案。同时,提升分布式计算能力以支持大规模计算任务。二是支持跨领域算法和应用。框架应支持特定领域(如地球科学、材料科学等)的算法库和开发工具,为各领域科研人员提供通用的开发和应用环境,提供灵活的接口和扩展能力,支持跨学科的协同研究及应用。三是丰富生态系统建设。扩展生态
24、系统,提供第三方库和工具,以及融合已有科学计算领域的算法库和工具,满足更广泛的科研需求。建设活跃的社区,促进科研工作者交流分享,推动技术创新和进步。科研智能(AI4R&D)人工智能驱动的研发新范式 10 2.算法库汇聚智慧结晶,赋能科研创新突破 科研智能算法库是指面向特定领域科学计算问题,基于 AI 框架算子能力开发的一系列高效、稳定的算法集合。算法库注重易用性、性能及可拓展性,其核心价值主要体现在以下两方面:一是聚焦对领域单点问题的改进和固化。使用算法库中经过优化的算法,科研人员能够更加高效地解决复杂科学计算问题,推动科研成果的产出。二是强调提供最优算法选择。通过收录该领域最顶尖的算法,强调
25、提供最优的算法选择,为科研人员提供便捷、高效的工具,助力科研工作的深入开展。高校、科研院所及企业纷纷推出面向多个各领域的科研智能算法库。国外方面,布朗大学、麻省理工学院纷纷推出算法库支持科研智能底层算法的实现。如 DeepXDE 充分利用数据和物理知识双驱动,解决传统方法难以求解的复杂问题,支持物理信息神经网络(PINN)和深度算子网络(DeepONet)等方法。国内方面,深势科技、之江实验室等研究机构专注于算法库的研发,聚焦分子动力学、量子力学、空气动力学等特定领域的研究,解决该领域计算求解问题。如 DeePMD 基于神经网络拟合第一原理数据的多体势能表示和分子动力学深度学习,支持 Deep
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 驱动 研发 范式
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【宇***】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【宇***】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。