多保真度数据学习算法的定量噪声评价_刘晓彤.pdf
《多保真度数据学习算法的定量噪声评价_刘晓彤.pdf》由会员分享,可在线阅读,更多相关《多保真度数据学习算法的定量噪声评价_刘晓彤.pdf(6页珍藏版)》请在咨信网上搜索。
1、第 51 卷第 2 期 2023 年 2 月 硅 酸 盐 学 报 Vol.51,No.2 February,2023 JOURNAL OF THE CHINESE CERAMIC SOCIETY http:/ DOI:10.14062/j.issn.0454-5648.20220811 多保真度数据学习算法的定量噪声评价 刘晓彤1,2,王滋明2,欧阳嘉华3,杨 涛1,2(1.北京信息科技大学,北京市材料基因工程高精尖创新中心,北京 100101;2.北京信息科技大学计算机学院,北京 100101;3.暨南大学信息科学技术学院,广州 511442)摘 要:多保真度数据是当前材料领域数据的主要存在
2、形式。在数据生产端,不同量化方法在材料同种属性的计算上存在较大差距。对于数据消费端的机器学习算法,研究人员为最大化提取数据中知识设计了各种方法。采用定量噪声添加的方法,评价不同噪声强度、类型对不同多保真度数据学习方法的影响,通过迭代降噪验证数据修正方法的适用场景。结果表明:多保真度数据的利用方式至关重要,需对各子数据集中数据量及含噪情况进行综合考量。在使用不同噪声类型与强度构造出的多种数据集上,得益于数据间的协同效应,逐步删除低保真度数据的 Onion”训练方式明显优于按数据集所含噪声减小方向逐个进行的训练方式。在多保真度数据训练中,无论何种噪声强度及训练方式,线性噪声对模型的影响更小。对于采
3、样噪声来说,在各环节更好地模拟了真实多保真度数据,建议被后续研究采用。此外,复杂噪声难以让少量真值数据发挥 纠偏”作用,更适合进行迭代降噪处理。关键词:多保真度;属性预测;机器学习;定量噪声 中图分类号:TP181 文献标志码:A 文章编号:04545648(2023)02040506 网络出版时间:20230117 A Quantitative Noise Method to Evaluate Machine Learning Algorithm on Multi-Fidelity Data LIU Xiaotong1,2,WANG Ziming2,OUYANG Jiahua3,YANG T
4、ao1,2(1.Beijing Advanced Innovation Center for Materials Genome Engineering,Beijing Information Science and Technology University,Beijing 100101,China;2.School of Computer,Beijing Information Science and Technology University,Beijing 100101,China;3.School of Information Science and Technology,Jinan
5、University,Guangzhou 511442,China)Abstract:Most data in material science are multi-fidelity data.From the viewpoint of data producer,there is a system error for any quantum method.For machine learning algorithm,as a data consumer,various methods have been designed to maximize the number of knowledge
6、s extracted from the multi-fidelity data.In this paper,a quantitative method of noise addition was used to evaluate the influence of different noise types and intensities on some multi-fidelity data learning methods.And the effective scope of the data correction method was verified via iterative noi
7、se reduction.The results show that the ways to exploit the multi-fidelity data are crucial.It is necessary to consider comprehensively both the size and the noise level of the datasets.On a variety of datasets constructed with different noise types and intensities,the Onion training method that grad
8、ually deletes lower fidelity data is better than the one by one training method in the direction of noise reduction due to the synergistic effect of different multi-fidelity data.No matter what kind of noise intensity and training method,linear noise has less impact on the final performance of model
9、.However,the data with sampled noise added,which the final testing results are similar to the real multi-fidelity data,were recommended to be adopted in a future research.Also,the complex noise in data is difficult to be corrected by a small amount of true data,thus being more suitable for the itera
10、tive noise reduction processing.Keywords:multi-fidelity;property prediction;machine learning;quantitative noise 收稿日期:20220929。修订日期:20221105。基金项目:国家自然科学基金项目(22203008,22272009)。第一作者:刘晓彤(1987),男,博士。通信作者:杨 涛(1980),女,博士。Received date:20220929.Revised date:20221105.First author:LIU Xiaotong(1987),male,Ph.
11、D.E-mail: Correspondent author:YANG Tao(1980),female,Ph.D.E-mail: 406 硅酸盐学报 J Chin Ceram Soc,2023,51(2):405410 2023 年 精度计算资源权衡”广泛存在于机器学习中数据使用与生产的各个环节,多保真度的概念也由此涌现12。在数据使用环节,相同的数据在不同设备(如边缘计算设备,超级计算机等)被不同精度、不同资源消耗的多保真度模型使用34,根据实际需求更快或更准地产出结果。在数据生产环节,高精度的计算方式往往更耗时,长期数据积累较少;而对理论模型使用了更多近似的快速方法往往在数据积累量上占优
12、,但精度不足。这一现象在材料科学计算领域尤其常见,各种材料数据库中存在大量不同等级数据,即多保真度数据。与多保真度模型处理相同数据相对应的问题,是如何从多保真度数据中最大化地提取信息。传统机器学习在训练集与测试集之间存在一些基本假设:训练集与测试集中样本彼此相互独立同分布5。在多保真度数据集的利用上,由于不满足这类基础假设,模型的训练面临着诸多陷阱。对于大多场景,材料领域机器学习的目的是预测材料在现实世界中的真实属性值,因此测试集会选用由实验测得的数据结果。而材料数据库(MP)6、开放量子材料数据库(OQMD)7等数据库中存在的大多数据,往往是由密度泛函理论(对应一系列泛函,存在不同程度误差8
13、)或其他理论方法计算得到,实验测得真值数据相对较少。更有甚者,对于某些材料属性,存在多种实验测量方法,它们彼此结果之间也存在出入9,这进一步增加了多保真度数据的出现可能。研究人员针对不同数据,使用了多种方法处理上述问题,包括对传统模型改进10、信息融合算 法11、Bayes 优化12、信息传递神经网络13等。在本团队之前研究中14,化学数据的生产端与消费端被区分对待,提出从数据噪声的角度看待这一问题。数据生产者角度认为的系统误差,从数据消费者角度去理解,便是机器学习训练集与真值之间存在的噪声,即数据的保真度。以上观点恰巧与施思齐教授团队最近发表的综述154.1 节(数据预处理阶段的基础与研究)
14、观点相呼应“伴随着机器学习在材料领域的广泛应用,决定机器学习模型上限的材料数据质量越来越被重视。材料领域的研究者们分别围绕数据的质和量展开了研究,期望通过提升数据的品质和数量来进一步提升机器学习结果的可信性。”因此,本工作继续尝试从数据角度出发来解决多保真度数据的机器学习问题,不再去设计更复杂的模型,而是去尝试更高效地利用数据。具体来说,本工作尝试定量地评价多种多保真度数据利用方法,以确定不同方法较优的应用场景。在文献14中,所采用的测试数据为 MP 中原生的多保真度数据,预测属性为材料的禁带宽度值。其中,实验测得数据被视为真值数据,使用不同泛函计算得到的数据被视为含有不同程度噪声。该工作除对
15、降噪方法进行综述外,讨论了不同数据的含噪情况及在该特定多保真度数据集条件下,不同数据利用及降噪方法的优劣,建议感兴趣读者优先阅读该文。由于原生多保真度数据中噪声强度、类型及数据集大小均不可控,采用人工引入定量噪声的办法生成模拟多保真度数据集,并以此为基础展开模型训练,评测模型预测性能。相关降噪工作在不同属性、不同数据集及不同机器学习模型上均有复现(如使用 Schnet 模型16,在 QM9 数据集1718上针对形成能的测试)。为延续前文思路,仍选用禁带宽度值对方法进行评估与讨论。未来利用此方法,在为机器学习模型训练准备数据时,可以提前使用相似属性确定较优的多保真度数据配比方案,最大化地节省数据
16、生产所需时间,帮助研究人员将超算机时更合理地分配在不同精度、不同耗时的数据生产算法上。1 实验 1.1 数据 在之前工作10,14中,所用多保真度数据集包括了MP中 使 用 泛 函Perdew-Burke-Ernzerhof(PBE)19,Heyd-Scuseria-Ernzerhof(HSE)2021,Strongly constrained and appropriately normed(SCAN)22及 Gritsenko-Leeuwen-Lenthe-Baerends(GLLB)2324计算的材料禁带宽度相关数据。各数据集元素种类、目标精度及相互覆盖关系等原始数据分析结果在相关参考文
17、献14中已详细给出,此处不再赘述。表 1 为上述各数据集数据量及不同类型材料的分布情况。使用其中数据量最大、种类分布最均匀的PBE数据集作为真值数据集,将52 3486条数据随机划分为5个数据集,其中训练集(简称A、B、C、D 集)分别包含 A:30 000,B:10 000,C:5 000,D:2 348 条数据,测试集包含 5 000 条数据。有文献报道,DFT 计算所得禁带宽度数据一般较真实值低估 30%100%8,为此,实验设计 3 个噪声等级,将以上各数据集处理成多保真度数据集,具体噪声系数如表 2 所示。确定噪声等级后,本工作设计了 2 种噪声的添第 51 卷第 2 期 刘晓彤 等
18、:多保真度数据学习算法的定量噪声评价 407 加方式:1)按比例缩小:指遵循公式noisePBE*TT=(1)-对目标值进行处理。此种添加方式在不同数 据集中引入了线性噪声。2)采 样 噪 声:指 遵 循 公 式noisePBE*TT=max(1,0)-对目标值进行处理。其中为采样自正态分布2(,)N 的随机值。此种添加方式在不同数据集中引入了更复杂的非线性噪声。式中:为各数据集在表 2 中噪声系数;noiseT为添加噪声后的属性值;PBET为 PBE 数据集中属性值。1.2 多保真度数据利用方法及降噪方法 多保真度数据集包含了多个不同保真度及不同大小的子数据集,如何对其加以利用是一个值得推敲
19、的问题。在前期工作中14中,本工作列出了以下几种数据集使用方式:1)逐个训练(1by1):对应于以上数据集中 ABCD 的训练顺序;2)洋葱训练(Onion):对应于以上数据集中 ABCDBCDCDD 的训练顺序;3)集中训练(All together):对应于Onion训练方式的第一步 ABCD,即简单混合后进行训练;4)单独训练(Only true):对应于以上数据集中 D 数据集(根据表 2,未添加任何噪声)。所 测 试 的 机 器 学 习 模 型 选 用 MEGNet25(v1.2.3),超参降噪阈值0.35=。在迭代降噪过程 中,令训练集数据为noiseT,前一个模型预测值为 P,迭
20、代降噪后属性值为denoisedT,则 noisdenoisednoisenoise,abs(),abs()ePPTTTPT-=-采用 Early stopping 作为防止过拟合的方法,Patience 选择 10。表 1 不同禁带宽度(Eg)数据集数据分布情况 Table 1 Distribution of the data as a function of the band gap(Eg)Functional Eg=0 Eg2 Eg2 Total Data number Distribution fraction Data number Distribution fraction Dat
21、a number Distribution fraction Data number Distribution fraction PBE 19 903 38%15 218 29%17 227 33%52 348 100%HSE 2 775 46%1 019 17%2 236 37%6 030 100%SCAN 16 3%291 63%165 35%472 100%GLLB 0 0%531 23%1 759 77%2 290 100%表 2 不同噪声等级应用于不同数据集的噪声系数()Table 2 Noise coefficient()on different datasets with dif
22、ferent noise level Dataset Noise coefficient/%High noise Middle noise Low noise A 90 60 30 B 60 40 20 C 30 20 10 D 0 0 0 2 结果与讨论 2.1 单保真度数据集大小及噪声的影响 为了探究噪声及数据集大小对模型训练影响,并为后续实验提供基准,在引入噪声前后的 A、B、C、D 数据集及全集 ABCD 上分别进行单独训练测试。图 1a 和图 1b 的区别在于数据中所添加的噪声类型,图 1a 为对数据集添加线性噪声后训练结果;图 1b 为对数据集添加采样噪声后训练结果。显然,从这 2
23、 幅热力图中可以清楚看出噪声存在对模型预测性能的影响。当无噪声添加时(对应于图 1a、图1b 中最下行),数据量是影响最终结果的唯一因素,数据越多,最终训练效果越好。同时,MEGNet 模型在本数据集上的性能极限也被确定在约 0.4 eV。添加噪声后,训练结果显著恶化,不难理解,恶化程度与添加噪声量正相关。通过比较不同噪声等级中,相同噪声添加量,不同数据量的训练结果,依然可以得出结论:相同噪声添加不会影响模型训练性能与数据量的正相关。如高噪声添加的数据集B 与中噪声添加的数据集 A 噪声系数均为 60%,最终性能大数据量的 A 依然领先于 B。在图 1 低噪声”时,各种多保真度数据集协同训练性
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 保真度 数据 学习 算法 定量 噪声 评价 刘晓彤
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。