基于多源异构的烟用香原料数据集构建.pdf
《基于多源异构的烟用香原料数据集构建.pdf》由会员分享,可在线阅读,更多相关《基于多源异构的烟用香原料数据集构建.pdf(9页珍藏版)》请在咨信网上搜索。
1、2024 年 1 月第 57 卷第 1 期烟草科技Tobacco Science&TechnologyJan.2024Vol.57 No.1摘要:为解决烟用香原料数据查找难、获取难、使用难等问题,构建了基于多源异构的烟用香原料数据集。通过公开数据来源进行数据采集,获取香原料基本信息、理化性质、感官特性等数据;对香原料样品开展感官评价与成分检测,获取样品检测数据。经过条目标准化、数据结构融合和数据标签标注,实现了多源异构数据处理。烟用香原料数据集涵盖1 000余种香原料,包含10个数据模块,并以此为基础建立了烟草行业香原料中心库平台。对主体香型分布、嗅香香韵分布、香韵与卷烟加香作用之间的关联性进
2、行分析,结果表明:数据集能够从多维度提供烟用调香数据,并面向应用场景支持多种数据检索功能。通过数据分析能够发现烟用香原料的分布特征,所体现的卷烟加香规律与实际经验基本相符合。数据集检索量达到15 000余次/年。该研究可为推动烟草调香数字化转型提供支持。关键词:烟用香原料;多源异构数据;数据集;合成香原料;天然香原料;数字化调香中图分类号:TS452.1;TS46文献标志码:A文章编号:1002-0861(2024)01-0104-09收稿日期:2023-05-16录用日期:2023-08-15基金项目:国家烟草专卖局重大专项项目“风味基础数据关键技术研究与应用”110202101081(SJ
3、-05);江苏中烟工业有限责任公司科技项目“江苏中烟香原料特色信息平台研究与应用”(T202101);中国烟草总公司首席科学家创新专项项目“基于AI的气味语义模型及认知系统研究”(602022CK0540)。第一作者:宗国浩(1994),男,硕士,工程师,从事烟草科研大数据研究。E-mail:*通信作者:张天兵(1980),男,硕士,高级工程师,从事调香技术研究。E-mail:;马骥(1979),男,博士,高级工程师,从事烟用香精香料应用研究。E-mail:引用本文:宗国浩,叶远青,冯伟华,等.基于多源异构的烟用香原料数据集构建 J.烟草科技,2024,57(1):104-112.(ZONGG
4、uohao,YE Yuanqing,FENG Weihua,et al.Creation of a multi-source heterogeneous tobacco flavor material dataset J.TobaccoScience&Technology,2024,57(1):104-112.DOI:10.16135/j.issn1002-0861.2023.0301)基于多源异构的烟用香原料数据集构建宗国浩1,叶远青2,冯伟华1,王锐1,毛铖挺2,孙世豪1,崔凯1,叶勋2,张天兵*2,马骥*11.中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2号4500012.
5、江苏中烟工业有限责任公司技术中心,南京市兴隆大街29号210019Creation of a multi-source heterogeneous tobacco flavor material datasetZONG Guohao1,YE Yuanqing2,FENG Weihua1,WANG Rui1,MAO Chengting2,SUN Shihao1,CUI Kai1,YE Xun2,ZHANG Tianbing*2,MA Ji*11.Zhengzhou Tobacco Research Institute of CNTC,Zhengzhou 450001,China2.Technol
6、ogy Center,China Tobacco Jiangsu Industrial Co.,Ltd.,Nanjing 210019,ChinaAbstract:To address issues such as difficulties in searching,accessing,and using data related to rawmaterials of tobacco flavors,a dataset of flavor materials based on multi-source heterogeneous datawas created.Published data,i
7、ncluding basic information,physicochemical properties,and sensorycharacteristics were collected.Sensory evaluation and chemical analysis were performed on flavormaterial specimens to obtain testing data.Heterogeneous data from different origins were processedthrough entry standardization,structure i
8、ntegration,and annotation.The created dataset includes over1 000 flavor materials and comprises 10 data modules.Meantime,the“Tobacco Flavor MaterialCentralDatabase”platformwassetup.Mainflavortypedistribution,olfactoryaromanotedistribution,the correlations between aroma notes and cigarette flavoring
9、effect were analyzed.Theresults showed that:1)The dataset offered data for tobacco flavor blending from multiple dimensions第 57 卷第 1 期感官品质与香韵风格是引导卷烟产品设计的核心要素。为了改善卷烟感官品质、突出烟草风格特征,卷烟企业普遍采用向烟草制品添加香精香料的方式进行卷烟增香。随着科技发展与进步,烟用调香技术由传统的依赖人工经验逐渐向以数据作为支撑的数字化调香设计转变1-2。因此,国内外数据资源(以可公开获取的化学品数据库为主)对于调香工作发挥了重要作用。美国
10、国立医学图书馆(National Libraryof Medicine,NLM)构建了一系列以生物医学、化学、药学为主要方向的数据库。其中,危险物质数据库(Hazardous Substances Data Bank,HSDB)、实验室化学 品 安 全 报 告(LaboratoryChemicalSafetySummary,LCSS)、化合物毒性数据库(ToxNet)对评估香原料的安全性具有参考价值 3-4。美国食品香料与萃取物制造者协会(Flavor and Extract ManufacturersAssociation,FEMA)构建了Flavor Ingredient Library数
11、据库与食品香料安全性数据集GRAS(GenerallyRecognized As Safe)5。美 国 国 立 卫 生 研 究 院(National Institutes of Health,NIH)构建的PubChem数据库提供了较为全面的有机小分子生物活性数据6。但可公开获取的数据资源以化学品的基本信息、理化性质、毒理毒性为主,对感官特性、作用阈值、香气成分等与调香密切相关的信息则收录较少,数据资源分散且难以获取天然香原料相关信息7-8。由于烟草制品涉及高温蒸馏环境下的香气释放过程,调香过程中需要兼顾香原料在燃烧后的香气表现9-10。而现有资源难以对调香及相关技术研究提供数据支持,因缺乏面
12、向调香应用的综合性香原料数据集以及适用于烟草调香的数据集,导致调香人员获取、查找和利用数据困难。为此,通过对香原料数据资源进行调研,对数据特性进行了梳理,并从多个数据来源开展数据采集,构建了基于多源异构的烟用香原料数据集,建立了烟草行业单体香原料中心库平台,以期为烟草行业数字化调香技术发展提供支撑。1香原料数据资源调研1.1香原料数据特性对常用香原料数据库进行调研,并将这些数据库的主要数据种类进行汇总对比,结果见表1。在数据特性方面,分子结构、理化性质、感官描述等信息在多个数据库均有收录。PubChem、Sigma-Aldrich等化学类数据库较为全面地收录了化学物质的理化性质、物质毒性等信息
13、;FooDB、FlavorDB等食品类数据库更加关注食品中的风味成分及含量;IFRA、Flavor Ingredient Library等由行业协会构建的数据库偏向于香精香料的安全评估与安全使用。可见,对于调香具有参考价值的数据资源众多但较为分散,多数数据库侧重于某一领域的相关信息,而综合性数据库又以化学信息为主,缺乏以调香应用为主的综合性香原料数据库。and supported a range of data retrieval routes to adapt to diverse application scenarios.2)Dataanalysis revealed the distr
14、ibution features of tobacco flavor materials,the rules of tobacco flavoringaided by the dataset were basically in consistence with practical experiences.3)The dataset wasaccessed more than 15 000 times per year.This research supports the digital transformation oftobacco flavor blending.Keywords:Toba
15、cco flavor material;Multi-source heterogeneous data;Dataset;Synthetized flavormaterial;Natural flavor material;Digitalized flavor blending表1国内外相关香原料数据库信息汇总Tab.1Summary of domestic and international databases of flavor materials123PubChem6IFRA11FooDB12由美国国立卫生研究院(NIH)支持建立的有机小分子生物活性数据库,提供综合性化学物质数据,并于20
16、19年整合了ToxNet化学品毒性数据库的相关信息全球性香精香料成分安全评估数据库,收集和评估了大量香料成分的毒理学和安全性数据,并制定了香料的使用准则及用量标准食品成分、化学和生物学资源的综合数据库,提供食品成分、营养成分、添加剂的检索查询功能基本信息、理化性质、安全信息、用途用量、质谱信息、毒理毒性等毒理毒性、用量标准等天然来源、生物效应等美国国家生物技术 信 息 中 心(NCBI)国际香精香料协会(IFEAT)加拿大代谢组学创新中心(TMIC)https:/pubchem.ncbi.nlm.nih.gov/https:/ifrafragrance.org/homehttps:/foodb
17、.ca/序号名称简介主要数据种类开发机构网址宗国浩,等:基于多源异构的烟用香原料数据集构建 1052024 年烟草科技1.2数据集构建流程为全面获取对烟用调香有价值的高质量数据,一方面从公开数据资源进行数据采集,另一方面通过实物样品获取检测数据。对采集到的数据进行条目标准化、结构融合、数据标签标注等数据处理,最终形成结构化的多源异构烟用香原料数据集。数据集构建流程见图1。2烟用香原料数据集构建2.1数据采集2.1.1公开数据采集电子图书与期刊文献中包含大量香精香料信息,其格式以 PDF 文件为主。采用 ABBYY 的FineReader 12文字识别软件对PDF文件进行OCR识别,从中提取与调
18、香相关文本信息及表格数据。纸质图书则先通过扫描生成电子图像,再对图像进行去噪、提高对比度、角度校正等处理,最终通过OCR识别提取其中数据。部分网站提供了数据接口及下载链接,可采用直接获取与网页爬虫相结合的方式进行采集,并将原始数据转化为半结构化数据,以便后续数据处理。2.1.2样品检测数据采集烟用香原料感官评价分为嗅香香韵评价和卷烟加香作用评价。为便于在烟草行业实现数据共享与利用,评价指标与评价方法分别参考 中式卷烟感官评价方法20和孔波等1提出的数字化调香方法。嗅香香韵评价采用18个维度的评价指标(树脂香、干草香、清香、果香、辛香、木香、青滋香、花香、药草香、豆香、可可香、奶香、膏香、烘焙香
19、、焦香、酒香、甜香、酸香),量化方式为010分,记分单位为1分。卷烟加香作用评价指标分为烟气品质、烟气口感、烟气香韵3类。其中,烟气香韵的量化方式为010分,计分单位为1分;烟气品质与烟气口感存在正向改善作用的记为正分,存在负向作用的记为负分,并分别划分为无、弱、中和强4档,量化方式为03分,计分单位为1分。评价小组由7位具有省级及以上感官评吸资格的评委组成,并在实验开展之前对评价小组进行培训,通过计算平均值确定香原料样品各个香韵的嗅香评价分值。表1(续)图1烟用香原料数据集构建流程Fig.1Creation process of tobacco flavor material databas
20、e45678910FlavorIngredientLibrary13FlavorDB14Sigma-Aldrich15Flavor-Base16FSBI-DB17TGSC18中国食品用香料数据库19综合性香料数据库,提供被FEMA专家小组认可的在预期使用条件下对人体不存在健康及安全影响的香料信息,同时提供世卫组织食品添加剂联合专家委员会(JECFA)对香料的安全评估信息通过对食物和香料进行实验分析和文献汇编,收集了34个类别936种天然来源的风味成分数据化学品和实验室用品的商业网站,提供超过 1 170 种香料成分的结构、性质、用途等信息由香料化学家John Leffingwell创建的香料香
21、精信息网站,收录了香料的基本信息、阈值、监管状态等数据收集了来自SciFinder等公开数据库的文献数据,经过验证和筛选,形成融合食品化学、分子生物学、神经科学、感官评价、化学计量学等多学科知识的数据库香料、香精和天然香料成分的综合性网站,提供超过18 000种香料成分的结构、性质、香味描述和用途等信息我国食品用香料和国家标准数据库,包括1 477种合成香料、商品信息的基本信息、理化指标、管理状态等数据感官描述、安全信息等化学结构、理化性质、天然来源、感官描述等基本信息、商品信息等作用阈值、合成方法、监管状态等化学结构、理化性质、香味描述等香气特性、理化特性、天然来源、用途用量、商品信息等基本
22、信息、商品信息、监管状态等美国香料和提取物 制 造 商 协 会(FEMA)印度德里信息技术研究所(IIITD)默克公司(Merck)Leffingwell&Associates莱布尼茨食品系统生物学研究所(LSB)The Good ScentsCompany中国香料香精化妆品工业协会https:/www.femaflavor.org/flavor-libraryhttps:/cosylab.iiitd.edu.in/flavordb/https:/ 106第 57 卷第 1 期主要挥发性成分的检测范围包含合成香原料样品和天然香原料样品。采用无水乙醇直接稀释、分散进样的方法提取香原料中的有效成分
23、和单体物质,通过GC/MS对香原料的挥发性成分进行定性分析,筛选峰面积大、信噪比高的成分作为香原料的主要挥发性成分。天然香原料的主要非挥发性成分检测内容包括:水分,溶剂含量(乙醇、丙二醇、丙三醇),水溶性酸(乳酸、乙酸根、苹果酸根、富马酸、柠檬酸根),还原糖/总糖(还原糖、总糖),水溶性糖(阿拉伯糖醇、果糖、山梨糖醇、葡萄糖、肌糖醇、蔗糖、麦芽糖、麦芽三糖)。采用卡尔菲休法21检测水分,采用GC/FID方法22检测有机溶剂,采用离子色谱法23检测有机酸,采用连续流动和液相色谱相结合的方法24检测糖。2.2数据处理2.2.1数据条目标准化由于不同数据来源对香原料的命名没有统一标准,导致原始数据中
24、香原料名称产生混淆。此外,香原料的细分种类众多,合成香原料存在顺反异构、旋光异构等立体异构体,天然香原料在提取工艺、溶剂种类、原料品种、原料产地等方面存在差异,均可能导致香原料的感官特性完全不同。因此,需要确定每条数据所描述的香原料,并对不同来源中同一种香原料数据进行整合。为保证数据整合的准确性,建立了香原料条目标准(表2),依据标准逐条确认原始数据所归属的香原料条目。首先,根据CAS(ChemicalAbstracts Service)号、FEMA号、名称等身份信息制定匹配规则,按规则对不同来源的香原料数据进行模糊匹配和聚类,同一类簇视为一个待筛选的二级条目。其次,通过人工筛选过滤出因数据残
25、缺而指代不明的数据,挑选出使用频率高且描述准确的名称作为二级条目名称,并将满足标准的数据列入二级条目。最后,根据香原料条目标准,将具有近似关系的二级条目划分在一级条目下,并确定一级条目名称。2.2.2 数据结构融合不同来源的香原料数据包含文本、表格、数值、数组等多种数据结构,同一种数据属性也可能存在多种数据结构。在香原料数据中,结构化数据结构固定、关系明确,包括化合物基本信息、嗅香评价数据、成分分析数据等;非结构化数据包括XML格式数据、化合物Mol文件、色谱数据等。其中,通过图书和期刊采集的数据多为XML格式,需要对半结构化、表格、长文本等数据进行结构化处理。因此,本研究中采取以下方法进行异
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 多源异构 烟用香 原料 数据 构建
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。