基于机器学习的单脉冲搜索候选体识别对FAST观测CRAFTS数据的应用研究.pdf
《基于机器学习的单脉冲搜索候选体识别对FAST观测CRAFTS数据的应用研究.pdf》由会员分享,可在线阅读,更多相关《基于机器学习的单脉冲搜索候选体识别对FAST观测CRAFTS数据的应用研究.pdf(14页珍藏版)》请在咨信网上搜索。
1、第 41 卷第 3 期天文学进展Vol.41,No.32023 年 9 月PROGRESS IN ASTRONOMYSept.,2023doi:10.3969/j.issn.1000-8349.2023.03.09基基基于于于机机机器器器学学学习习习的的的单单单脉脉脉冲冲冲搜搜搜索索索候候候选选选体体体识识识别别别对对对FAST 观观观测测测 CRAFTS 数数数据据据的的的应应应用用用研研研究究究张 彬1,2,3,4,游善平1,3,4,谢晓尧1,3,4,于徐红1,3,4,梁 楠1,3,4(1.贵州师范大学 贵州省信息与计算科学重点实验室/网络空间安全学院,贵阳 550001;2.贵州师范大学
2、 数学科学学院,贵阳 550001;3.中国科学院-贵州师范大学 FAST 早期科学数据中心,贵阳 550001;4.中国天眼联合研究中心贵州师范大学分中心,贵阳 550001)摘要:单脉冲搜索作为脉冲星探测的有力工具,在探测旋转射电暂现源以及快速射电暴中扮演着重要角色。为了从海量的射电巡天数据中快速筛选出最有价值的单脉冲搜索候选体,候选体识别已经从早期启发式阈值判断发展到基于机器学习自动识别。对于 FAST 观测,研究了基于机器学习的单脉冲搜索候选体识别应用到 CRAFTS(the commensal radio astronomy FASTsurvey)超宽带脉冲星数据的性能表现。在评估过
3、程中,使用单脉冲事件组识别(SPEGID)和单脉冲搜索器(SPS)两类自动识别方法,通过 7 种不同机器学习分类器对 CRAFTS 基准数据集产生的单脉冲搜索候选体进行自动识别;作为对比,也使用了启发式阈值判断的方法(RRATtrap和 Clusterrank)。结果表明,SPEGID 具有最好的性能表现(最高的 F1-score 值 95.1%、次高的召回率 95.4%、最低的假阳性率 4.7%),SPS 具有最快的筛选速度(平均每小时筛选 4010 个候选体)。通过对比分析结果,探讨了如何基于 FAST 观测数据开展高效的单脉冲搜索候选体识别。关键词:单脉冲搜索;候选体识别;机器学习;脉冲
4、星;FAST;CRAFTS中中中图图图分分分类类类号号号:P111.44文文文献献献标标标识识识码码码:A1引言脉冲星搜索方法主要分为周期性搜索和单脉冲搜索两大类1。周期性搜索通过快速傅里叶变换(FFT)将时间序列转化到频域以识别周期性信号2。传统上主要通过周期性搜索来探测脉冲星,这是利用脉冲星信号固有的周期性来实现。单脉冲搜索主要寻找强的、非周期收稿日期:2022-09-06;修回日期:2023-03-06资助项目:中国科学院天文大科学研究中心 FAST 重大成果培育项目(FAST2019sr04);贵州省科学技术基金(黔科合基础-ZK2021 重点 020,黔科合 J 字 LKS20103
5、8 号)通讯作者:梁楠,416天 文 学 进 展41 卷416天 文 学 进 展41 卷416天 文 学 进 展41 卷的脉冲,非常适合发现周期性搜索中无法发现的孤立爆发3;应用单脉冲搜索方法导致了旋转射电暂现源(rotating radio transients,RRATs)和快速射电暴(fast radio bursts,FRB)的发现。2006 年,McLaughlin 等人4首先发现了 RRATs,被认为是一种特殊类型的间歇脉冲星。2007 年,Lorimer 等人5在帕克斯多波束脉冲星巡天(Parkes multibeam pulsar survey,PMPS)观测数据中发现了第一例
6、 FRB。自 2003 年 Cordes 和 McLaughlin3首次提出单脉冲搜索探测脉冲星以来,单脉冲搜索的应用产生了海量候选体,为了从射电巡天数据中快速筛选出最有价值的候选体,基于特定的脉冲星巡天数据面临的候选体识别问题,相继提出了不同的单脉冲搜索候选体识别方法611。单脉冲搜索候选体识别已经从早期启发式阈值判断发展到基于机器学习(machinelearning,ML)自动识别6。启发式阈值判断的识别方法主要利用脉冲星所具有的启发式特性来引导搜寻,筛选出最有价值的单脉冲搜索候选体。例如:Deneva 等人7通过对阿雷西博L 波段馈源阵列脉冲星巡天(pulsar Arecibo L-ba
7、nd feed array survey,PALFA)单脉冲搜索,发现了 7 颗新脉冲星。Keane 等人8在 PMPS 中发现了 10 颗 RRATs。Burke-Spolaor 等人9在高时间分辨率宇宙脉冲星巡天(high time resolution universer survey,HTRU)观测数据中发现了 11 颗 RRATs。2015 年,Karako-Argaman 等人10设计用于探测脉冲星和 RRATs的工具 RRATtrap,根据候选体与设定的规则符合程度分配数值分数,通过只检查超过给定阈值的候选体,区分脉冲星与射频干扰产生的候选体,在绿岸望远镜 350 MHz 漂移扫
8、描巡天(Green Bank telescope 350-MHz drift-scan survey,GBT350Drift)和绿岸北天区巡天(Green Bank north celestial cap survey,GBNCC)的观测数据中发现 21 颗 RRATs。2016年,Deneva 等人11开发 Clusterrank 工具,通过量化候选体色散与信噪比曲线与 Cordes和 McLaughlin 预测的理论曲线3符合程度,评判候选体是脉冲星的可能性,在阿雷西博327 MHz 漂移脉冲星巡天数据(Arecibo 327 MHz drift pulsar survey,AO327)中
9、发现 14 颗脉冲星和 8 颗 RRATs。启发式阈值判断方法主要根据脉冲星的特性构建启发式规则,并没有针对射频干扰构造规则进行过滤,往往会产生大量的虚假候选体,难以适应大规模、海量的数据处理。目前,人工智能相关技术已广泛应用在周期性搜索候选体识别任务中1215,而在单脉冲搜索候选体识别领域的研究相对较少。随着脉冲星巡天设备产生的候选体数量呈指数增长,仅依赖人工识别筛选已不能满足数据的时效需求,机器学习等人工智能技术已经开始逐渐运用到单脉冲搜索候选体识别研究领域。基于机器学习的单脉冲搜索候选体识别方法(以下简称“机器学习识别方法”),利用脉冲星与射频干扰固有的特性开发特征工程,构建强有力的特征
10、以最大限度区分脉冲星与射频干扰,通过机器学习分类器对候选体进行自动识别。2016 年,Devine 等人16首次将机器学习应用于单脉冲搜索候选体识别,实现了自动化筛选候选体;2018 年,同组的 Pang 等人17提出了单脉冲事件组识别(single-pulse event group identification,SPEGID),构造 18 个特征描述聚合产生的单脉冲事件组(single-pulse event group,SPEGs),结合机器学习分类器对 PALFA 观测数据进行自动识别;随后,SPEGID 特征工程被拓展到 23 个18,并应用到 GBTDrift。另外一方面,2018
11、 年,Michilli 等人19设计了单脉冲搜索器(single-pulse searcher,SPS),用 5 个特征描3 期张彬,等:基于机器学习的单脉冲搜索候选体识别对 FAST 观测 CRAFTS.4173 期张彬,等:基于机器学习的单脉冲搜索候选体识别对 FAST 观测 CRAFTS.4173 期张彬,等:基于机器学习的单脉冲搜索候选体识别对 FAST 观测 CRAFTS.417述聚合产生的 SPEGs,并通过机器学习分类器区分低频阵列(low frequency array,LOFAR)全天空巡天数据(tied-array all-sky survey,LOTAAS)强干扰环境下的
12、脉冲星与射频干扰。500 m 口径球面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,FAST)是目前世界上最灵敏的单口径射电望远镜。FAST“多科学目标同时扫描巡天”(thecommensal radio astronomy FAST survey,CRAFTS)同时使用多个数字终端采集脉冲星、中子氢、分子谱线、暂现源、FRB 等多科学目标观测数据20。据估计,CRAFTS 脉冲星搜索在每次 24 h 巡天扫描中会产生数万到数十万个脉冲星候选体20,通过人工诊断发现,这些候选体绝大多数是射频干扰或宇宙噪音引起的虚假候选体
13、21。对 FAST 这种大规模射电天文观测数据进行单脉冲搜索寻找新脉冲星,必须快速找到具有科学价值的单脉冲搜索候选体并对其进行优先存储,以避免累积延迟,并使用稳健的单脉冲搜索候选体识别方法准确高效地区分出脉冲星与射频干扰。2017 年 8 月至 2018 年 5 月,FAST 使用超宽带接收机(270 1620 MHz)运行漂移扫描巡天模式,快速连续地观测天空中的多个区域。期间共收集 2760 h 的脉冲星巡天数据,共计 317497 个数据文件,称为 CRAFTS 超宽带脉冲星巡天数据(以下简称“CRAFTS 数据”),存储在中国科学院国家天文台-贵州师范大学 FAST 早期科学数据中心。本
14、研究工作主要利用机器学习识别方法对 CRAFTS 数据产生的单脉冲搜索候选体的性能表现进行评估,以寻求快速高效地筛选出候选体的解决方案。本文结构安排如下:第 2 章介绍基于机器学习的单脉冲搜索候选体识别方法基本理论;第 3 章使用机器学习识别方法(SPEGID 和SPS)和启发式阈值判断识别方法(RRATtrap 和 Clusterrank)对 CRAFTS 单脉冲搜索产生的候选体基准数据集进行测试,并对不同识别方法性能表现以及速度进行对比分析;第 4 章对全文进行总结和讨论。2基于机器学习的单脉冲搜索候选体识别方法基本理论利用射电天文观测数据探测脉冲星通常分为五个阶段1:数据收集、去干扰、消
15、色散、周期性搜索或单脉冲搜索、人工诊断。第一阶段,射电望远镜终端收集到的射电信号以电压时间序列的形式存储;第二阶段,去干扰是消除或减轻射频干扰对搜索结果的影响;第三阶段,消色散是消除与频率有关的延迟效应的影响;第四阶段,使用周期性搜索或单脉冲搜索筛选出观测数据中的脉冲星候选体;第五阶段,对每个脉冲星候选体进行人工诊断,以确定其真实性。目前,FAST 观测数据主要使用并行化实现的 PRESTO(pulsar exploration andsearch toolkit)开展脉冲星搜索研究22。基于 PRESTO 的单脉冲搜索方法探测天体物理信号的数据流程图主要包括如下步骤:数据收集、去干扰、消色散
16、、单脉冲搜索、候选体识别和人工诊断(如图 1 所示)。在图 1 候选体识别模块中,同时列出了启发式阈值判断识别方法(RRATtrap 和Clusterrank)以及机器学习识别方法(SPEGID 和 SPS)。表 1 给出了以上 4 类识别方法的基本信息。为了比较不同候选体识别方法区分脉冲星与非脉冲星候选体的能力,可以通过418天 文 学 进 展41 卷418天 文 学 进 展41 卷418天 文 学 进 展41 卷注:虚线框放大区域展示机器学习识别方法两阶段数据处理流程图。图 1基于 PRESTO 的单脉冲搜索方法探测天体物理信号流程图表 14 类单脉冲搜索候选体识别方法的相关信息类型识别方
17、法相关文献观测数据集性能表现召回率假阳性率启发式阈值判断RRATtrap10GBT350Drift0.80.09GBNCCClusterrank11AO3270.70.07机器学习SPEGID17PALFA0.9560.0218GBTDrift0.9420.02SPS19LOTAAS0.9860.01评价指标对性能表现进行量化。候选体识别任务中,我们希望识别方法尽可能准确地识别所有脉冲星候选体的同时,最大程度减少虚假候选体的产生。因此,衡量候选体识别方法的性能表现最主要的评价指标是召回率和假阳性率10:召回率量化识别方法正确识别数据集中脉冲星候选体的比例,假阳性率量化识别方法产生虚假候选体的比
18、例。最佳识别方法具有高召回率以及低假阳性率。F1-score 及 G-mean 综合评估识别方法正确识别脉冲星以及产生虚假候选体的能力,最均衡的识别方法具有高 F1-score 和 G-mean 值。从表 1 可知,机器学习识别方法相比启发式阈值判断具有高召回率和低假阳性率。常用的评价指标有:准确率,正确分类脉冲星和非脉冲星的数量占训练实例的百分比;查准率,正确分类为脉冲星与被分类为脉冲星的实例数量比值;召回率,正确分类为脉冲星与真实为脉冲星的实例数量比值;假阳性率,被误判为脉冲星占非脉冲星的实例总数百分比;F1-score,查准率和召回率的加权调和平均值;G-mean,召回率和特异度(正确分
19、类为非脉冲星与真实为非脉冲星的实例数量比值)乘积的算术平方根。3 期张彬,等:基于机器学习的单脉冲搜索候选体识别对 FAST 观测 CRAFTS.4193 期张彬,等:基于机器学习的单脉冲搜索候选体识别对 FAST 观测 CRAFTS.4193 期张彬,等:基于机器学习的单脉冲搜索候选体识别对 FAST 观测 CRAFTS.419单脉冲搜索通常会为每个观测生成一个或多个诊断图,从诊断图中分离出脉冲星的过程被称为候选体识别。图 2 给出通过 PRESTO 对 CRAFTS 数据单脉冲搜索探测到的 PSRB0540+23 结果诊断图。基于 PRESTO 的单脉冲搜索候选体识别方法,通过处理单脉冲搜
20、索 Single pulse search.py 结果文件(记录每个单脉冲事件的色散值、脉冲到达时间、信噪比、脉冲宽度),实现候选体的识别与分类任务。通常假设脉冲星信号具有显著特征,可以在搜索过程中从大量虚假探测中脱颖而出,单脉冲搜索候选体识别方法被设计寻找这些隐藏的特征6。由于脉冲星信号通常与出现在一定色散(dispersion measure,DM)范围大约相同时间的单脉冲事件组紧密相关。单脉冲搜索候选体识别方法一般先通过聚类算法将出现在一定 DM 和时间阈值范围内的单脉冲事件(single-pulse event,SPE)聚合成单脉冲事件组(SPEGs);再构造区分脉冲星与非脉冲星候选体
21、的启发式规则或开展特征工程;最后应用构建的规则或机器学习分类器对 SPEGs 进行识别,进而实现候选体的分类任务。注:a)时间与试验 DM 的散点图,每个散点对应一个单脉冲事件(SPE),大小与 SPE 的信噪比成正比;b)试验 DM 对应的信噪比大小;c)一组 SPE 聚合为一个单脉冲事件组(SPEGs)时间与 DM 空间分布;d)一个SPEGs 对应的 DM 与信噪比空间分布。图 2通过 PRESTO 对 CRAFTS 数据单脉冲搜索探测到 PSR B0540+23 结果诊断图机器学习识别方法一般分两个阶段对单脉冲搜索候选体自动识别与分类(如图 1 虚线框放大区域)。第一阶段通过聚类算法将
22、相关单脉冲事件(SPE)聚合成单脉冲事件组(SPEGs)后开发特征工程。第二阶段结合机器学习算法,创建一个完全标记的特征数据集训练多420天 文 学 进 展41 卷420天 文 学 进 展41 卷420天 文 学 进 展41 卷种机器学习分类器。在第一阶段,SPEGID 方法结合具有噪声基于密度的空间聚类算法(DBSCAN)23将相关 SPE 聚合成任意形状 SPEGs;随后构造 18 个特征描述 SPEGs。SPS方法采用 Friends-of-Friends 聚类算法24将相邻时间和 DM 阈值内的 SPE 聚合成 SPEGs;通过 5 个特征对 SPEGs 进行统计意义上的建模来描述 S
23、PEGs。在第二阶段,SPEGID 方法选择数据挖掘软件 WEKA 实现的 6 种分类器;最后使用最佳分类器(RandomForest)对未标记的观测数据进行自动识别和分类。SPS 方法选择最佳分类器高斯海灵格快速决策树(GH-VFDT)25对 SPEGs 进行识别;并根据空间信息对标记为脉冲星 SPEGs 进一步过滤,最终生成候选诊断图以供人工诊断。为了实现机器学习分类器对单脉冲搜索候选体的自动识别与分类,要求分类器能够从训练集中获得“脉冲星”的一般模式,这是监督学习的一个应用,是指从标记为脉冲星与非脉冲星的训练集中推断出区分脉冲星与射频干扰的目标函数26,该函数可以根据观测数据特征值将其准
24、确地映射到对应的类别(脉冲星、非脉冲星)。另外,在海量射电天文观测数据中,绝大多数是射频干扰或宇宙噪音引起的无用数据,仅有极少数探测到脉冲星信号,因此射电天文观测数据存在严重的类别不平衡6。而机器学习分类器在类别不平衡的数据集训练时,分类器通常会对多数类别(非脉冲星)进行“过度训练”,导致训练的分类器对新的观测数据进行分类时,分类结果会偏向多数类别,致使感兴趣的少数类别(脉冲星)出现大量误判27。为了缓解机器学习分类器在不平衡数据集性能表现较差的问题,须对基准数据集进行不平衡处理。之前基于机器学习的单脉冲搜索候选体识别方法的研究表明16,17,SMOTE(合成少数群体过采样技术)28在数据不平
25、衡的处理上优于其他方法。3机器学习识别方法对 CRAFTS 数据的应用和对比分析在本研究工作中,我们通过测试四类单脉冲搜索候选体识别方法对 CRAFTS 数据的应用,评估机器学习识别方法对 FAST 数据的整体性能表现。首先构建一个 CRAFTS 基准数据集;然后使用 PRESTO对数据集预处理,包括去干扰、消色散和单脉冲搜索;再应用机器学习识别方法(SPEGID和 SPS)识别单脉冲搜索候选体;作为对比,我们也使用了启发式阈值判断方法(RRATtrap和 Clusterrank)。为了全面比较不同机器学习分类SPEGID 特征 113 表征单个 SPEGs 信息,包括 SPEGs 峰值信噪比
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 机器 学习 脉冲 搜索 候选 识别 FAST 观测 CRAFTS 数据 应用 研究
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。