基于分布式执行框架的低频射电干涉阵列成像管线优化.pdf
《基于分布式执行框架的低频射电干涉阵列成像管线优化.pdf》由会员分享,可在线阅读,更多相关《基于分布式执行框架的低频射电干涉阵列成像管线优化.pdf(14页珍藏版)》请在咨信网上搜索。
1、第64卷 第6期天文学报Vol.64 No.62023年11月ACTA ASTRONOMICA SINICANov.,2023doi:10.15940/ki.0001-5245.2023.06.008基于分布式执行框架的低频射电干涉阵列成像管线优化韦耀杰1,2符杰林1劳保强2,3(1 桂林电子科技大学信息与通信学院认知无线电与信息处理教育部重点实验室 桂林 541004)(2 中国科学院上海天文台 上海 200030)(3 云南大学物理与天文学院 昆明 650500)摘要平方公里阵列(Square Kilometre Array,SKA)项目是建设全球最大射电望远镜的国际合作项目,其灵敏度和测
2、量速度将比当前所有的射电望远镜都要高出一个数量级.连续谱巡天是SKA的主要观测模式之一,基于连续谱成像建立巡天区域的标准星图,将能为后续天文科学研究奠定重要基础.银河系与河外星系全天默奇森宽场阵列拓展巡天(GaLactic and Extragalactic All-sky Murchison Widefield Array survey eXtended,GLEAM-X)是20182020年利用SKA先导望远镜默奇森宽场阵列(Murchison Wide-field Array,MWA)二期拓展阵列开展的新的射电连续谱巡天项目,观测期间积累了大量的低频巡天观测数据.海量观测数据的自动化、大批
3、量处理是SKA望远镜项目所面临的的最大挑战和难题之一,基于分布式执行框架的成像管线优化经验将有助于解决海量数据处理问题.详细介绍了GLEAM-X成像管线并对其进行整合和改进,在中国SKA区域中心原型机(China SKA Regional Centre Prototype,CSRC-P)上实现了多条管线并行处理,使用GLEAM-X观测数据验证成像管线系统的部署和测试其正确性.随后为了优化管线提高处理效率,使用数据激活流图形引擎(DataActivated Liu Graph Engine,DALiuGE),将成像管线集成入DALiuGE执行框架中实现了管线的自动化分布式并行处理.通过性能测试与
4、结果分析表明,基于DALiuGE执行框架进行优化的成像管线相较于传统的并行方式具有更好的性能优势、更灵活的适配性和可扩展性,可支持未来SKA第一阶段试运行期间的大规模连续谱成像实验.关键词仪器:干涉仪,方法:观测,技术:干涉测量,技术:图像处理,射电连续谱:普通中图分类号:P164;文献标识码:A1引言连续谱巡天是平方公里阵列(Square Kilome-tre Array,SKA)射电望远镜的主要观测模式之一,主要涉及银河系和河外星系成像星表,用于探查宇宙的恒星形成史1.SKA连续谱巡天观测是研究星系演化、宇宙中大规模结构的演化、宇宙磁场等关键科学目标的重要手段.基于连续谱成像建立巡天区域的
5、标准星图,将能为后续天文科学研究建立重要科研基础.SKA是一个国际合作大科学工程,旨在建造世界上最大的射电望远镜2.它将分两个阶段建造,本文的成像管线主要为第一阶段的低频孔径阵列2022-10-10收到原稿,2022-12-02收到修改稿国家重点研发计划项目(2018YFA0404603)资助67-164 卷天文学报6 期SKA1-Low作先导应用.SKA1-Low将落于西澳大利亚的默奇森地区3,此外,世界各地也已开展了多个SKA先导望远镜项目,例如位于荷兰的低频阵列(Low Frequency Array,LOFAR)4、位于英国的增强型多元素远程链接干涉仪网络(enhancedMulti
6、Element Remotely Linked InterferometerNetwork,e-MERLIN)5、位于澳大利亚的澳大利亚SKA探路者(Australian Square Kilometre ArrayPathfinder,ASKAP)6和默奇森宽场阵列(Murchi-son Wide-field Array,MWA)78.位于西澳大利亚默奇森射电天文台的MWA望远镜是SKA三个先导望远镜之一.银河系与河外星系全天默奇森宽场阵列巡天(GaLactic and Extra-galactic All-sky MWA survey,GLEAM)是MWA20132015年间的宽视场连续谱
7、巡天,在72231MHz的频率范围内对北纬30以南的天空进行巡天覆盖9.GLEAM巡天为MWA留下了重要的低频巡天数据集,并且GLEAM数据正在用于许多银河系、河外科学计划.虽然GLEAM取得了巨大的科学成果,其低频巡天数据有助于宇宙黎明和再电离时期的探测研究,但它从根本上受到其较低分辨率和MWA原始配置的灵敏度限制,仍有进一步优化和改进的空间.银河系与河外星系全天默奇森宽场阵列拓展巡天(GaLactic and Extragalactic All-sky Murchi-son Widefield Array survey eXtended,GLEAM-X)是20182020年利用SKA先导望
8、远镜MWA二期拓展阵列开展的新的射电连续谱巡天项目10.该巡天的观测频率范围是72231 MHz,巡天覆盖范围与GLEAM巡天相同,即北纬30以南所有的天空区域,约30000 deg2.GLEAM-X的灵敏度和角分辨率能到达12 mJy和约4500,分别是GLEAM的约6倍和2倍以上.因此,GLEAM-X将能够探测到更多射电源,所探测到的射电源也更清晰.该巡天将能够产出包括连续谱与偏振图像、多频段星表、瞬变体搜索数据和电离层测量等科学数据产品,其中连续谱图像和多频段星表是该巡天的首要科学数据产品.GLEAM-X巡天总共进行了超过40000次的快照观测,总数据量约为2 PB,处理完成所有观测数据
9、需要近2000万CPU核小时.面对GLEAM-X如此庞大的数据量,急需开发自动化的并行处理管线进行数据的批量处理.目前处理天文数据最常用的方法是在脚本中静态地定义工作管线的步骤组件,这些脚本要么在本地机器上按顺序执行,要么包装到作业脚本中,提交给作业调度系统来执行11.这对于SKA规模的数据处理(具有数千万个并发任务)并不可行,而且管线的故障检测和后续恢复操作(例如重新执行)的代价非常高昂.在数据并行处理方面,工业数据密集型应用程序通常使用通用的数据并行框架,如MapReduce12、Dryad13、Spark14等来处理大批量数据,但直接使用它们来处理SKA天文数据时会出现两个问题:(1)大
10、多数的数据并行框架需要将大的数据集拆分为小的数据块,然后并行处理每个拆分块,然而天文数据集通常涉及多个复杂维度来对数据集进行切片,通用的数据并行框架难以支持SKA天文数据的多维度拆分;(2)现有数据并行框架的数据流优化对于商业工作管线可能非常有效,但是它们在天文数据管线中的相关性和实用性却非常有限,难以满足天文数据处理的科学标准.此外,现有的GLEAM-X管线还存在着一些问题:(1)管线的每个步骤都由独立的脚本文件来执行,各个管线步骤的运行参数修改和部署实现较为繁琐,不利于管线的自动化批量处理;(2)由于GLEAM-X的快照数据量较大,成像时间更长,单条管线的处理需要更多的计算资源,且单条管线
11、的处理时间较长,需要一个能根据数据处理任务的计算需求自动分配硬件资源、同时处理大批量快照数据的高效稳定的多管线并行处理方法;(3)随着SKA建设的不断推进,其所产生的数据量也将会增加数十倍,传统的并行方式可能不足以支持如此大规模的数据流扩展并行,因此,并行处理方法还需要有更灵活的适配能力和更强大的可扩展性,能将单条管线扩展为上万条管线并行处理.因此,针对以上问题,我们将多个独立的管线步骤整合成规范统一的成像流程并验证其数据处理的正确性,然后尝试使用基于任务排队系统的管线Bash脚本并行方式、基于Message Passing Inter-face(MPI)的并行扩展方式、基于Data Acti
12、vatedLiu Graph Engine(DALiuGE)执行框架的自动化67-264 卷韦耀杰等:基于分布式执行框架的低频射电干涉阵列成像管线优化6 期并行处理方式3种方法将原本的单一串行管线改进为多条管线并行的数据处理流程,并通过对比各方法的综合运行性能来寻找最优的并行处理方案.2低频射电干涉阵列成像管线本文的低频射电干涉阵列成像管线选取自MWAGLEAM-X成像管线,本章主要介绍GLEAM-X观测数据、成像管线的详细流程步骤.2.1GLEAM-X观测数据与GLEAM巡天相同,GLEAM-X整个天区巡天由7次不同位置的漂移扫描完成,整个观测频段划分为5个子频段,能提供接近连续覆盖的频率范
13、围,但弃用了受卫星等射电频率干扰严重的135138 MHz附近的频段.每个子频段的带宽为30.72 MHz,每个子频段由连续的24个频率通道组成,每个通道频率带宽为1.28 MHz,每个频率通道标注为0255的数字编号,5个子频段中心频率通道编号分别为:69、93、121、145和169.GLEAM-X观测是一系列为期4周共28晚的快照观测,为了避免太阳光照对观测的影响,漂移扫描观测仅在夜间进行.在一晚的观测时间内,每个子频段以0.5 s的时间分辨率每120 s记录一次数据,称为2 min快照观测数据,10 min则完成5个子频段数据的观测.每个快照数据文件以起始观测的GPS时间作为ID号命名
14、.2.2成像管线流程步骤本文的低频射电干涉阵列成像管线是基于开源的GLEAM-X成像管线开发1,管线主要用于处理GLEAM-X的快照观测数据.该管线的主要流程步骤如图1所示,具体步骤描述如下:(1)原始快照观测数据下载(Download Data).目前,快照数据主要通过MWA全天虚拟天文台(All-SkyVirtualObservatory,ASVO)15下载,MWA ASVO给用户提供了两种下载方式.第一种方式是利用ASVO网页交互式界面的New DataJob功能提交下载作业,等待作业完成后,通过提供的下载链接手动下载数据.第二种方式是,利用ASVO提供的命令行客户端(manta-ray
15、-client),将需要下载的快照数据的观测ID写入逗号分隔值(Comma-Separated Values,CSV)格式文件,提交下载作业后,可以实时监测下载作业的状态并在作业完成后自动下载数据.因此,第二种方式比较适用于数据的大批量自动下载.下载的原始观测快照数据为ZIP压缩文件,该压缩文件包含:可见度数据文件(gpubox.fits)、观测元数据文件(metafits和ppds)、射电频率干扰(Radio Frequency Interfer-ence,RFI)初步标记文件(flags.zip和mwaf);图 1GLEAM-X快照数据成像管线Fig.1Imaging pipeline f
16、or GLEAM-X snapshot data(2)快照数据解压与数据预处理(Cotter).对下载完成的快照数据压缩文件进行解压,然后进行数据预处理.数据预处理步骤采用的是Offringa等人开发的Cotter软件16,该软件是MWA数据专用的数据预处理软件,通过读取可见度、观测时间与频率等数据,按照预设的4 s时间分辨率和40 kHz频率分辨率对可见度数据进行时间平均和频率平均;之后读取RFI初步标记文件信息,Cotter使用Andr eOffringas Flagger(AOFlagger)17软件中的算法进行RFI检测和损坏天线的标记,并计算相关统计数据和校正电缆长度延迟相位;最后,
17、由于后续步骤的数据处理软件或程序是基于CASA核心软件库Casacore18开发的,还需要将处理后的文件转换为通用天文软件应用程序Common AstronomySoftware Applications(CASA)的MeasurementSet(MS)19格式文件;1https:/ 卷天文学报6 期(3)故障天线标记(Autoflag).由于步骤(2)中的损坏天线标记是根据观测时的记录文件进行的,个别天线故障没有被及时记录,这一步骤是根据观测工程师或者校准源数据处理中提供的天线受损记录,进行重新标记,以免有漏标的故障天线影响后续的数据处理结果;(4)天空模型建立与校准解生成(Auto Cal
18、i-brate).鉴于GLEAM-X与GLEAM的巡天天区覆盖范围和观测频率均相同,因此可以使用现有的GL-EAM视场模型对GLEAM-X观测数据进行校准.首先,在已发表的GLEAM星表中寻找GLEAM-X快照观测数据视场范围内同波段、同位置的射电分量或源信息(流量密度和位置等).然后,基于这些信息制作出该快照数据的初始天空模型,并按照Andre格式输出模型文件2.最后,天空模型文件和快照数据输入到校准算法进行校准解的产生,校准算法采用Offringa等人提出的MitchCal算法20,该算法将计算出天空模型与实际快照观测的可见度数据所有点的幅度和相位偏移量,这些偏移量再进行最小二乘法拟合获得
19、最终的校准解,这个校准解可以修正实际快照数据的幅度和相位误差;(5)目标场数据校准(Apply Calibrate).将步骤(4)中生成的校准解应用于快照观测的可见度数据进行幅度和相位校准,这一步能够消除观测设备和大气等大部分干扰因素的影响;(6)基线数据标记(Uvflag).扫描检查校准后的可见度数据是否有遗漏的RFI未进行标记,将标记的故障天线对应UV基线的可见度数据进行标记.该步骤能够尽可能地消除广播调频信号和数字电视信号对该频段观测数据的干扰影响;(7)深度成像(Deep Image).深度成像主要利用w方向叠片洁化(W-Stacking Clean,WSClean)软件21中的wsc
20、lean命令实现,最终生成2 min快照图像.主要的成像参数设置如表1所示.在成像方面,GLEAM-X的观测视场大小与GLEAM相同,但角分辨率提高了约2倍,因此输出的图像大小需增大2倍,即8000 8000.每个像素的大小(像素分辨率)一般设为望远镜角分辨率的四分之一或五分之一,可以由基础像素分辨率除以子频段中心频率的编号数(单位rad)得到每个数据的具体像素分辨率,其中基础像素分辨率为0.6.由于GLEAM-X观测视场较大(约30 30),视场范围内将包含不同大小尺度的射电源,传统的洁化(Clean)方法已经无法满足其成像处理的更高动态范围的要求,而WSClean支持多尺度洁化(Multi
21、-scale Clean)算法22,能够更好地重建延展结构的射电源.因此在参数设置上选择multiscale的主要迭代洁化增益为0.85,即在每个主要迭代中减去85%的流量密度,多尺度增益参数使用默认值0.15.最初的GLEAM数据使用了具有鲁棒性参数为1的“Briggs”图像加权23,但这种加权不适用于MWA二期扩展配置,对于GLEAM-X,通常首选natural的加权模式以最大限度地提高灵敏度,但是与GLEAM相比,natural加权的角分辨率提高仅为1.5倍,并且点源灵敏度没有最大化.为了在保持整体灵敏度的同时平衡分辨率的提高,最终选择了+0.5鲁棒性参数的“Briggs”图像加权24,
22、它提供的自动调节权重(weighting)方法,可以获得更均衡的成像效果.此外设置洁化最大迭代次数为10000000次,迭代阈值在均方根RMS(Root MeanSquare)噪声1 3之间动态调节,在成像中所选取的数据为校准过后的CORRECTED DA-TA数据列;(8)成像后处理(Postimage).对深度成像生成的图像执行电离层校正,主要为了消除电离层引起的干扰.电离层的干扰会导致射电源的相位偏移,该偏移会随电离层位置的不同而发生变化.对于成像后的快照图像,首先使用背景噪声估计(Back-ground And Noise Estimation,BANE)25工具计算背景和RMS噪声,
23、并使用源查找软件包Aegean25进行源查找,最小阈值为5.之后根据Hurley-Walker等26的方法,使用fits warp27软件包的星表交叉匹配功能,将查找到的源与GLEAM巡天星表进行交叉匹配,通常保留约3000个交叉匹配源,从中选取750个较亮的源,更多的源无法提高校正的准确性,而且会增加计算负担,因此选择该值作为收益递减点.然后,根据快照图像中保留的源与参考星表源之间的位置差异计算偏移量,fits warp使用这些偏移量来创建修正模型,将2https:/ 卷韦耀杰等:基于分布式执行框架的低频射电干涉阵列成像管线优化6 期其应用于原始快照图像,并将修正后的结果内插回图像完成位置校
24、正.之后使用flux warp28软件包以类似的方式进行流量密度校正,最后重新使用Aegean对处理后的快照图像进行源查找,对比源的数量检验校正效果;表 1wsclean成像主要参数设置Table 1 Main parameter settings of wscleanimagingParameterSetting-size8000 8000 pixels-scaleBase pixel resolution/sub-band centerfrequency channelnumber rad-weightbriggs Mode,robust 0.5-multiscale-mgain0.85-
25、multiscale-gain0.15-niter10000000-auto-mask3-auto-threshold1-data-columnCORRECTED DATA(9)图像重设(Rescale).对步骤(8)处理后的图像进行图像重缩放.首先,读取上一步Aegean对图像进行源查找的结果,使用stilts软件29将其与步骤(4)的天空模型进行交叉匹配,获取快照图像与参考模型的赤经(Right Ascension,RA)和赤纬(Declination,Dec)的偏移量以及流量密度的比值,使用sigma clip算法29来识别和去除小于中位数减标准差或大于中位数加标准差的异常值数据,接着对
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 分布式 执行 框架 低频 射电 干涉 阵列 成像 管线 优化
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。