位置结构导向的多模态代码摘要生成方法.pdf

上传人：自信****多点

文档编号：3655918

上传时间：2024-07-12

格式：PDF

页数：7

大小：1.56MB

《位置结构导向的多模态代码摘要生成方法.pdf》由会员分享，可在线阅读，更多相关《位置结构导向的多模态代码摘要生成方法.pdf（7页珍藏版）》请在咨信网上搜索。

1、第卷第期年月北京信息科技大学学报（自然科学版）（）文章编号：（）：位置结构导向的多模态代码摘要生成方法张学君，侯霞（北京信息科技大学计算机学院，北京）摘要：针对软件维护中的自动代码摘要任务，提出了一种创新的模型，旨在解决现有方法在保留源代码语义结构信息方面的不足。该模型采用图神经网络和技术，以更全面地捕捉代码的语义信息和结构信息。此外，采用字节对编码算法来处理未登录词问题，并通过四元组的形式保留抽象语法树的结构信息。这样的组合使得模型在处理源代码时不仅能够全面地捕捉代码的语义特征，还能够准确地学习到代码的语法结构。在真实数据集上的实验结果表明，该模型在、和指标上均优于

2、基线模型，从而验证了其在生成更准确代码摘要方面的有效性。关键词：自动代码摘要；字节对编码；抽象语法树；中图分类号：文献标志码：，（，）：，：；收稿日期：基金项目：北京市自然科学基金青年项目（）作者简介：第一作者：张学君，男，硕士研究生；通信作者：侯霞，女，博士，教授。引言在软件开发领域，高品质的代码摘要可以显著提升程序理解的效率，降低维护的成本，并减少开发过程中的错误。然而，在许多实际项目中，详尽且有意义的代码摘要或注释往往有缺失，而手动编写这些注释的过程又耗时且成本高昂。因此，自动代码摘要技术应运而生。运用该技术能自动生成清晰的代码功能、逻辑和目的描述，从而提升软件开发的质量和效率。自动代码

3、摘要的早期研究主要依赖构造模板的方法来提取代码的关键词，但这种方法往往忽视了代码的语法结构。随着神经网络技术的快速发展，深度学习模型，如卷积神经网络（，）、循环神经网络（，）和等已经在代码摘要任务中得到了广泛应用。等基于机器翻译和文本摘要技术开发了，使用序列模型来生成代码摘要。为了解北京信息科技大学学报（自然科学版）第卷决长期依赖问题，等采用了模型来学习源代码的表示。等的模型则有效地结合了预训练技术和的优势，以更有效地利用源代码的信息。代码摘要任务需要处理大量的未登录词汇（，），这是一个难点。一些研究使用拆分代码标记的方式来应对，但会导致很多无

4、用的词汇，降低模型效率。所以，如何减少代码标记的词汇量，并有效处理不同语言的未登录词，是影响代码摘要质量的关键因素。还有一些研究利用信息检索的方法来增加词汇覆盖率和解决未登录词问题。基于代码摘要和代码搜索的相似性，等提出了一种搜索相似代码片段的方法，来更精确地生成代码摘要。为了更好地理解代码的语法结构和组件关系，研究者们使用了编码器解码器的方法，先用神经网络将代码的抽象语法树（，）编码为分布式向量，再从向量中解码出摘要。还有一些方法，将线性化为节点或路径，以提高编码效率。但是，这些方法在处理时，有的会忽略结构信息，有的会忽略节点的重要性。因此，需要一种方法，能够细致地捕获中每个节

5、点和关系的重要性，以提高代码摘要的质量。近年来，自动代码摘要的研究取得了显著的进展，神经网络技术的引入尤其推动了这一领域的发展。研究人员已经从简单的模板提取方法转向利用深度学习模型来捕获源代码的复杂语义。然而，尽管这些技术在性能上取得了突破，但仍存在一些挑战，限制了自动代码摘要技术的进一步提升。多模态特征在代码摘要任务中的应用已经得到了广泛的认可。这里的多模态，指的是源代码的多种不同表示形式。源代码和其抽象语法树的结合，能够提供丰富的语法和语义信息，这对于全面理解代码的功能和逻辑至关重要。然而，有效融合具有不同结构的源代码和仍是一个挑战。以等的研究为例，他们从的种异构模式（基于结构的

6、遍历序列和图结构）中学习源代码表示。这种方法虽然能够处理多模态数据，但无法充分探索不同模态之间的深层关联，也难以识别每种模态在代码摘要任务中的具体重要性。针对上述自动代码摘要任务中的挑战，本文提出一种位置结构导向的多模态代码摘要生成方法，采用架构，并结合图神经网络来综合学习代码的语义与结构信息。为深入挖掘的结构信息，引入一种四元组位置编码方式对其进行编码，以实现对代码层次结构的精确建模。此外，采用字节对编码算法，有效控制词表的粒度和规模，从而高效地解决未登录词问题。实现方法模型架构整体设计图展示了本文设计的多模态代码摘要生成模型的整体架构，该模型由个核心组件构成：代码编码器、编码器和

7、摘要解码器。模型接受种输入：源代码的序列信息和的结构信息。图模型架构第期张学君等：位置结构导向的多模态代码摘要生成方法在处理源代码序列过程中，本文采用字节对编码（，）算法进行预处理，有效地对代码序列进行分割和编码。然后，利用代码编码器对生成的代码子词标记序列进行编码，以捕捉丰富的语义信息。在处理信息过程中，本文采用图神经网络对进行编码。这一策略旨在全面学习源代码的复杂结构，并提升对代码的结构表达能力。在解码过程中，本文通过多头注意力机制，克服信息融合中的复杂性，生成更为可靠和准确的摘要信息。该解码器不仅关注源代码的语法和结构信息，同时注重位置信息的融合，从而在生成代码摘要时展现

8、出更为优秀的性能。代码建模方法代码建模示例如图所示。在自动代码摘要研究中，代码序列和抽象语法树信息起着重要作用。作为代码的中间表示，揭示了代码的层次性语法结构，形成一个带有标记节点的树。在本文中，节点被分为控制函数实现的函数节点和提供其父函数节点值或名称的属性节点。图代码建模示例由于具有严格的构造规则，节点的位置信息在学习中显得至关重要。然而，传统的图神经网络在对树结构进行编码时，对相邻节点的位置并不敏感。为解决这一问题，本文引入一种四元组位置索引来保留中的位置信息。四元组具体包括：节点深度位置、父节点宽度位置、该节点在兄弟节点间的宽度位置以及其在源代码序列中的位置。在四元组构

9、造过程中，函数节点的宽度位置通过广度遍历确定，为从开始编号的非负整数；同时识别的属性节点，将其与源代码序列标记建立映射关系。通过四元组位置索引，可以精确标识给定中每个节点的具体位置。这种全面详细的代码建模方法充分整合了代码序列和信息，为模型提供更准确丰富的语法和结构表示。代码编码器本文使用基于的编码器来嵌入源代码序列。编码器每一层都由多头注意力和前馈网络个子层组成。此外，为解决深层网络中的梯度消失和表示偏移问题，在个子层中添加了残差连接和层归一化操作。具体来说，本文将原始的代码文本分割成一系列北京信息科技大学学报（自然科学版）第卷独立的单词。为保留源代码中的语义信息，首先根据驼

10、峰和蛇形的命名规则，将自定义的变量名细分为不同的子序列。然后使用算法进行处理，尽可能保留有意义的词汇，并删除无意义的词汇。最后将分割后的单词嵌入到向量中，作为代码序列的初始化向量表示。接下来，与中处理自然语言的方式类似，将标记向量送到多头自注意力层和前馈层。多头自注意力层可以捕捉标记之间的语义关系，并赋予每个标记不同的注意力权重。最后，前馈层可以进一步调整标记的向量表示，并作为编码器的最终输出。代码编码器的运算方式如下：（，）（）（，）槡()（）（）（）式中：为代码序列的初始化向量表示；为代码序列经过自注意力机制加权求和之后的向量表示；（）表示自注意力机制；、分别表示查询矩阵、键矩阵和值矩

11、阵；为键矩阵的行向量维度；（）表示对矩阵每一行进行归一化；（）表示前馈层操作；为前馈层的输出。编码器考虑到结构的特殊性，本文采用图采样与聚合（，）方法来学习的节点表示。编码层首先使用不同类型的边特征聚合节点的邻居信息来处理，然后通过一个权重矩阵，使用聚合后的邻居特征来更新的节点信息。节点特征的聚合方式可以表示为（，（）（）式中：为第个节点的向量表示；（）为节点的邻居节点；（）是聚合函数；为第层的节点更新后的向量表示。在的节点信息更新完成后，将所有节点的向量拼接起来，形成一个全局的图表示，并进行非线性变换的激活。节点特征的更新方式可以表示为（，（）（）式中：为第层的权重

12、矩阵；（）表示拼接操作；（）是修正线性单元激活函数；为节点的最终向量表示。随着模型层数的增加，中的节点可以从更远的邻居节点处获取特征信息。为了减轻多层次处理导致的梯度消失和高偏移，本文在每一层中采用残差连接和层归一化来进行优化。摘要解码器为综合考虑多个编码器信息，本文设计了一个联合解码器。如图所示，该解码器接收个编码器（代码编码器和编码器）的隐藏状态向量，并将其解码为自然语言摘要。该解码器由多个基于的解码模块组成。对于摘要序列，解码器首先进行自注意力编码，利用掩码机制防止未来信息泄露，并在每个子层后添加残差连接和层归一化。利用掩码多头注意力对摘要序列进行编码的表达式为（，）（）式中：

13、为摘要序列的初始化表示；（）表示掩码多头注意力；为编码后的向量表示。然后，解码器通过个多头注意力模块分别与代码编码器和编码器进行交互，以获取编码器的输出信息，并用于摘要生成。第一个模块计算摘要序列与节点的注意力权重，实现对特征信息的融合。第二个模块计算融合特征信息的摘要序列与代码序列的注意力权重，实现对代码特征信息的融合。利用多头注意力对特征信息进行融合的表达式为，（，）（），（，）（）式中：，与，分别为个编码器特征融合后的向量表示。随后，解码器通过一个前馈网络进行非线性变换，处理多头注意力模块的输出向量。前馈网络的处理过程可以表示为（，）（）式中：，为多编码器融合后的向量表示

14、；为前馈层的输出。最终，通过一个线性层和一个层将前馈网络的输出向量映射为下一个摘要单词的预测概率分布。概率分布的具体转换方式为（）（）式中：（）表示线性变换；（）用于将线性变换的结果转换为概率分布；表示转换后的概率分布。实验数据集与预处理本文实验使用由等提出的数据集。该数据集包含通过创建的存储库中收集的代码和相应的描述语句。数据集按照的第期张学君等：位置结构导向的多模态代码摘要生成方法比例划分为训练集（条）、测试集（条）和验证集（条）。为满足模型对代码信息的需求，本文使用工具包将所有代码解析为对应的，并对代码和摘要文本进行标记化。值得强调的是，为解决问题，本文采用

15、算法来处理词表。首先，根据源代码中的驼峰命名法和蛇形命名法对复杂命名进行分词，构建初步词表。为尽可能涵盖所有词汇，通过算法对现有词表进行二次处理，将非常规命名方式的单词分解为有意义的子词。为避免词表过大，本文剔除了词表中无意义的词汇，并将部分保留词汇替换为特殊标记。实验设置该模型基于平台，使用进行开发。在模型结构设计中，本文将代码标记、抽象语法树节点以及摘要标记的嵌入大小统一设置为。同时采用多头注意力机制，以提高模型的表达能力和学习效率。在模型的训练过程中，采用自适应矩估计（，）优化器，将丢弃率（）设置为，防止模型过拟合。批处理的大小为，最大训练轮次为。为避免无效训练，如果模型

16、在连续个训练轮次中性能没有得到提升，训练过程将会提前结束。在模型的推理过程中，采用束搜索（）策略，并将束宽（）设置为，以提高模型的预测精度和稳定性。基线模型本文将以下代码摘要方法作为基线模型进行比较。（年）：采用编码器对源代码进行编码，并通过另一个解码器生成代码摘要。（年）：将代码的抽象语法树遍历为序列，然后使用方法生成代码摘要。（年）：利用相对位置表示源代码之间的成对关系，使用架构生成代码摘要。（年）：通过图卷积对结构信息进行建模，结合捕获序列和结构信息，生成代码摘要。（年）：将局部符号信息和全局句法结构注入到的自注意力模块中，以捕捉代码的层次化特征信息。（年）：利用增强型

17、的信息进行跨模态特征融合，并在框架下生成代码摘要。（年）：设计合适的提示语句，利用大语言模型生成代码摘要。评估指标与先前研究相似，本文采用、和作为性能评估指标。这些指标在机器翻译、文本摘要等领域广泛使用，也是评估代码摘要任务中模型性能的通用标准。结果分析为综合评估本文提出的方法，针对以下研究问题进行实验。问题：与所选的基线模型相比，本文提出的模型表现如何？问题：本文提出的模型中，各个模块对模型性能的贡献程度如何？问题：不同的特征学习方法和词表处理方法对模型性能产生何种影响？基线模型对比表给出了本文模型与基线模型的对比结果。表与基线模型对比实验结果模型本文模型如表所示

18、，基于框架的模型（、和）相对于基于框架的模型（和）表现出显著的性能提升。在框架基础上，仅使用源代码信息的模型（）相较于同时使用源代码信息和信息的模型（、和）表现略显不足。在使用信息的模型中，不同的处理方式对模型性能产生了明显影响。需要注意的是，在所有评价指标上均低于其他模型。分析认为，这一结果主要是因为生成的摘要较为详细且长度较长，北京信息科技大学学报（自然科学版）第卷而当前评价指标更侧重于短而精确的代码摘要，从而导致其实验结果相对较差。本文提出的基于架构的方法在实验中取得了更好的性能，这证明相较于基于结构的方法，本文方法在代码摘要任务中更为有效。同时，信息在理解代码

19、方面发挥了重要作用，不同的处理方式对模型性能产生显著影响。实验结果显示了本文方法的优越性，凸显了框架和对信息的精心处理对提升代码摘要任务性能的关键作用。消融实验表给出了本文消融实验的结果。表消融实验结果模型去除编码器去除代码编码器去除位置信息本文模型实验结果表明：）缺少编码器会显著影响模型的性能。编码器在提供代码的语法信息方面发挥着关键作用。）模型在缺乏代码编码器的情况下性能下降明显。代码编码器负责提供代码的语义信息，其状态对模型性能有显著影响。）保留相对位置信息对性能至关重要。通过四元组对代码的相对结构位置进行建模，模型能够学习到深层次

20、的代码结构信息，这对模型性能产生积极影响。特征学习方法与词表处理方法表给出了本文进行特征学习方法替换的实验结果。表特征学习方法替换实验结果模型替换代码编码器替换替换本文模型实验结果表明：）预训练的编码器性能不及原始的编码器。这是由于预训练过程中有更多不同种类的编程语言参与，导致针对语言的噪声信息增加，从而影响了模型的整体性能。）和的性能都不及。这是因为能够更有效地利用节点的特征和邻居信息来生成节点的表示，而和则更依赖于图的拓扑结构，但代码的图拓扑结构未必反映代码的语义信息。此外，需要为每个邻居节点分配一个权重向量，导致模型的计算开销增大。表给出了不同的词表处理

21、方式对模型性能影响的实验结果。表不同词表处理方法的实验结果处理方法词表大小按照词频处理（细粒度）（粗粒度）（本文模型）如表所示，基于词频统计生成的词表规模较大，但由于舍弃了低频词，这导致其无法完全覆盖语料中的词汇，影响模型性能。相比之下，使用算法能更好地处理这一问题。然而，在使用算法时，需要注意分词的粒度和词表大小对模型的影响。若分词力度过大，会导致有意义的词语被过度分解为无意义短语，虽然提升了部分性能，但增加了词表大小和整体训练开销。反之，若分词力度过小，会导致词语未能按预期分解为子序列，显著降低模型性能。上述实验结果表明，寻找分词算法的平衡点至关重要。该平衡点不仅需要考虑词表

22、内容的覆盖率，还需要在词表规模和整体训练开销之间取得平衡，以确保模型在实际任务中取得最佳性能。结束语在代码摘要生成任务中，本文提出了一种位置结构导向的多模态代码摘要生成模型。该模型以为基本架构，并结合图神经网络，同时学习源代码中的语义信息和语法信息。本文采用四元组位置索引来表示抽象语法树，使模型更全面地学习代码结构信息。同时为减少未登录词的影响，采用算法来控制词表的粒度和规模，从而实现更高质量的代码摘要生成。实验结果证明，相较于基线模型，本文提出的模型在多个评价指标上均取得了性能提升。在未来的研究中，计划引入更为复杂且灵活的神经网络，用以捕捉代码中的语法和语义信息。对于算法，将深入研究不同的分词粒度和规模大第期张学君等：位置结构导向的多模态代码摘要生成方法小控制策略，以找到更为适合代码摘要生成任务的参数设置。通过这些改进，期望进一步提升模型性能，使其更有效地适用于不同类型的源代码。参考文献：陈翔，杨光，崔展齐，等代码注释自动生成方法综述软件学报，（）：，（）：（），：，：，：，：，：，：，：，（），：，：，：，：，（），：，：，（），：，：，：，：，：，：，：，：，：，：，：，：，（）：，：，（）：，：？（）：

下载提示：咨信网仅提供存储空间/不修改/不编辑

【自信AI创作助手】【自信AI导航】
1、请仔细预览页面，基本判断完整性，对于直接下载带来的问题请及时与客服沟通；下载的文档，不会出现我们的网址水印。
2、该文档所得收入（下载+内容+预览）归上传者、原创作者；如果您是本文档原作者，请点此认领！既往收益都归您。

同意并开始全文预览

举报此文档有问题？有机会获“体验VIP”奖励！

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

申诉本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请申请举报、认领或删除 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 位置结构导向多模态代码摘要生成方法

咨信网温馨提示：
1、咨信平台为文档C2C交易模式，即用户上传的文档直接被用户下载，收益归上传人（含作者）所有；本站仅是提供信息存储空间和展示预览，仅对用户上传内容的表现方式做保护处理，对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿，我们不确定上传用户享有完全著作权，根据《信息网络传播权保护条例》，如果侵犯了您的版权、权益或隐私，请联系我们，核实后会尽快下架及时删除，并可随时和客服了解处理情况，尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确)，网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据，平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺，下载前须认真查看，确认无误后再购买，务必慎重购买；若有违法违纪将进行移交司法处理，若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传，付费前请自行鉴别，如您付费，意味着您已接受本站规则且自行承担风险，本站不进行额外附加服务，虚拟产品一经售出概不退款（未进行购买下载可退充值款），文档一经付费（服务费）、不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印，是因预览和防盗链等技术需要对页面进行转换压缩成图而已，我们并不对上传的文档进行任何编辑或修改，文档下载后都不会有水印标识（原文档上传前个别存留的除外），下载后原文更清晰；试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓；PPT和DOC文档可被视为“模板”，允许上传人保留章节、目录结构的情况下删减部份的内容；PDF文档不管是原文档转换或图片扫描而得，本站不作要求视为允许，下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权，请谨慎使用；网站提供的党政主题相关内容(国旗、国徽、党徽－－等)目的在于配合国家政策宣传，仅限个人学习分享使用，禁止用于任何广告和商用目的。
6、文档遇到问题，请及时私信或留言给本站上传会员【自信****多点】，需本站解决可联系【微信客服】、【 QQ客服】，若有其他问题请点击或扫码反馈【服务填表】；文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“【版权申诉】”（推荐），意见反馈和侵权处理邮箱：1219186828@qq.com；也可以拔打客服电话：4008-655-100；投诉/维权电话：4009-655-100。