基于变分自编码器和LSTM网络的会计数据异常检测框架.pdf
《基于变分自编码器和LSTM网络的会计数据异常检测框架.pdf》由会员分享,可在线阅读,更多相关《基于变分自编码器和LSTM网络的会计数据异常检测框架.pdf(7页珍藏版)》请在咨信网上搜索。
1、第2 2卷第2期2 0 2 3年6月淮阴师范学院学报(自然科学版)J OUR NA LO FHUA I Y I NT E A C HE R SC O L L E G E(NA TUR A LS C I E N C EE D I T I ON)V o l.2 2 N o.2J u n.2 0 2 3基于变分自编码器和L S TM网络的会计数据异常检测框架加雪莲1,吴睿辉1,刘 静2(1.广州南洋理工职业学院 经济管理学院,广东 广州5 1 0 9 0 0;2.喀什大学 计算机科学与技术学院,新疆 喀什8 4 4 0 0 0)摘 要:当前企业的业务流程复杂度和结构化会计数据规模不断增加,在年度审计
2、中识别出错误或舞弊的商业活动和相应记账分录的难度也逐渐加大.为此,提出了基于结合变分自编码器(V a r i a t i o n a lA u t o E n c o e r,VA E)和长短时记忆(L o n gS h o r tT e r m M e m o r y,L S TM)网络的会计数据异常检测方案.针对会计信息系统(A c c o u n t i n gI n f o r m a t i o nS y s t e m,A I S)的结构化会计数据,利用所提模型对每个会计分录的底层分布进行建模,并基于预期分布信息进行多元变量重建.将多元输入与重建分布之间的负对数似然性作为异常得分.
3、此外,提出了异常检测的动态阈值调整技术,进一步提高了通用性.实验结果表明,所提方法能够准确高效地完成大规模会计数据中的异常检测,性能显著优于其他统计方法和深度学习方法.关键词:会计数据;异常检测;变分自编码器;长短时记忆网络;会计信息系统中图分类号:T P 3 9 1.4;F 2 3 9.1 文献标识码:A 文章编号:1 6 7 1-6 8 7 6(2 0 2 3)0 2-0 1 1 8-0 7 收稿日期:2 0 2 2-1 0-1 7 基金项目:广东省教育厅重点领域专项课题“粤港澳大湾区乡村振兴政策绩效研究”(2 0 1 9 K Z D Z X 2 0 5 1);广州南洋理工职业学院创新强校
4、项目(NY-2 0 2 0 C Q 1 QN P Y-0 7,NY-2 0 2 1 C Q-J X T D 0 0 1)通信作者:加雪莲,讲师,硕士,研究方向为财务数据分析与人工智能.0 引言得益于数据分析和人工智能(A r t i f i c i a l I n t e l l i g e n c e,A I)技术的发展,会计行业,特别是审计领域正在发生巨大变化1.当前大部分企业将会计凭证记录在会计信息系统(A c c o u n t i n gI n f o r m a t i o nS y s-t e m,A I S)中,由此可得到遵循会计逻辑构建的大规模结构化会计数据2.世界经济论坛预
5、计,至2 0 2 5年,3 0%的审计工作将由A I来完成3.计算机辅助的会计数据审计方法旨在实现繁重的审计工作的自动化.审计工作中大部分任务是结构化和重复的,例如所有相关明细附表的数值验证,现金收入分录和现金支付分录的总额校验,总分类账和银行结单的跟踪,折旧账簿和课税标准的重新计算等.当前A I工具通过扫描复杂电子凭证中的关键词和模式,从包括合同、发票等不同来源中提取相关会计信息4.尤其是利用A I工具可发现数据中的异常,例如特定区域中的非预期订单增加,不寻常的高额支出项等.会计数据中的异常可能是源自工作失误或刻意舞弊,一般来说,会计账目异常检测要耗费大量时间,考虑到会计软件模块的架构和功能
6、,误差纠正也并不简单,记账分录中单个条目的误差,会造成电子表格中相关分录的整体误差5.异常会计分录会偏离正常的分录记账模式,表现为会计分录中极小部分的异常属性值.当前已提出了各种计算机辅助审计技术(C o m p u t e rA s s i s t e dA u d i tT e c h n i q u e s,C AAT)以检查会计分录.其中,基于规则的分析方法对不寻常的记账时间或多个供应商的银行账户变化进行检测6.统计方法7尝试利用班福法则(B e n f o r dsL a w)或极值分析寻找异常会计分录.文8 通过测量会计数据中每个数据点与质心分布之间的M a h a l a n o
7、 b i s距离判断异常分录.但该方法假设会计数据遵循简单统计分布.随着近期A I技术的发展,深度学习方法在会计数据审计领域发展迅速.文9 提出会计分录异常检测的深度自编码器(A u t o E n c o d e r,A E)方法,对会计分录中的每个属性值进行独热编码,并基于个体属性值的重建概率进行异常检测.其后,文1 0 提出了基于对抗自编码器(A d v e r s a r i a lA u t o E n c o d e r,AA E)的会计数据异常检测方法,通过学习会计分录中的有意义表征,提供对给定数据集的整体视角,增加了异常检测中的可解读性.文1 1 提出了用于记账凭证异常检测的变
8、分自编码器(V a r i a t i o o n a lA u t o E n c o d e r,VA E)模型,并给出了W e b应用实施.与使用A E进行的单个异常数值检测不同,该方法利用VA E对记账规则和凭证的异常组合进行检测,并考虑到与其他业务之间的相关性.本文提出了结合VA E和长短时记忆网络(L o n gS h o r tT e r m M e m o r y,L S TM)的会计数据异常检测方案,主要创新点包括:1)利用VA E网络学习正常会计数据的底层分布,基于重建误差实现无监督场景下的异常分录检测,并将VA E中的前馈网络替换为L S TM,提高了捕捉数据长期相关性的
9、能力;2)提出动态异常检测阈值调整机制,动态调整异常会计分录的判定标准,提高了所提方案的检测准确度和通用性.1 背景知识1.1 变分自编码器自编码器是包含串联的编码器和解码器网络的神经网络.编码器网络学习输入的压缩表征(隐变量),解码器网络则从压缩表征中重建输入,原始输入与重建数据之间的差异被称为重建误差.训练过程中,A E将重建误差最小化作为目标函数.VA E是一种基于贝叶斯推理的A E变体,通过引入一组隐性随机变量z,对观察p(z)的底层分布进行建模并生成新数据,图1给出了VA E结构.编码器q(z|x)对真实后验进行逼近,解码器p(x|z)则代表从数据z生成x的似然度.在神经网络结构中对
10、编码器和解码器进行建模,编码器和解码器分别通过和完成参数化.VA E通过最大化对数似然的下界,对这两个参数进行寻优1 2 LVA E=-DK L(q(z|x)|p(z)+Eq(z|x)l o gp(x|z)(1)式中DK L为K L散度(K u l l b a c k-L e i b l e rD i v e r g e n c e).通过隐变量的近似后验q(z|x)和先验p(z)之间的DK L的最小化,对隐性空间进行正则化.先验分布p(z)通常选择标准高斯分布N(0,1).1.2 L S TM网络L S TM是特殊的递归神经网络(R e c u r r e n tN e u r a lN e
11、 t w o r k s,R NN).与传统R NN不同,L S TM通过记忆门对单元中的信息流入和流出进行管理.图2给出了L S TM结构,其中记忆单元包括3个非线性门限单元,以保留和管理单元状态,避免了梯度消失问题,并支持学习长期相关性.图1VA E结构 图2L S TM结构对于输入序列中的每个元素,L S TM计算如下1 3:it=(Wi ixt+bi i+Wh iht-1+bh i)(2)ft=(Wi fxi+bi f+Wh fht-1+bh f)(3)gt=t a n h(Wi gxi+bi g+Wh ght-1+bh g)(4)911第2期加雪莲,等:基于变分自编码器和L S TM
12、网络的会计数据异常检测框架 ot=t a n h(Wi oxi+bi o+Wh oht-1+bh o)(5)ct=ftct-1+itgt(6)ht=ot t a n h(ct)(7)上式中ht和ct分别为时间t处的隐藏状态和单元状态,ht-1和ct-1分别为时间t-1处的隐藏状态和单元状态.it,ft,gt和ot分别为输入门、遗忘门、单元门和输出门.为s i g m o i d函数,为H a d a m a r d积.W和b分别为L S TM单元的权重和偏差.2 本文方法针对会计数据自动化审计,提出了结合VA E和L S TM的会计分录异常检测方案,并引入重建概率作为异常得分.图3给出了所提方
13、法示意图,F C为全连接层,使用R e l u激活函数,L S TM使用t a nh激活函数,为检测阈值.图3 所提方法流程图2.1 基于L S TM的变分自编码器所提方法利用L S TM对式(1)中的编码器q(z|x)和解码器p(x|z)进行建模.VA E假定数据流在时间上是独立同分布的.为考虑时间相关性,将VA E中的前馈网络替换为L S TM.令X=x1,x2,xN 为i=1,2,N个会计分录的集合.每个会计分录xi为多元向量,描述了会计分录的详情,例如会计年度、记账类型、记账日期、金额、总分类帐等.对于时间t处的多元输入xt,编码器L S TM利用xt,ht-1和ct-1输出隐藏状态h
14、t.其后,将ht输入两个F C层,估计出后验p(zt|xt)的均值t和对数方差l o gz.从p(zt|xt)中随机采样zt,并将其输入到解码器L S TM中.其后,通过F C层输出重建输入xt.通过最小化损失函数,得到编码器参数和解码器参数,L o s s=Tt=1DK L(q(zt|xt)|p(zt)+M S E(xt,xt)(8)式中,M S E为均方根误差.T为分录长度.使用标准正态分布N(0,1)作为隐空间的后验p(zt).由于多元高斯分布可视为连续数据,式(8)的M S E最小化等效于式(1)中的对数似然最大化.2.2 会计分录数据异常检测A E模型通常使用重建误差作为异常得分.V
15、 A E具有本质随机性,必须考虑隐空间的可变性.算法1给出了所提异常检测算法.所提方法中,通过从隐变量分布中抽取一定数量样本,将重建概率计算为式(1)中对数似然的蒙特卡洛估计,由此考虑到了隐性变量分布的可变性,即正常数据和异常数据可能有着相同的均值,但具有不同的可变性1 4.算法1 基于重建误差的会计分录异常检测算法输入:当前会计分录xt,L S TM在上一个时间步的状态st-1,分录条目数n.输出:重建误差f(xt,xt),L S TM当前状态st.021淮阴师范学院学报(自然科学版)第2 2卷1)训练所提VA E模型,其后利用式(8)损失函数得到参数和;2)输入当前会计分录的多元变量xt;
16、3)得到上一个时间步的L S TM状态st-1;4)对xt进行归一化;5)基于分录条目数n对xt进行复制,并在整个网络中进行前向传播;6)通过L S TM网络得到重建输入xt和当前L S TM状态st;7)基于xt计算出重建分布的均值和协方差;8)建概率f(xt,xt)=-l o gp(x|,);9)到当前分录xt的重建概率f(xt,xt)和L S TM当前状态st.2.3 动态异常检测阈值基于算法1中计算出的重建概率p(xt,xt)=-l o gp(x|,),得到当前会计分录的异常得分f(xt,xt)S c o r e=.当前会计分录的异常得分高于得分阈值,则检测到异常数据.异常分较高意味着
17、所提模型未完成输入的重建,换言之,该输入严重偏离了不包含异常数据的训练数据.由于会计分录数据中不同属性之间数值差异范围较大,所提方法使用了可变阈值划分,基于分录中不同的不同类别对异常阈值进行动态调整,由此可显著降低误警率,提高模型的异常检测灵敏度.具体来说,基于分录的隐空间表征动态调整异常检测阈值.给定当前会计分录xt,VA E的编码器需要先确定每个时间步的分录属性.通过从不包含异常数据的训练数据中学习分录类别组合与异常得分S c o r e之间的映射,训练出异常得分估计器fs c o r e:S c o r e.为此,利用径向基函数(R a d i a lB a s i sF u n c t
18、 i o n,R B F),通过支持向量回归(S u p p o r tV e c t o rR e g r e s s i o n,S V R)完成多维输入与异常得分之间的映射1 5.为控制灵敏度,向预期得分加入常数c,由此得到基于分录类别组合的动态异常检测阈值为 =fs c o r e()+c(9)3 实验3.1 数据集当前,S A P(S y s t e mA p p l i c a t i o n sa n dP r o d u c t s)是最常用的A I S软件,主要包括B K P F和B S E G两个数据库表.B K P F表包含会计分录的元信息,例如凭证i d、类型、日期、时
19、间或币种等.B S E G表则包含分录详情,例如记账代码、总分类账账户、借/贷信息、记账数额等.为制备实验数据集,基于国内某企业的整个会计年度的S A P数据,从B K P F和B S E G中提取最具区分性的会计分录属性子集.为对所提模型进行量化分析,并考虑到现实会计账簿中异常数据占比极小,向数据集注入少量人工合成异常数据,由此得到正常分录与异常分录高度不平衡的实验数据集.最终实验数据集共包含5个类别的6 2 3,0 0 9条分录行项目,其中异常数据占比为0.2 8%.每个行项目包含两个属性数值.为确保数据完整性,对基于会计分录的总账试算表与S A P试算表报告进行核对.按8:1:1的比例分
20、配训练集、验证集和测试集,其中训练集仅包含正常数据.3.2 实验平台和超参数设置实验硬件平台配置了I n t e lC o r e i 5-9 4 0 0C P U 2.9 0GH z和3 2G BR AM,运行W i n 1 0操作系统,使用P y t h o n编程语言,在K e r a s框架1 6下实施所提模型.编码器L S TM和解码器L S TM均采用双层L S TM,隐藏单元数量为1 2,8.隐空间大小设为4.使用反向传播算法对所提框架进行训练,批大小为5 1 2,使用A d a m优化器,学习率为11 0-3.使用L 2正则项,系数为11 0-3.3.3 评估指标在会计分录异常
21、检测中,使用准确度,F1得分(F1-s c o r e)和A U C(A r e aU n d e rC u r v e,曲线下面积)作为性能评估指标1 7.在会计数据审计业务中,与误警相比,漏检会造成更大的后果.A U C结果能够更好地体现出模型对这两个指标能够较好体现模型对异常数据的识别能力.准确度(A)计算为121第2期加雪莲,等:基于变分自编码器和L S TM网络的会计数据异常检测框架 A=T P+T NT P+T N+F P+F N(1 0)F1得分计算为精度和召回率的一种调和平均值 F1=2T PT P+F PT PT P+F NT PT P+F P+T PT P+F N(1 1)
22、A U C计算为 A U C=12(T NTN+F P+T PT P+F N)(1 2)式中,T P表示将真阳性,F P表示假阳性,T N表示真阴性,F N表示假阳性.3.4 实验结果图4给出了分别使用所提模型和原始VA E模型,在训练集和验证集上不同代数下的损失函数结果,其中绿色曲线表示训练集结果,橙色曲线表示验证集结果.图4(a)给出了原始VA E模型的结果,从中可明显发现损失函数曲线出现了多个尖峰.在图4(b)给出的所提模型结果中可发现,损失函数曲线始终保持平稳直至收敛,且收敛速度更快,证明在VA E中引入L S TM,能够提高模型对底层特征中长期相关性的捕捉,有效提高模型的学习和检测能
23、力.(a)VA E模型 (b)本文模型图4 损失函数曲线表1给出了所提方法与其他比较方法的异常检测性能结果.其中,MD方法8在各指标上的性能最差,证明统计方法仅适用于处理简单分布的数据,不能满足现实审计任务需求.在深度学习方法中,A E方法9通过个体属性编码和重建识别异常数据,性能显著优于传统方法,但其没有考虑到每个会计分录作为整体的特征分布,以及当前分录与其他会计分录的关联.VA E方法1 1基于分布映射关系完成输入会计分录重建,并利用重建误差进行异常判定.但VA E未考虑输入间的时间相关性,且该方法使用了固定的异常判定阈值,未考虑到输入会计分录的多样性.所提方法在VA E中引入L S TM
24、,在输入重建过程中充分考虑到了同分录内与不同分录间的属性关系,并利用动态阈值调整提高了对多样化样本的处理能力,因此取得了显著优于其他方法的性能.表1 会计数据异常检测结果比较方法A/%F1/%AU C/%MD6 2.7 45 9.3 08 7.4 0A E9 1.7 08 7.3 39 2.3 8VA E9 6.4 29 5.7 29 5.5 4本文方法9 9.4 19 8.1 59 9.0 3 t-S N E(t-d i s t r i b u t e ds t o c h a s t i cn e i g h b o re m b e d d i n g)技术通过将每个数据点映射到二维或三
25、维位置,提供了对高维数据的可视化.与主成分分析(P r i n c i p a lC o m p o n e n t sA n a l y s i s,P C A)不同,t-S N E可处理非线性特征.为此,t-S N E将不同数据点间的相似性转换为联合概率,并通过利用梯度下降算法,尝试对低维嵌入数据和高维数据联合概率之间的K L散度进行最小化1 8.图5 a和图5 b分别给出了使用221淮阴师范学院学报(自然科学版)第2 2卷原VA E网络和所提方法在测试集上进行会计分录异常检测的可视化结果样例,图中箭头指向的数据点表示检测出的异常数据.从中可防癌险,两个模型的重建误差出现在2维空间的相同区
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 编码器 LSTM 网络 会计 数据 异常 检测 框架
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。