人工智能辅助法官决策研究——基于量刑偏差识别视角.pdf
《人工智能辅助法官决策研究——基于量刑偏差识别视角.pdf》由会员分享,可在线阅读,更多相关《人工智能辅助法官决策研究——基于量刑偏差识别视角.pdf(22页珍藏版)》请在咨信网上搜索。
1、经济管理学刊 人工智能辅助法官决策研究 基于量刑偏差识别视角 周静,中国人民大学统计学院,;杨玲燕,山东大学数据科学学院,;刘喆,中国人民大学统计学院,;王芳(通信作者),山东大学数据科学学院,。作者感谢国家自然科学基金项目()、中国人民大学科学研究基金面上项目()对本文研究的支持。作者感谢匿名审稿人和编辑部的宝贵意见,当然文责自负。周 静 杨玲燕 刘 喆 王 芳摘 要:为实现“让人民群众在每一个司法案件中都感受到公平正义”,国家持续推进量刑规范化改革,规范刑罚裁量权,促进量刑公正。如何把握刑罚裁量权的合理范围,努力实现同案同判,是量刑规范化改革的核心。本文以发现量刑畸轻畸重等量刑偏差判决为研
2、究目标,提出一种量刑偏差的识别方法:基于中国裁判文书网 条数据,采用长短期记忆(,简称)模型对案件的量刑进行预测,并提出了异质性系数度量,用于量刑偏差案件的识别。研究发现,制作、复制、出版、贩卖、传播淫秽物品牟利罪,窝藏、包庇罪,以及挪用资金罪是最容易产生量刑偏差的三种罪。本文以挪用资金罪为例,采用多元线性回归模型分析了量刑偏差的原因,分析发现坦白对挪用资金罪量刑有减轻作用,挪用金额大小与量刑长短成正比,然而,“挪用资金用于营业活动”这一变量系数存在异常,可能会导致量刑偏差的出现。最后,本文选取了两个有代表性的量刑偏差案件,通过法律专家的案例分析来判定偏差案件识别是否准确,并提供法律依据。该方
3、法以既有判决的量刑共识为基础,以期为国家量刑规范化改革提供辅助参考。关键词:司法人工智能;刑期预测;量刑偏差识别;异质性系数;模型中图分类号:;分类号:;一、引言量刑,是刑罚公正的终极体现。为实现“让人民群众在每一个司法案件中都感受到公平正义”,国家持续推进量刑规范化改革。为此,最高人民法院自 年起颁布 人民法院量刑指导意见(试行)(以下简称 指导意见),随后进行了 次修订。指导意见 对量刑的基本方法和步骤、常见量刑情节的适用范围、经济管理学刊 第 卷常见犯罪的量刑提供了全面的适用指南。但现实世界千差万别,指导意见 不可能穷尽所有情况,加之区域经济社会发展水平差异、法官个体差异、被告人所具有的
4、个性化特征等各种原因,同案不同判的情况仍有发生。这可能导致较低的服判息诉率,以 年为例,中国最高人民法院共审理了 万件一审案件,其中分别有约 和 的案件经历了二审和发回重审。这表明,仍有大量诉讼并未终止(无上诉或反上诉),其中许多案件可能都是争议案件,不同法官对诸如刑期、罚金等具体判罚可能持有不同的意见(孙海波,)。同时,也可能在一定程度上影响司法公正,不利于维护法律的权威和公信力。有学者指出,应该将法官个体的刑罚裁量与法官量刑集体经验进行对比,对靠近集体经验量刑的法官的自由裁量权采取肯定和尊重的态度,而对量刑显著偏离集体经验的法官的量刑决策进行识别并纠正其偏差(吴雨豪,)。年起,国家大力推进
5、智慧法院建设,希望通过大数据、人工智能技术的运用发现审判共识,进而提高案件受理及审判的准确度和公平性,为推动司法公平正义贡献力量(白建军,;左卫民,)。本文站在审判监督的角度,提出了一种能够自动发现量刑偏差的技术方法。自 资料来源:。年起,中国裁判文书网已向公众开放了超过 亿份法律判决文书,为基于司法判决的分析研究提供了海量的数据基础,也为开发先进的机器学习算法来实现量刑偏差案件的自动识别奠定了数据基础。本文以 年全年刑事裁判文书数据为样本,基于 种罪名、共 条法律文书数据进行分析,提出了一种能够准确发现司法审判中量刑畸轻畸重的异常情况的方法。具体包括以下三个方面:首先,以刑期为因变量,以法律
6、文书中“经审理查明”和“法院认为”提取的文本作为案件事实描述,构建长短期记忆模型用于刑期的预测;其次,基于模型的预测结果,计算预测刑期与真实刑期的差值,并构建异质性系数用于识别量刑偏差的罪名,计算发现,制作、复制、出版、贩卖、传播淫秽物品牟利罪,窝藏、包庇罪,以及挪用资金罪是异质性系数得分最高的三种罪,说明这三种罪最有可能产生量刑偏差案件;最后,为了探究影响量刑的具体因素,本文以挪用资金罪为例,构建了影响刑期长短的回归模型,分析了挪用资金罪量刑偏差的具体原因。二、文献综述随着大数据和人工智能的不断发展,国内外学术界都在积极推动相关技术与司法实践的融合,以促进司法智能化的发展(,;,;第 期 周
7、静,等:人工智能辅助法官决策研究 基于量刑偏差识别视角张玉洁,)。例如,以深度学习为代表的自然语言处理(,简称)技术在司法领域就得到了极大的发展。研究人员设计了以循环神经网络(,简称)为基础的不同算法框架以适应不同的学习任务,不仅可以根据给定的案情事实描述对判决结果进行预测(,;,),还可以专注于预测刑期等程度更为精细的判决预测任务(舒洪水,;李大鹏等,)。在 的诸多变体中,是使用最为广泛的模型结构之一,它可以解决很多 任务,例如,()探索了使用 模型的文本区域嵌入方法。()集成了双向 (,简称)模型和二维最大池化来提取文本特征,()使用双向 模型捕获每个句子的上下文信息并进行表示,以探索语义
8、匹配关系。在司法领域,()指出,被告人在司法实践中可能被同时指控多项罪名,因此可以使用深度门控网络通过提取事实描述和特定罪名之间的复杂关系,建立基于罪名的刑期预测模型,该方法能有效地提高模型的预测精度。马建刚和马应龙通过构建图长短期记忆(,简称)模型,实现了语义驱动下的司法文书分类。而 ()另辟蹊径,将有期徒刑的样本数据按照刑期长度划分为五类,以犯罪事实信息为自变量,使用 和 建立文本分类模型。王治政等()则认为相较于深度学习模型,司法知识图谱可以展现案件核心要素的联结情况,更有利于对量刑预测结果进行解释。还有学者建议通过一个完整的框架执行所有司法预测任务,例如,()提出了一种多通道注意力机制
9、的神经网络,按照人类的思维逻辑同时实现对罪名、法条和刑期的预测,提高了司法裁决预测任务的可信度和解释性。围绕刑罚与量刑影响因素的因果关系研究,孙道萃()提出应当建立精准的人工智能辅助预测量刑系统,通过挖掘数据中的量刑规律,从而进一步提高传统量刑实践的公平性和正义性。白建军()选取了 个交通肇事罪的案件,以刑期长度为因变量,以手动提取的法定量刑情节为自变量,建立多元回归模型,结果显示:通过限缩量刑情节的裁量幅度,可以将此类案件的量刑确定性由原来的 提高到 ;在此基础上控制样本的离散程度,可以将量刑确定性由 进一步提高到 。还有部分学者则以危险驾驶罪为研究对象,从不同角度构建了量刑模型并对量刑特征
10、进行了研究(章桦和李晓霞,;文姬,;樊祜 玺 和 万 力,;江 溯,;文 姬 和 黄 雪,;白 建 军,;,)。除研究如何建立模型来预测刑期长度以外,高通等()更关注某一种特定的酌定情节如何影响量刑结果,研究结果表明,赔偿这一酌定情节对故意伤害罪的量刑结果有显著影响,且随着案件严重程度的加深,影响呈下降趋势。同年,章桦()也对贪污罪的数额与情节做出了实证研究,指出明确数额与严重情节经济管理学刊 第 卷之间、严重情节与从宽情节在定罪量刑中的影响程度,应是未来理论研究、立法修正和司法解释的着力方向。除此之外,还有学者以某种罪名为例研究了更具体的量刑差异影响因素。例如,胡昌明()以盗窃罪为例探究了被
11、告人身份差异对量刑的影响;王剑波()研究了行政级别、身份性质与受贿罪的量刑差异。量刑合理与否关系到司法是否公正运行,从现有文献看,利用算法进行量刑纠偏的文献甚少,但已经有学者开始关注引起量刑偏差的因素并予以控制。如吴雨豪()基于北京地区五类案件近 万份刑事判决书,对比个案的刑罚裁量与全样本量刑集体经验,识别出了量刑显著偏离集体经验的判决。赵学军()通过对 份裁判文书进行统计分析发现,不同地域、不同时期和不同个案间的量刑偏差现象依然存在。谭红叶等()提出了偏差区间划分方法,保证刑期区间划分的准确性,避免因刑期区间划分错误带来的预测偏差。从以上对现有文献的回顾不难看出,目前已有诸多关于人工智能量刑
12、的研究,但大多集中在预测及量刑影响因素探究的层面,鲜有研究量刑偏差案件的识别,已有研究主要从理论角度论证疑难案件的定义、成因、重要性、处理方式等内容,却未提出识别量刑偏差案件的具体量化方法。为填补该理论空白,本文拟通过前沿的深度学习模型建立刑期预测模型,并开发出一个量化指标,用于量刑偏差案件的识别,为司法量刑实践提供参考,使其具有一定的实用价值。三、数据介绍与描述性分析本文选取刑事判决文书作为研究对象。其优势在于,刑事案件审判过程的规范性和严谨性相对较高,犯罪构成要件与量刑情节的内在逻辑与司法人工智能模型的决策机制更加符合。(一)数据介绍本文选取了 年 月 日至 年 月 日的刑事裁判文书,数据
13、总量为 份,包含 种不同的罪名。根据研究目标,本文仅选择刑期类型为有期徒刑的判决作为样本。由于不同罪名包含的样本数量存在较大差异,部分罪名仅包含几个样本,为方便后续建模,本文进一步选取样本量大于 的罪名进行研究。处理后的样本最终涉及 种罪名,共 条数据。表 展示了样本量最多和最少的十种罪名,从中可以看到,盗窃罪、故意伤害罪等常见犯罪对应的样本量较大。这里排除了刑期类型不是有期徒刑的罪名,例如大部分的危险驾驶罪、代替考试罪、环境监管失职罪和逃避商检罪四种罪名。第 期 周静,等:人工智能辅助法官决策研究 基于量刑偏差识别视角表 样本量最多和最少的十种罪名罪名样本量罪名样本量 盗窃罪 组织、利用会道
14、门、邪教组织、利用迷信破坏法律实施罪 故意伤害罪 强制猥亵、侮辱妇女罪 交通肇事罪 集资诈骗罪 走私、贩卖、运输、制造毒品罪 猥亵儿童罪 诈骗罪 伪造公司、企业、事业单位、人民团体印章罪 寻衅滋事罪 窝藏、包庇罪 容留他人吸毒罪 妨害信用卡管理罪 开设赌场罪 非法采伐、毁坏国家重点保护植物罪 抢劫罪 危险驾驶罪 妨害公务罪 非法行医罪 注:本表展示了样本区间为 年 月 日至 年 月 日的刑事判决文书中,样本量最多的十种罪名与样本量最少的十种罪名以及对应的样本数。(二)描述性分析根据研究目的,本文选取刑期长度作为因变量(单位:月),其分布见图,可以看到原始刑期(左图)呈右偏分布,大多数犯罪的刑期
15、集中在 个月以内。此外,图 还展示了案件数最多的五种罪名(盗窃罪,故意伤害罪,交通肇事罪,走私、贩卖、运输、制造毒品罪,诈骗罪)的刑期分布箱线图,从中可以看到,不同的罪,其刑期分布差异较大,其中走私、贩卖、运输、制造毒品罪和诈骗罪的刑期方差较大,说明这两种罪个案刑罚差异较大。图 刑期分布直方图 注:本图展示了样本数据的刑期分布状况。其中,左图为原始刑期分布直方图,右图为经过对数变换后的刑期分布直方图。经济管理学刊 第 卷图 案件数最多的五种罪名的分组箱线图 注:本图展示了频数最多的五种罪名的刑期分布状况。其中,横坐标为罪名,纵坐标为刑期的对数值。由于案件的事实信息是研究定罪量刑的基础,因此,只
16、有保证案件内容真实且客观,才能确定被告人的犯罪性质并据此裁决刑期的长度。由于裁判文书的“案件内容”通常篇幅较长,且包含对案件详细情节和判决结果等各种信息的描述,因此,本文仅选取对刑期影响较大的客观事实部分进行研究。具体而言,刑事判决文书是半结构化文书,完整的文书由案号、被告人基本信息、检察院指控、经审理查明、法院认为和法院判决等几部分组成。其中,被告人基本信息、检察院指控部分仅代表各方的观点,未经法庭质证,尚未被认定为实际影响判决的法律事实。因此,本文选择案件内容中“经审理查明”与“本院认为”两部分由法院认定的客观事实信息,用于后续对刑期的建模预测。为了更直观地理解该数据集,表 给出了样本量最
17、多的十种罪名的基本描述统计(犯罪人年龄中位数、男性犯罪人占比、高中学历及以下占比、刑期中位数、罚款金额中位数和民事赔偿金额中位数)。从表 可以总结出以下一些结论:首先,这十种罪名的犯罪人年龄的中位数都不超过 岁;其次,尽管这十种罪名的法定刑罚各不相同,但大约有 的案件判处的刑期在 个月以下,大约 的案件判处的刑期在 个月以下;最后,研究发现,民事赔偿金额的中位数大于罚款金额的中位数。第 期 周静,等:人工智能辅助法官决策研究 基于量刑偏差识别视角表 样本量最多的前十种罪名的描述统计结果罪名年龄男性()高中学历及以下()刑期(月)罚款(元)民事赔偿(元)盗窃罪 故意伤害罪 交通肇事罪 走私、贩卖
18、、运输、制造毒品罪 诈骗罪 寻衅滋事罪 容留他人吸毒罪 开设赌场罪 抢劫罪 妨害公务罪 注:本表展示了样本量最多的十种罪名的犯罪人年龄中位数、男性犯罪人占比、高中学历及以下占比、刑期中位数、罚款金额中位数和民事赔偿金额中位数。四、量刑偏差案件发现实现量刑偏差案件自动识别的基础是能够对案件的刑期进行准确的预测,而案件的事实信息是刑期裁决的前提和基础。对于事实情节较为复杂的案件,法官更容易受到认知能力和工作经验等主观因素的影响,从而可能会做出量刑不一致的裁决,导致量刑偏差案件的产生。基于此背景,这一部分使用简单易训练的长短期记忆模型()建立刑期长度与犯罪事实的关系,并以此对刑期进行预测。基于模型的
19、预测结果,提出异质性系数用于识别量刑偏差案件,为法官的司法裁定提供辅助。同时,为了对比 和其他深度学习模型结论的一致性,参考 ()提出的 模型、()提出的双向 ()模型及 ()提出的 模型,本文还训练了、和 三种模型用于结果对比。(一)模型长短期记忆模型,也叫 模型,由 ()提出,属于循环神经网络()的一个变种。模型主要用于处理文本序列,可被视为状态空间模型在文本序列数据上的一种具体实现方法,其核心思想是通过状态变量不断保留、传递历史信息。模型则是对 模型的拓展,其核心是要经济管理学刊 第 卷同时兼顾长期记忆性和短期记忆性。模型设置了隐含层来更新,其中包含三种门控单元:输入门、遗忘门和输出门。
20、输入门决定长期状态变量对当前信息的更新,遗忘门决定对历史状态信息的继承,输出门决定从长期历史状态到当前短期状态的输出。下面具体介绍 模型关于刑期预测的模型搭建。即选取“经审理查明”和“本院认为”两部分文本内容作为事实描述。首先,本文将刑期预测问题表述如下。设数据集中共有 个案件,经预处理后,案件()的事实描述表示为词语序列:,其中,为的长度,为来自一个给定语料库 的词根。由于本文提取了“经审理查明”和“本院认为”两部分文本作为每个案件的事实描述,因此语料库 由该事实描述文本中不重复的词根构成,词根则通过中文分词技术获得。例如本文选取的是 分词技术,图 展示了语料库 中词频数最高的前 个词根的词
21、云图。令为第 个案件的刑期,则 模型的目的就是根据文本序列对刑期进行预测。值得注意的是,每个案件的事实描述的文本序列的长度会不一样,这不符合后续 模型对输入的要求(该模型要求输入序列的长度一样),因此,本文计算了每个案件的文本序列长度的值及相应的分位数值。结果发现,如果将文本序列的最大长度设置为 个词根,那么原始文本序列中有超过 的文本信息会被保留下来。因此,我们将统一设置为 ,对于不足 的文本序列,本文采取用空格补全的办法使其长度达到 。图 语料库 中词频数最高的前 个词根的词云图注:本图展示了样本数据中事实描述部分(即语料库)词频最高的 个词根。其次,考虑如何基于构建本文的 模型以用于刑期
22、预测。参考 ()提出的词向量嵌入的方法,将语料库 里的每一个词根通过词向量技术映射为一个维度为 的词向量,本文中令 。因此,可以基于某个映射函数 得到向量序列 ()。接下来,考虑如何基于 时刻的文本信息和两种历史状态(长期状态和短期状态)预测(),这就产生了如图 所示的 模型结构示意图。该模型结构可以保证法律文书中有关案件的事实情况在第 时刻的文本描述可以第 期 周静,等:人工智能辅助法官决策研究 基于量刑偏差识别视角全部被考虑进模型并用于预测(),在模型的最后一层,我们构建了和之间的函数关系。至此,模型构建完毕。模型共包含 层,除“经审理查明”与“法院认为”、文本序列外,还包括一个维度为 的
23、输入层,一个维度为 的嵌入层,一个维度为 的 层,一个维度为 的全连接层,最后一个是输出层(因为预测的是刑期,因此维度为)。为防止模型的过拟合,模型中参考并使用了 ()提出的 技术,并设置随机失活概率为 ,最终,该模型一共需要消耗 个参数。图 模型结构示意图 注:作者基于研究结果自行整理。(二)其他深度学习模型除了 模型,本文还考虑了其他三种经常用于 任务的深度学习模型,分别是 模型、模型和 模型。其中,的结构见图,文本序列首先通过输入层和嵌入层,然后并行连接三个不同大小的卷积层和池化层,通过拼接和拉直后,送入全连接层,得到刑期输出。的模型结构类似于前文的,区别在于将 层替换为双向 层,具体模
24、型示意图见图。本文构建的类 模型结构见图,其主体部分是 的一个编码器块(块),可将输入序列转化为含有全局注意力信息的向量表示,最后同样将向量表示通过全连接层得到刑期输出。以上三种模型结构,采取与 模型一致的预处理方式,分别构建刑期预测模型。图 模型结构示意图注:作者基于研究结果自行整理。经济管理学刊 第 卷图 模型结构示意图注:作者基于研究结果自行整理。图 模型结构示意图注:作者基于研究结果自行整理。(三)模型训练结果本文将全样本数据集随机切分为 的样本作为训练集,用于模型训练;的样本作为测试集,用于验证模型效果。由于本文的研究对象刑期长度是连续性变量,因此选择均方误差()作为损失函数,并将
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 辅助 法官 决策 研究 基于 量刑 偏差 识别 视角
1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【自信****多点】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时私信或留言给本站上传会员【自信****多点】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。