美国司法数据的应用及争议
美国司法数据的应用及争议——兼论对我国司法大数据应用的启示
涂 钒
(华东政法大学 法律学院,上海 200042)
[摘 要]现代化诉讼服务体系的建立是创新司法为民模式的重要成果,紧抓司法大数据深度应用的牛鼻子是社会治理精准化与公共服务个性化的重要保障。美国司法数据应用经过了近一个世纪的变迁,但许多传统问题仍未解决,新的争议又在眼前发生。这些争议与风险的背后本质上是数据本身带来的陷阱,在这个层面剖析美国问题具有普遍启示意义。我国应当在坚持司法大数据应用辅助性地位的前提下,警惕数据陷阱,防范数据风险,深度开发本土数据资源,助推便民利民、透明动态的司法机制的构建。
[关键词]美国司法大数据;数据应用;数据陷阱
引言
我国司法大数据的深度应用助力法治工作理念创新、提质增效,支撑现代化诉讼服务体系的全面建立。大数据应用正持续深入司法决策体系之中,成果颇丰惠民便民。同时,也应识别大数据陷阱,提前防范应用风险。因为风险已经在美国发生,尤以美国犯罪数据在司法实践中的应用争议最为明显。数据本身的陷阱及需要防范的风险具有普遍性和本质性,是所有裹身进入大数据和人工智能时代的国家都需审慎应对的,尤其对已占有司法人工智能领域高地的我国来说,更具有现实意义。
一、美国传统统计数据时代的特征与局限
传统统计数据时代是采取传统统计学方法,先假设后对各种犯罪相关指标、绝对数进行验证,将犯罪现象转化为数据形式进行记录和观察,实现“测量犯罪状况及其对社会造成的损失程度、分析犯罪原因,预测犯罪动向与趋势的目的”(p85)。
(一)统计数据时代的特征
美国传统统计数据时代的特征十分鲜明,包括数据来源窄、人为介入因素多、数据收集功效弱,综合概括为美国统计数据时代是拓展数据集边界的人工摸索。
数据来源窄。运用传统统计学分析犯罪的研究方法在19世纪孕育,大西洋彼岸的英国于1856年开始探索犯罪统计数据的应用,致力于衡量英国刑法法典化改革的成效,以及为未来刑法的发展提供思路(p485)。那时的美国研究因缺乏统一的刑法典而十分依赖各种形式的官方数据,以研究犯罪活动、监狱活动为主,旨在提高司法实践的效率与公正。
19世纪末,犯罪学研究的先驱威廉·道格拉斯·莫里森率先将司法数据的应用研究基础分为三类,即警务数据(Police statistics)、司法审判数据和监狱数据,并依据权威的官方统计衡量了三类数据的价值权重,得出警务数据最优的结论(p2)。莫里森指出“监狱数据以服刑统计为主,必须有经过司法过程认定的违法行为,但并不是所有的违法者、被法律裁定的有罪者都会被判监禁刑罚;司法审判数据是司法机关在刑事诉讼过程中所做的犯罪统计,只反应审判过程及结果;而警务数据来源于一系列在警局备案的犯罪调查和记录,是对年度犯罪情况最全面、综合性最强的统计,具有司法审判数据和监狱数据无可比拟的优势”(p4)。
20世纪中期,数据应用的思维和研究发生了变化。为了增加可供取样的司法数据集合,美国犯罪统一报告计划(UCR)开始了①全称“Uniform Crime Reporting Program”,包括四个数据集:国家事件报告系统(NIBRS),摘要报告系统(SRS),执法人员被杀和被攻击(LEOKA)计划以及仇恨犯罪统计计划。。首个被害者调查计划新鲜出炉,致力于找出公众所知但警方未记录的犯罪数据。被害人回忆的价值被重新认识,这被视作犯罪学研究的一个重大突破。遗憾的是,被调查者似乎原先被认为回忆犯罪行为是一件容易的事,因为犯罪行为通常较为不平凡,但事实上记忆衰退和自我记忆修正使回忆无法精准复刻。因而,数据来源始终未能充分扩大。
人为介入因素多。新理论的出现对官方数据衡量犯罪行为的可靠性和完整性提出了质疑。有限的数据集因人为介入因素过多,引发了数据分析结果的异常。警务数据的价值讨论最为激烈。赋予其高阶价值的观点认为应以立案、起诉和审判数据为衡量犯罪发生率、影响范围的主要指标(p4)。我国部分学者也称,基于“漏斗效应”,警方的立案、抓捕统计最接近实际犯罪数量,应是犯罪统计中最有价值的数据集(p88)。
然而,由于警务记录通常与犯罪行为、政策措施和警民关系有着复杂的多向关系,公众的不信任感似乎也在情理之中②本杰明·迪斯雷利的名言是,“世界上有三种谎言:谎言、鬼话连篇和统计”(There are three kinds of lies:lies,damned liesand statistics)。。1940年,反对者也曾提出,警局的立案数据、抓捕数据会为了歌颂当地政府政绩而文过饰非,也因诬告、无聊指控和假想防卫有不可靠倾向,虽然并不绝对,但此类情形当然存在(p5)。著名的心理学家及人权拥护者拉尔夫·克劳肖讽刺地说,“有时候,原本应该保护我们安全的人却成为我们最害怕的人”(p375)。无独有偶,警务数据的可靠性在英国的地位始终居于司法数据之下。英国官方司法统计报告表示,“司法统计结果之表格乃最重要、最确定、最精准的犯罪数据统计,警务数据次之,居附属地位”(p10)。
数据收集功效弱。收集方法主要是国家主导与零星的公民报告相结合。1930年,国会授权国家移民局身份识别及信息搜集与编辑部门统计全美犯罪数据③Federal Bureau of Investigation.History..https://www.fbi.gov/history/timeline.,开启了建立在小数据之上的全国犯罪数据应用分析方法。以警务数据集为重点,公民报告与监狱数据次之,再辅以调查研究、定义描述与概念构建、量化模型等手段。警务数据的价值争议上文已述,其他研究方法成效也不明显,功效性较弱。
公民报告数据的搜集主要是通过基于“特殊电话亭”到“双向无线电交流”等舆情应答系统①最早有记可考的舆情应答记录回溯到了英格兰时期,那时的警员手持响铃,民众一旦发现新情况就主动报告,警员立即用响铃通知其他工作伙伴。发展而来的紧急通讯热线实现的。而专门从事犯罪人研究的监狱机构,天然有着便捷抽出“犯罪人”样本的途径,监狱数据也有统计学意义上的可靠性。但是,二者的样本数量都偏少。据统计,80%的公民拨打热线都是因为突发事件影响了自身生活,譬如噪音投诉、报告路边无人认领的汽车,只有不到20%的公民打求助电话是因为严重的刑事案件发生(p380)。而辩诉交易的存在让大部分刑事案件都未进入最后的司法程序,降低了监狱犯罪人数统计数量。
此外,UCR报告也未能破除管中窥豹的问题。因为只有通过刑侦找到佐证,具备“事实上的违法要件”的犯罪才会录入UCR报告(p5),“不是所有犯罪都达到了被警署重视的程度,不是所有犯罪在指数统计时都有足够重要的分量,不是每次富有意义的指标展现出充分规律时就有要案发生旁以佐证”②Federal Bureau of Investigation.History..https://www.fbi.gov/history/timeline.。
(二)统计数据时代的局限
时代背景的局限。20世纪50年代计算机科学的诞生为大规模集成数据拉开序幕,但对统计学家在更大空间区域内搜集数据信息的助益十分有限。一是缘于当时的计算机在物理硬件、编程技术与投入成本等方面的束缚明显。二是核心处理程序实现了处理复杂信息的能力,消除了原本耗费四分之一总计算时间进行数据人工排序的沉没成本。但并未找到程序与人脑逻辑处理问题匹配度高的范式,即人类语言逻辑与计算机处理的数据之间存在显著差异,未实现人机对话等交互式智能应用。三是计算能力的提升打破了传统统计只能在结构化数据源中检索的限制,使获取非结构化信息成为可能,简化了统计图表的表达,但建模的情境对话还处在初级阶段,格式匹配等处理程序还处于初级阶段。
抽样调查方法的局限。在小数据时代,数据化基础薄弱,数据化的信息较少,信息传播速度较慢,信息实时共享功能尚未开发,抽样调查测量分析方法是当时的最优解。在解决简单问题时,抽样调查可以发现快速变化的量,找到数据之间的特殊函数关系。但是,它却无法迅速地发现慢变量,即隐藏着深刻影响力的变量。并且,测量方法设计的再完善也无法避免漏掉在“未抽样”信息中的重要数据,数据之间的相关性也不会总表现出结构性。
许多学者指出,传统数据时代的实验逻辑使统计数据系统性的少计算了犯罪行为,无法反映事实全貌,未被假设的结论自然也不在计算实验的考量之内。那些未被纳入的所谓的“隐藏的犯罪事例”被称为“犯罪暗数”。其概念十分模糊,既可以指“那些在某一标准上可被定义为犯罪的事件,却没有被任意一个数据提供机构当作犯罪行为记录储存”(p1),也可以指“人们对尚未发现的犯罪行为和犯罪人的图景或意象”(p4)。暗数曾经一度使美国的下层社会承担了更多压力,尤其是居住在偏远地区的青少年,他们被看作是犯罪亚文化的潜在成员(p14)。
传统统计结果的局限。预测结果的局限一是因为知识获取与逻辑耦合存在客观困难,使统计结果的输出频率较低。这是当时的硬件,譬如计算机内存无法满足复杂推理计算能力的现实所导致的,又因为大规模知识获取的困难使大规模逻辑推理进展缓慢。传统数据分析结果集中在回答“为什么”,试图用图标或表格式呈现因果关系。但小微信息难以捕捉,预测出现异常规律时传统方法也难以认可。二是在数据来源增多后,虽然突破了知识获取的瓶颈,却暂时无法媲美人工精密筛选与摘取的数据质量,未能提高样本标准,无法对干扰数据信息进行有效排除,使数据输入呈现了低质量“垃圾输入,废物输出”①“garbagein,garbageout.”状态,统计结果的可靠程度十分有限,客观规律亦只能在某一限定区域内反复证明。
以此为据的预测引发的担忧主要有两点。一方面,预测结果滞后,缺乏时效性。统计预测结果质量的保障之一即信息更新及时,尤其是商品零售价格指数、房地产开发投资消费指数等具备重要指导性功能的月度国家统计数据,如若不能稳固发布频率,及时对上月统计数据有效分析,则无法准确发挥宏观调控职能对通货膨胀规律进行预测。另一方面,样本应用次数有限,统计成本高。样本中的数据筛选通常只为了满足单一用途,样本不具备频繁反复适用功能,因而为了满足其他需求只能重新采集数据,这导致统计成本随之增加。不仅限制了统计学发挥作用的范围,也无法展开对非数据化的行业领域数据的处理分析。
此外,二十一世纪后,司法数据的应用已不再局限于官方统计,也不再囿于犯罪研究,而是悄然深入生活的各个方面,后大数据时代的来临开启了数据智能新时代。
二、后大数据时代的深度应用与争议
进入2012年,膨胀的数据使物理、金融等各领域全面开启了量化进程,吹响了以“容量巨大、速度迅捷、种类繁多”为特征的大数据时代(p949)颠覆统计数据的应用逻辑思维,重新赋予统计学更多含义的号角。短短数年,数据的信息含量和载体形式呈现出与传统数据完全不同的丰富图景,以往无法想象可以量化的人的物理行为轨迹、社交媒体活跃状态、医疗保健临床信息等领域对“数据处理”思路提出了更高挑战,推动以数据为核心的“第四次工业革命”迅速进入了后大数据时代。所谓后大数据时代即融合人类智能、人工智能以及海量非结构化数据的智能数据时代,诸多学科迅速频繁地交叉融合,以算法为驱动,结合数据挖掘、机器学习、人机交互、可视化等技术做出“预测”与“决策”(p2)。以全域采集为目标的司法数据、以预测警务为向导的司法实践、以人工智能为依据的司法量刑为代表的三大数据智能应用已在当下来临,争议,也随之而来。
(一)以全域采集为目标的司法数据
预计在2021年彻底淘汰传统UCR计划里摘要报告系统的国家事故报告系统②全称National Incident Based Reporting System,简称“NIBRS”。宣告全美范围内的司法数据从抽样统计向全样本数据采集过渡,智能数据集成管理系统逐渐完善。
其优势十分显著。第一,数据质量整体提升。系统记录了每一起犯罪事件的来龙去脉,包括共同犯罪中的单独犯罪行为,受害者与已知罪犯之间的关系等全景信息;第二,违法行为标签增多。系统收集了52项违法行为的整体数据,提供十项违规行为的犯罪地点,案发时间及犯罪背景的匹配;第三,比较分析能力提升。执法部门借此可以看到犯罪行为的诸多面相,以及非结构化因素之间隐藏的多重关联。同时,对司法数据,尤其是犯罪数据的深入挖掘展示了更为清晰的社会犯罪图景。
但是,NIBRS的司法数据无法实现对政治性扭曲或操作的完全免疫。事实上,越是高质量的数据越有可能是伪装和矫饰的产物,因为它代表着美国对于司法实践中犯罪控制活动的积极态度,而负面数据或消极证据或许会被执法机构自动忽视。而且从程序上来说,项目决策的隐秘性也很强(p150)。
此外,生态谬论的倾向性较为明显。对此最直接的理解是,用高层次、大范围的集合数据为基数展开分析,推出低层次、窄范围的个体结论。例如,从未有过任何犯罪记录的罗伯特·麦克丹尼尔却意外地被芝加哥警署人员登门警告他不要逾矩,原因是芝加哥警署依据抓捕记录和犯罪地点制作了犯罪高发区域预警名单,麦克丹尼尔成为400人名单上的一员(p12)。这是智能警务预测系统的结果,也是数据智能可能陷入生态谬论的直接表现。
(二)以预测警务为向导的司法实践
以预防犯罪为主导的司法态度的转变以智能警务预测系统的大范围运用为标志。智能警务预测尚未有统一概念,有人说“是从不同的集成源里摘取犯罪数据进行分析预测,实现对已发生罪案的有效应答,阻止未来犯罪的发生”(p16)。
基本共识是,它是从对犯罪人的空间分布转向对犯罪行为的空间分布研究的成果之一。理论基础是,“罪案的发生是当地环境条件、侵害者与受害者在情景中的不同决策交互作用的结果,警员每日有规律地巡逻可以改变或摧毁为罪恶提供温床的环境条件,然而犯罪发生的概率不会整齐划一的按照时间或空间排布,智能警务预测软件可以有效弥补这个缺陷,在海量数据中直接锁定非均匀发生的罪案模型”(p1399)。
预测警务的正效果得到多方肯定①预测警务的正效果包括“除夕之夜里士满的突发枪声减少了47%,缴械武器数量提高了246%,实现了提高效率与降低成本的目的,节省资金15 000美元”,以及英国肯特警署的服务分析部门表示“软件预测率比数据分析部门预测率平均每周高出3.16%,四个月内犯罪率降低了6%”等。。美国洛杉矶与英国肯特警局采取随机对照实验的田野调查(p1401)表明,警员们利用算法绘制的路线巡逻平均减少了7.4%的犯罪率,而依据人类犯罪学家预测的统计信息巡逻,对犯罪率基本无影响②对比的参照物一个是运用ETAS算法绘制的美国洛杉矶警署的三个辖区,另一个来源于犯罪学家分析的英国肯特警署的两个辖区。The Epidemic Type Aftershock-Sequences(ETAS)模型反应的是一定地理区域中地震活动的随机点过程,需要精确度高、反应度灵敏的计算机数据。。
然而,“预测无用”之声似乎更多。针对路易斯安纳州什里夫波特城的一项随机对照实验结果表明,在该区域,无法得出因为应用了新科技,就显著减少知识产权犯罪案件的结论。
争议不止于此。一是企图“先发制人”的警务预测变相地把未来的风险当作现实的危险,就像把犯罪率等指标的下降当作犯罪被消除的标志一样,也许会引发更多麻烦。自由主义倡导者们的观点认为,看似通过犯罪预测模型开展的活动,却无法代表所有犯罪行为的表象。而且,预测系统实际上试图阻止的人,他根本还没有犯罪,还不是法律意义上的“嫌疑人”。“犯罪数据的不可靠性、非全面性、易篡改性、及隐含的种族歧视性是众所周知的”。二是传统被动反应式警务转为以司法数据主导式预防性警务时,直觉、经验、常识在各种模型中被摒弃,虽然迎合了“防范胜于未然”的设想,但是,即便是在“数据加工厂的生产下,警方可以每天向普通市民提供类似天气预报那样的“犯罪预报”(p17),数字化的“标签”也无法完全概括每位自然人的道德操行,其所作“预报”也无法像地震预报般准确灵敏。
(三)以人工智能为依据的司法量刑
正确的量刑是法官的重要责任,这是一个惩罚犯罪、预防再犯风险、预测再犯可能的综合裁量过程(p1530)。在美国,智能风险评估系统逐渐代替法官对刑事司法量刑工作深度干预。
最初的风险评估软件是作为保释和假释的裁判依据,起到了良好的保护社区的作用③譬如,美国最高法院裁决加州监狱严重违宪,判决认为监狱人满为患,为囚犯带来“不必要的痛苦和死亡”,并支持了下级法院做出的加州监狱系统必须减少3万囚犯的裁决。如今加州正在一边减少监狱人口,一边运用风险评估系统分析被提早释放的囚犯对社区可能造成的威胁。。随着公众焦点集中到降低累犯、重视证据等方面,更多的法院和惩戒署开始了参考风险评估报告作为重要刑事案件判刑依据的摸索,由此掀起了“不能任由计算机把人们关进监狱”的评论热潮。
艾瑞克·卢米斯的案件极受关注④美国威斯康星州适用量刑辅助软件COMPAS的评估报告,判处有犯罪历史并因偷窃警车而被判刑的卢米斯六年有期徒刑及五年延期监督。COMPAS显示卢米斯“暴力风险高,再犯风险高,预审风险高,是对社区构成高风险的人”。参见:朱体正,《人工智能辅助刑事裁判的不确定性风险及其防范——美国威斯康星州诉卢米斯案的启示》,载《浙江社会科学》2018年第6期,第77页。,在威斯康星州最高法院称“COMPAS报告为他们的决定带来了有价值的信息”,裁决驳回了卢米斯的上诉案以后,美国首席大法官约翰·罗伯茨在一期访谈中谈到,“人工智能更多地介入法庭调查程序,有争议性的司法决策频出,司法部门正面临着强压”。
巨大的问号悬挂在量刑辅助风险评估系统的上方。在纽约北部的惩戒所里服刑的格伦·罗德里格斯也因COMPAS的评估报告被拒绝假释,即便他有着近乎完美的服刑表现。评估系统内部的调查过程、报告细节、推理和归纳结论的过程人们都一无所知。推测该文件可能包含大量生活数据、犯罪历史数据、与司法活动有关的数据、自动生成地蕴含规律的犯罪行为图表,譬如所在居住地、受教育水平、关系亲密人群的犯罪状况、以量化罗德里格斯的生活,行为和重新犯罪的可能性。还可能包括他的年龄,种族,性别认同,浏览习惯,也许还有一些看起来不相关的问题,譬如“头骨维度等,以此评估被告人在一定时期内重新犯罪的可能性”(p122)。
此外,系统量刑的公平性也饱受质疑。一方面缺乏透明度影响了司法公平。这些软件的开发商以商业秘密为由,即便是面对法院颁发禁制令都不会公开任何技术细节。另一方面可能强化既存于犯罪数据集中的种族、性别差异。一篇研究分析了种族对犯罪历史和累犯的影响,表明未再犯的黑人被告被错误预测的概率为44.9%,几乎是白人被告的两倍。这意味着白人被告容易被评估为低风险,黑人被告更难从评估结果中获得自由。
三、争议的原因:数据的陷阱
数据应用引发地诸多争议的解决还应回归数据本身。因为以数据为核心的应用研究,必然受到采集数据集本身固有缺陷的影响,即便“数据应用在中美之间,存在着话语与实践层面的认识差异、态度上的冷热不均”(p53),究其根本,还是因研究方式、驱动缘由、实践目的不同,激发了数据缺陷或数据陷阱在不同地缘地貌中映射出多样化的表象,孕育出个异化的内涵。
“数据陷阱”在统计学中与“数据信仰”常自动匹配,数据信仰者认为统计数据即为科学,对漂亮的图表极度自信,反而容易因对数据的盲信,落入数据陷阱之中。诚然,数据普遍存在的问题及特征,由此引发的正负效果,都是共通的。数据陷阱是司法数据研究,乃至整个司法大数据研究都无法绕越的障碍,是中美都需应对的共同课题。
(一)全样本数据的想象
数据化基础参差,智能化程度不足。全样本数据的原理是,当数据体量足够大时,越容易对不确定的事做出判断,越能画出结构化的规律,越有利于法院做出公正裁决。法律文书电子化、法律信息数据化、司法应用智能化是获得全样本数据的三大基石。尽管美国2002年就开始建设电子化法庭(p570),犹他州、密歇根州法院已实现较高智能化水平,现有的数据采集已实现犯罪行为的纵横比较,譬如2017年有10 236人犯了纵火罪,主要集中在成人年龄段等。国内人脸识别的高端技术天眼系统已对接全国20多个省,智慧法院研究中心,天平司法大数据分析平台已然确立,投入使用科技法庭28 055个。但是,因为数据化基础在全域范围内的发展不均,智能化程度仍需提升等现实问题的存在,使大数据本身并不具备完整性。
智能化法院不是简单的转移传统审判空间或硬件升级,而是司法与互联网技术的深度融合。国内部分中西部法院电子卷宗随案同步生成率不足一半,近25%的法院未开通案件警示系统,许多法院虽然开始使用了初级的智能软件,但尚未有能力拓展大数据的应用并形成报告。此外,司法管理系统的完备性较强,但安全性仍需提升。
数据闭环流通,开放与共享不充分。裁判文书上网总量已接近七千万篇①http://wenshu.court.gov.cn,数据截止于2019年6月10日。,审判流程信息公开网、执行信息公开网的纵向推进已使我国司法数据的开放体量居于世界领先地位。美国的数据智能更多源自市场对大数据分析和挖掘急迫需求的推动,所以依托数据智能整合的搜索引擎,如vtesify,提供法律建议的预测系统,如lexmachine.com等应用似春笋般勃发,实现了一定程度的数据开放与共享。
但无论是横亘在公安机关、人民法院、人民检察院之间的数据壁垒,还是美国本就独立运行的两个司法系统,都是司法大数据流的分隔符,控制着数据在各自闭环里流通。国内的一体化办公系统尚未铺开,技术与业务之间的壁垒还在,国外法院的类案同判主要依靠联邦最高法院的判例引导,打通司法数据的全域流通更是难题。深化司法数据共享还在通往高速的路上。
(二)脏数据诱发的非靶向结果
优质数据较为缺乏。数据爆炸式增长的同时,质量标准应处首位。机器学习尤其是深度学习,强化学习的完善和迭代促成了人工智能与各个领域的结合,是上海刑事案件智能辅助办案系统的核心引擎,也是美国犯罪数据应用开发的主要方式。因此,不良数据会导致数据应用产生不连贯、不完整或不准确的结果。
如果提前将给机器学习的数据集作摘选、甄别处理,就能为应用模型提供优质数据,确保数据集准确、一致、有用,较大程度地减少低质输出的概率。尤其是刑事司法领域的预测活动极度依赖输入的数据,一旦算法无法调整长久以来深埋在数据源里的瑕疵,不良结果会在未来更多次的重复应用中不断固化(p550)。
自我诱发的数据偏差。数据偏差包括具有结构性缺陷、数据所含并非关键性内容、数据于真实情况相背离等表现。许多人把谷歌流感预测失败的原因归结于算法,实际上,搜索引擎的表现完全符合人们的期待,反而是数据源出现了问题,自我诱发了数据偏差①谷歌的流感预测引擎搜集了大量的与流感有关的问卷,依据搜集的数据开始预测。在取得了些许成功后,该引擎完美地错过了2009年流感病毒爆发的预警,固执地过度预测了2011年至2014年爆发流感的情形。。
一份针对警务数据对于预测模型影响的实证研究报告指出,所记录的犯罪数据会从两个方面产生极具偏差的预测结果。一方面,原始数据存在的偏差直接导致了预测结果的偏离。另一方面,警官们在软件标注的区域内巡逻,不断地在系统里更新着新发案件的记录,随着时间的推移,这些累积的数据被填充进算法里作为基础数据时,对于该范围预测的偏差将不可避免地越来越大(p547)。
(三)隐秘的算法对直觉主义的挑战
如果数据是原材料,算法就是把杂乱纷繁的数据转化为特定决策依据的工具,司法决策中的算法是司法决策数据化的需求与计算机程序相结合的产物。公众对司法的信任建立在司法透明的基础上,实现看得见的正义。而司法量刑中试用算法“一锤定音”的美国正处于这风口浪尖上。
缺乏透明度的“技术恐怖”。行为表现算法(behavioral algorithms)已在犹他州实行,弗吉尼亚州用算法判刑也有十年经验。美国政府并不开发自己使用的算法,而是将流程外包给私营企业。这意味着,购买者仅根据所有者告知的内容,在有限的程度上知道机器决策的过程。当我们不理解百度竞价广告的排序方式或淘宝推荐商品的算法时,并不影响我们的生活,因为这和决定命运的司法裁判的利害关系完全不同。
理想中立却有现实偏见。算法中立是数据智能应用中最常见的观念,认为无伦理的计算机不关心堂下案犯的性别或肤色,只依据他一直以来的社会行为及犯罪行为判定是否有罪。一篇调查计算机决策与一个人面部特征关联性的研究表明,那些嘴唇较小,上唇较曲,眼距较近的人更容易被贴上罪犯的标签,原因并不清楚。正是存在许多的不清楚,遮盖了司法决策中算法偏见几乎与性别和种族偏见一样客观存在的事实②Oleksii Kharkovyna.AIis entering judicial system,Do we want it there?.(2018-04-13).https://medium.com/@oleksii_kh/ai-is-entering-judicial-system-do-we-want-it-there-632f56347c51.。许多软件公司也提出了类似隐忧,如向警局售卖犯罪预测软件的“市民之景”公司①见https://www.civicscape.com/官网。,将部分源代码的一个版本公布在互联网上,提醒司法机关切勿使用此版本,因为潜在偏差很难从模型中排除②Dave Gershgom.Software Used to Predict Crime Can Now Be Scoured for Bias.QUARTZ,(2017-03-22).https://qz.com/938635/a-predictive-policing-startup-released-all-its-code-so-it-canbe-scoured-for-bias/.。
逐渐探入量刑深处的隐忧。上海刑事案件智能辅助办案系统敢为全球之先,以及时发现、及时提示进入系统的刑事案件中的证据标准不统一、办案程序不统一、证据的瑕疵以及证据间的矛盾等问题,实现防止冤假错案,减少司法任意性的目标。目前,智审系统实现了庭审智能化基础之上的证据把关,尚未成为真正的“智能法官”对刑事案件的裁判结果直接给出评估建议。但是,系统终将探入刑事裁判的核心环节,左右法官的自由心证。至时,如何实现如目前类案检索般能见度高、可重复验证的算法逻辑,是数据智能逐步改变司法审判中的直觉主义(p70)的高阶挑战。
(四)数据道德文化与主体责任的空白
数据道德文化的缺失剥夺了公民的隐私权。数据公民很难清除数据痕迹,发现个人信息在上游机构的复制、移植、分析、截取活动,更无法掌控个人数据的下游市场使用。智能审判无法像承办法官一样受“终身负责制”监督和束缚,人工智能只是在无道德与无感情的状态下迭代,更无法成为平衡道德和法律的代理人,正如控制自动驾驶汽车的算法可能被编程为拯救乘客的生命而不是行人的。
数据主体责任的空白逃脱了法律的问责机制。由于它不具备法律上追责的主体资格,由它制造的“冤假错案”以技术滞后与缺陷为由一笔带过,那么谁来为人工智能法官的判决买单呢。从数据应用的流程上看,机器学习是标签化法律话语的过程,在充分挖掘法律文本的基础之上,仔细分析、筛选,打上标签。背负着耗费大量工时将文本录入数据集,面临着“数据信息处理能力的提升带来信息处理范围的扩大,信息处理负担进一步加剧”(p72)的风险的司法人员是否要被追责;开发数据应用、建立案件诉讼请求、争议焦点、适用法条等要素间单双向相关性(p251)程序的计算机学家和工程师们是否要被追责。这些不确定性与不精确性尚缺乏法律规制。
此外,司法实践中对数据的依赖与日俱增。每天沿着智能地图规划地行车路线驾驶,每晚听着音乐软件依据偏好推荐的单曲,个性化服务仿佛多股无形的线,限缩了生活,限定了行为模式。犯罪数据定制了犯罪模式,司法数据定制了司法量刑。也许在我们还未尝到甜头时,已不知不觉被它左右。这种过度依赖十分危险。犯罪学家赛林说过,“犯罪数据的价值正日益降低,因为它或许拉开了我们与真实的犯罪情况的距离”(p335)。
数字不是唯一的数据,定量研究并不是唯一方式。司法数据本质上说,都是将存在于一个多因素影响的、多元素并存的复杂环境中的,一系列出于特殊偏好、特定目标、特别因由的司法行为,转化为数字形式的资料、图表或指标的过程。在量化过程中许多零散的经验、或未符合大致规律的信息容易丢失,且不是所有资料都能被成功量化。“强盗、持械抢劫者、诈骗犯和他们的同伙都表明了他们对调查问卷或大范围的社会调查的热情,人种学研究、生活史、口述史、传记和新闻报道将会是非常宝贵的财富”(p160]。
四、我国司法大数据应用风险防范之建议
上海高院“206工程”的先锋创举,北京高院“睿法官”和四川崇州法院“小崇”法官的顺利上线,都显示出我国司法大数据应用的广阔前景。因此美国犯罪数据应用面临的问题、存在的风险是我们深度开发司法大数据应当警惕的,应在坚持司法大数据应用辅助性地位的前提下,深挖本土司法资源,贴合国情社情,警惕数据陷阱,防范数据风险。
(一)坚持科技创新与司法改革深度融合
一是以信息化基础建设双管齐下为动力,夯实司法改革的科技支撑。作为官方提倡与推动,市场配合、市场发起而官方继续回应的双重驱动的产物(p142),要以司法系统基础设施网络的互联互通为前提,夯实司法大数据使用主体,即司法机关的信息化建设,重视数据应用的开发,提升人脸识别、身份验证等技术,提高科技法庭应用率,实现在数据应用智能化整合的条件下,简单司法事务自动化高水平办公。并且依托市场信息化建设的广泛维度,丰满“信息球”,构建立体、综合、统一的数据收集、应用、流通的信息化平台。
同时,政策指引资本加大投资市场信息化基础设施的建设。典型的例子就是实现了人与物互联新格局的5G技术的出现,利用更少的物理连接、更轻便的智能设备,提供更快的挖掘分析速度,推动未来数据中心规模呈几何倍数增加,打破体量巨大、灵活性较小的大数据应用中心结构,任意部署存储于分散的云端的迷你数据中心,司法数据应用又将迎来新一轮的硬核升级。
二是以司法改革需求引领大数据应用方向,助推司法智能化的高度实现。诚然,人工智能辅助量刑系统存在一定的风险,但量刑辅助、要素审判、风险预警、类案推送等智能辅助类应用已经成为法律与事实的中介,是类案稳定裁判的平衡器。司法人员对抽象的法律术语进行自我解读,在宽幅性的法定刑幅度内做出选择。而犯罪事实与法律裁判的心证之间缺乏一种媒介,类案裁判容易出现量刑偏差,甚至畸轻畸重(p58)。
司法智能化的高度实现一方面得益于硬实力的提升。微法院智能系统、高清数字化法庭、语言智能识别系统、电子卷宗随案卷自动生成等现代科技的应用升级了司法系统的硬件表现能力,拓宽了法院、检察院提供司法服务的局限。另一方面离不开软实力的增强。逐步实现辅助复杂审判工作的数据应用在更大程度上挖掘判例等文本、数字信息,拓展了案例指导制度中对裁判理由和裁判摘要援引的局限,将判例进行多维类比,紧密联结法律与事实,加大法官、检察官在审判管理、决策分析等司法活动中科技支撑的分量,还将在未来大幅提升法官、检察官在审判、决策工作方面的精确度和定向化程度,维护法律系统的稳定运转。
(二)推动数据质量与评估模式双效革新
应高效生产优质标签数据,提升司法数据挖掘能力,提升数据质量。算法运行之前,海量数据需通过人工和自动两种方式进行调整,并按照特定分类建立特征要素库。除了人机共同修补不完整数据、修正错误、去除冗余数据和脏数据之外,数据中的偏差可以通过优化数据集,提升审判质效的方式在源头调整。
我国司法大数据较为丰富,图片、语音和文字识别技术的准确率非常高,还拥有全球最大的司法信息资源库,尤其是中国司法大数据研究院的建立,实时汇聚了全国3523个法院的司法审判信息资源。但是,获取大量的、专业的行业知识标签数据,全覆盖法律专业标签数据仍是一个艰巨的长期工程,因为这可能需要许多懂法律的计算机学家与懂计算机的法律专家共同完成。当前,提升审判质效,裁判文书质量,减少地域性裁判差异、预防数据污染,是以审判为中心的诉讼体制改革的应有之意,也是数据源偏差的一种防治之法。
应抓住国家现代化治理契机,转变数据应用评估思路,革新评估模式。为了防止已暗含偏差的数据在算法中反复固化,转变数据智能应用工具的评估方式或许是一个思路。譬如预测软件,通常以定期统计预测结果是否真实发生、概率为何来判定预测工具的优与劣,留与弃。在以社区或个人为单位的预测系统中,一旦识别危险则在该区域加强巡逻或采取逮捕或拘留等执法措施。而逮捕拘留的人数多少又会作为衡量警员表现的重要标准,变相地鼓励了警员们为了业绩最大化频繁巡逻固定区域、刻意增加使用司法手段,硬性拔高了正确率。
在推进国家现代化治理体系和治理能力的契机之下,新时代“枫桥经验”的基层治理模式提供了评估方式的新视角。公正司法、司法为民是恒定的价值理念,汇集民力、尊重民意,让网格化的基层社区成为评估效果的最终裁判者。将司法机构作为连接社会问题的导管,而非专门回应某片法律区域范围内多如牛毛的社会问题的司法工具(p27)。譬如开辟统一的社区意见反馈平台,定期发布专业调查问卷,评分内容包括群众获得公平正义的感受、对某一具体案件裁判的看法、对司法机构的信任程度、对数据搜集和分析的态度,以及对智能化司法服务的期待等。
(三)平衡阳光司法与技术保护双重原则
首先,秉持司法公开原则,为算法设定适当标准的透明度。高科技的运用有利于纵深比较社会综合治理大维度下,人民群众是否在个案中感受到公平正义,深化执法司法公开,赢得公众信任①譬如杭州互联网法院首创“5G+区块链”涉网执行新模式,法院执行指挥中心、执行现场和申请执行人在三个不同物理空间的画面无迟延同频播放,实现了执行正义的全程可视化。。在美国,知识产权保护优先于司法公开的价值取向,市场逐利性与司法公正性经常摩擦,以商业秘密为由拒绝公开算法仿佛成了诉讼中的“免死金牌”。在我国,正义要以看得见的方式实现,这无疑对人工智能时代的司法审判提出了更高要求。虽然目前存在双向知识人才较少,计算机专家开发的智审系统无法完全匹配司法人员的司法习惯,数据应用与司法实践不能无缝衔接等短板,但适度公开算法的政策呼吁得到了越来越多积极的市场回应。包括百度宣布边缘计算开源、腾讯阿里等大型企业的积极投入与参与,衔接了行业内孤岛的、零散的标准,顺应了我国司法大数据应用的需求和阳光司法的精神。
其次,注重产权保护原则,对算法进行必要法律规制。保护知识产权、塑造良好营商环境与阳光司法之间的取舍与协调需要审慎。美国近期看似出现了“以公开为主、不公开为例外”的技术使用信条。加州上诉法院做出了一项历史性的裁决,被告公司软件的源代码必须向原告披露,该案现已成为对抗商业机密不公开的重要先例②See:People v.Chubbs,Court of Appeal of California,2015 WL 139069(2015),该案不是个例。一个研发网络犯罪调查软件的机构试图援引商业秘密证据特权拒绝公开源代码。尽管考虑到秘密的扫描计算机硬件违背了第四宪法修正案,法院仍然做出了相同裁决。还有脸部识别技术的开发者拒绝公开用户名单,变相阻碍了辩护专家衡量软件是否存在只允许特定用户登录的种族歧视。。同时,有关智能工具是否应承担刑事责任的讨论甚多,而欧洲议会则直接承认了机器法律主体的地位,明确权力及义务。但是,这场博弈的大局似乎并未动摇。因为算法是所有数据智能工具的核心,是市场要“扎紧的篱笆”③譬如纽约在2017年出台了专项法案,创立特别行动组,调查各机构使用算法是否存在偏见,并提出整改报告。但是一年半过去,特别行动组面临着解散。因为算法涉及核心商业机密,至今他们仍未理清各机构的算法到底是如何操作运行的。。所以,如何公开、公开到什么程度,都是要在接下来的司法实践中继续探索的。
此外,应减少核心软件技术外包,加大自主研发力度。自主研发有其必要性。发挥市场在资源配置的关键性作用是必须的,然而各地发展并非齐头并进,外包技术公司能力也参差不齐,不必然有助于智慧司法的建设,还可能影响司法公信。在尊重市场经济规律的前提下,减少核心软件的技术外包,使各级法院不同的智能系统从硬件到平台有效对接、畅通基础信息共享。自主研发有其生命力。“周虽旧邦,其命维新”,自主创新的传统在中华文明长河中贡献良多,新中国成立后第一个计算机中文信息处理系统就由我国自主研发,数据处理技术早已与发达国家同步,体量上更占优势。以捍卫司法公信为价值导向,节约成本,提高自主开发能力,司法系统可以探索摆脱向第三方购买软件,与高校、学科合作共同研发,或配备专业团队独立研发。
(四)加强数据安全与司法监督多维管控
换脸软件“ZAO”的霸王授权协议使企业免费使用、授权、和再许可用户肖像权事件,让人工智能深度伪造技术浮出水面。与公众生活联系最为紧密、起到定纷止争作用的司法机关一旦在未来出现大数据伪造、核心信息泄露情形将十分危险。因此,需要高度警惕司法大数据伪造风险,加固司法核心数据保护和个人信息保护,提升司法监督等多维监督的管控能力。
应加快完善个人隐私相关立法。中国网民权益调查报告显示,近几年仅北京就有超过2亿条个人信息被泄露。设计数据运用的道德准则,并将透明度、责任和可审计性纳入其中,用法律制度解决道德困境,保护数字化时代的数据足迹①数据足迹的受保护的权力应包括所有权、知情权、采集权、保存权、使用权及隐私权。,这也是数据智能时代人与产品之间的伦理挑战。
需要指出的是,公共利益和个人利益之间的权衡又是一道难题。如德国的“信息自决权”,原则上每个人都应知道并自行决定由谁收集和处理有关他的哪些数据,这在实践中引发了公共安全和个人隐私孰轻孰重的激辩。诚然,在信息化改革是司法主要驱动力的我国来说此法不太可取,并且,只有数据处理在具体损害自由或构成损害自由的特别危险时,才应与基本权利相结合。
还应加强司法监督,兼用智能监督与人力监督。一方面,运用数据智能系统开拓机械性、流程化、结构化的科技监督,包括要素偏离度分析系统、数据化证据标准应用系统、审判运行态势分析应用等;另一方面,发挥司法人员主观能动性和经验智慧,定期核验智审系统,定时维护技术设备,定量分析运用效果,把控司法大数据的流动和研发方向。
再者,应坚持数据应用辅助性地位,发挥好工具性的“镜子”作用。虽然,偏重逻辑与实证的英美法系司法传统正不断地将数据智能应用拉入审判核心环节。譬如市场开发的司法结果预测系统如“解剖法律”,已经可以分析法院文书资料的语言逻辑和特点②原名Ravel Law的搜索引擎可实现查找某一法官受用或排斥的某类用语、修辞和类比,同时标注应对该法官最具说服力的语言风格和引文出处(见https://home.ravellaw.com/官网)。。法官也对律师明确提出使用智能应用的鼓励,安大略高院在判处一笔有争议的律师费时说道,“如果律师做功课时运用了人工智能软件,毫无疑问将会显著减少准备时间、降低律师费用”③Cassv.1410088 Ontario Inc.,2018 ONSC 6959.Court File No:51145/09,Date:2018-11-22.。
无疑,中国文明传统坚持数据应用的辅助性地位的做法更值得坚守。在激励市场主体的前提下对其进行必要的限制。国务院在《新一代人工智能发展规划》中提出,“建立人工智能法律法规、伦理规范和政策体系,形成人工智能安全评估和管控能力”。许多法学专家也认为,“智能机器愈是以假乱真,愈能在更深的层次和更广的范围提高人类改造自然和改造自身的能力,机器人不能担任法官,坚守司法应是人类争端解决的最后一道防线”④来源于2018年“智汇司法、相得益彰”清华RONG系列论坛之司法大数据专场讨论会上诸多专家学者的发言。。因此,在构建未来人机关系的格局上,应强调通过法律和政策予以规范,以社会的稳定有序发展为前提,回归对司法从业人员本身价值的坚定认可。
五、结语
信息超载是自人类开始认识外部世界以来始终面临的重大问题,外部环境所蕴含的信息远远超乎想象(p71)。深度应用司法大数据,以识别陷阱、防范风险为双前提,以科技创新与改革创新为双驱动,以多重剖析与精准预测为双目标,全面建设集约高效、开放互动、交融共享的现代化诉讼服务体系,为实现看得见、摸得着的公平正义提供有力司法服务和保障。
参考文献:
王松江.论犯罪统计中的几个基本问题.上海大学学报(社会科学版),2006(3).
Leon Radzinowicz.English Criminal Statistics.The Law Quarterly Review,1940,CCXXIV(56).
Rev.William Douglas Morrison.The Interpretation of Criminal Statistics.Journal Of The Statistical Society,1897,60(1).
Albert D.Biderman and Albertt J.Reiss,Jr.On Exploring the‘Dark Figure’of Crime.The Annals of The American Academy,1967,374(1).
Bethany Krystek.9-1-1 What's Your Risk:Minimizing the Risk of Police Violence through Computer-Assisted Dispatched.Federal Communications Law Journal,2018,70(3).
Great Britain.Judicial Statistics,England and Wales,1893,30(113).
Doug Laney.Application Delivery strategies.Meta Group,2001.
Talking Data.2018数据智能生态报告.北京:中关村大数据产业联盟、中国国际大数据大会组委会,2018.
Federal Bureau of Investigation.Service.2019-06-04].https://www.fbi.gov/services/cjis/ucr/nibrs.
Clayton J.Mosher,Terance D.Miethe,Dretha M.Phillips.The Mismeasure of Crime.London:Sage Publications,2002.
Kristian Lum,William Isaac.To Predict and Serve?.Significance Magazine,2016,5(1).
Beth Pearsall.Predictive Policing:The Future of Law Enforcement?.National Institute of Justice Journal,2010,266.
George Mohler,George Tita,Andrea L.Bertozzi.Randomized Controlled Field Trials of Predictive Policing.Journal of the American Statistical Association,2015,110(512).
Priscillia Hunt,Jessica Saunders,John S.Hollywood.Evaluation of the Shreveport Predictive Policing Experiment.California:RAND Corporation Safety and Justice Program,2014.
Jamiles Lartey.Predictive policing practices labeled as'flawed'by civil rights coalition.2016-08-31.https://www.theguardian.com/usnews/2016/aug/31/predictive-policing-civil-rightscoalition-aclu.
吕雪梅.美国预测警务中基于大数据的犯罪情报分析.情报杂志,2015(12).
Review.Criminal Law-Sentencing Guidelines-Wisconsin Supreme Court Requires Warning Before Use of Algorithmic Risk Assessments in Sentencing—State v.Loomis.Harvard Law Review,2017,130(5).
State of Wisconsin v.Eric L.Loomis,Supreme Court of Wisconsin.No.2015AP157-CR.Decided:July 13,2016.
Rebecca Wexler.When a Computer Program Keeps You in Jail.2017-06-13.https://www.nytimes.com/2017/06/13/opinion/how-computers-areharming-criminal-justice.html.
左卫民.关于法律人工智能在中国运用前景的若干思考.清华法学,2018(2).
Julia Angwin,Jeff Larson,Surya Mattu,et al.Machine Bias,“There’s software used across the country to predict future criminals and its biased against blacks”.2016-05-23,https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing.
左卫民.热与冷:中国法律人工智能的再思考.环球法律评论,2019(2).
Michael E.Heintz.The Digital Divide and Courtroom Technology:Can David Keep Up With Goliath?.Federal Communications Law Journal,2002,54(3).
Paul Embley.USCourts and Online Dispute Resolution.Texas:International Forum on Online Courts,2019.
Offenders,Age Category,By Offense Category,The United States:NIBRS,2017.
中国法院“智慧管理”第三方评估报告.北京:中国社会科学院法学研究所,2018.
William S.Isaac.Hope,Hype,and Fear:The Promise and Potential Pitfalls of Artificial Intelligence in Criminal Justice.Ohio State Journal Of Criminal Law,2018,15(2).
Cui Yadong.“Artificial Intelligence”Makes Judicature More Just,Efficient and Authoritative-the Theoretical Analysis and Practical Exploration of“Artificial Intelligence”in Judicial Field.Stanford:China Law and Policy Association,2017.
葛翔.司法实践中人工智能运用的现实与前瞻——以上海法院行政案件智能辅助办案系统为参照.华东政法大学学报,2018(5).
鲁楠.科技革命与法律演化的两个面相.当代美国评论,2019(1).
贾贺,艾中良,等.基于Solr的司法大数据检索模型研究与实现.计算机工程与应用,2017(20).
Thorsten Sellin.The Basisof a Crime Index.Journal of Criminal Lawand Criminology,1931,22(3).
钱大军.司法人工智能的中国进程:功能替代与结构强化.法学评论(双月刊),2018(5).
苏惠渔,张国全,等.论量刑模式的优化.法学研究,1988(6).
Brad J.Bushmanet al.Youth Violence:What We Know and What We Need to Know.American Psychologist,2016,71(1).
10.14180/j.cnki.1004-0544.2020.02.010
[中图分类号]D926
[文献标识码]A
[文章编号]1004-0544(2020)02-0092-13
基金项目:十三五国家重点研发技术项目“司法鉴定意见证据评价系统研究”(2016YFC0800707)阶段性研究成果。
作者简介:涂钒(1988—),女,湖北武汉人,华东政法大学法律学院博士生。
责任编辑 杨 幸
页:
[1]