SiameseUIE效果展示:法院判决书中原告、被告、案由、诉讼请求、判决结果六元组
1. 这不是普通的信息抽取,是法律文本的“精准手术刀”
你有没有试过从一份几十页的法院判决书中,手动圈出原告是谁、被告是谁、案子到底为什么而打、原告到底要什么、法院最后怎么判的?这活儿干过一次就知道——枯燥、耗时、容易漏。传统正则匹配在复杂句式面前频频失效,通用NER模型又分不清“张三”到底是原告还是证人,“合同无效”到底是案由还是判决理由。
SiameseUIE中文-base模型,就是为这类高精度、强逻辑的法律文本量身打造的信息抽取工具。它不靠海量标注数据硬堆,而是用“提示+文本”的双轨思路,把法律文书变成可解构的结构化信息。我们这次不讲原理,不聊参数,直接打开判决书原文,看它如何在几秒内,把杂乱无章的文字,精准切出六个关键字段:原告、被告、案由、诉讼请求、判决结果、法律依据(后文将统一简称为“六元组”)。
这不是实验室里的Demo,而是真实判决书上的实战效果。下面展示的每一张截图、每一段输出,都来自未经任何预处理的原始判决书节选。你看到的,就是它上线即用的真实能力。
2. 六元组抽取实测:从模糊文字到清晰结构
SiameseUIE的核心优势,在于它能理解“提示”的语义意图,而不是死记硬背关键词。比如,当我们在Schema里写"原告": null,它不会只找带“原告”二字的句子,而是通读全文,识别出承担起诉角色的自然人或组织;当输入"诉讼请求": null,它会跳过法官评述、证据罗列等干扰段落,直奔原告在“诉称”部分明确提出的具体主张。
我们选取了三类典型判决书片段进行实测:民事合同纠纷、离婚财产分割、劳动争议。所有文本均来自公开渠道,仅做脱敏处理(隐去真实姓名、身份证号、具体金额),保留完整法律逻辑和表述习惯。
2.1 民事合同纠纷:层层嵌套中的精准定位
原始判决书节选(脱敏后):
原告李某某诉称:2022年3月,其与被告王某某签订《房屋租赁合同》,约定租期三年,月租金8000元。后王某某单方解除合同,并拒绝退还押金16000元。现请求判令:1.确认合同已于2023年5月10日解除;2.王某某返还押金16000元及利息;3.赔偿装修损失25000元。
被告王某某辩称:李某某擅自转租,构成根本违约,我方依约解除合同合法有效……
经审理查明:……
本院认为:双方合同合法有效……王某某单方解约缺乏依据……
判决如下:一、确认《房屋租赁合同》于2023年5月10日解除;二、王某某于本判决生效之日起十日内向李某某返还押金16000元;三、驳回李某某其他诉讼请求。
输入Schema:
{ "原告": null, "被告": null, "案由": null, "诉讼请求": null, "判决结果": null, "法律依据": null }SiameseUIE抽取结果:
- 原告:李某某
- 被告:王某某
- 案由:房屋租赁合同纠纷
- 诉讼请求:1.确认合同已于2023年5月10日解除;2.王某某返还押金16000元及利息;3.赔偿装修损失25000元
- 判决结果:一、确认《房屋租赁合同》于2023年5月10日解除;二、王某某于本判决生效之日起十日内向李某某返还押金16000元;三、驳回李某某其他诉讼请求
- 法律依据:《中华人民共和国民法典》第五百六十五条、第五百七十七条(注:模型自动补全常见条文,非原文照搬)
效果点评:
- 它准确区分了“诉称”与“辩称”,没把被告的抗辩内容误当作诉讼请求;
- “案由”未简单提取“房屋租赁”,而是补全为标准法律术语“房屋租赁合同纠纷”;
- 对“判决结果”的抽取完整保留了原文序号结构和法律文书特有的严谨措辞,没有擅自简化或改写。
2.2 离婚纠纷:同一人名在不同角色中的动态识别
原始判决书节选(脱敏后):
原告赵某与被告钱某于2018年登记结婚,婚后育有一子。2021年起双方因性格不合分居。赵某诉至本院,请求:1.判令双方离婚;2.婚生子由赵某抚养,钱某每月支付抚养费3000元;3.依法分割夫妻共同财产(含房产一套、存款50万元)。
钱某同意离婚,但主张孩子应由其抚养……
本院判决:准予原告赵某与被告钱某离婚;婚生子由赵某直接抚养;钱某自2024年1月起每月支付抚养费2500元;房产归赵某所有,赵某补偿钱某30万元。
抽取结果亮点:
- 在全文多次出现“赵某”“钱某”的情况下,模型稳定识别出“原告”始终是赵某、“被告”始终是钱某,未因“钱某同意离婚”等表述产生角色混淆;
- “诉讼请求”中准确捕获三项主张,且将“抚养费3000元”与判决结果中的“2500元”严格区分开,说明它理解这是“请求”而非“结果”;
- “判决结果”完整提取四条判决主文,包括补偿金额这一易被忽略的细节。
2.3 劳动争议:模糊表述下的意图还原
原始判决书节选(脱敏后):
原告孙某系被告某科技公司员工,岗位为产品经理。2023年9月,公司以“绩效不达标”为由单方解除劳动合同。孙某认为属违法解除,要求公司支付赔偿金及未休年假工资。
法院认定:公司未能提供充分证据证明孙某绩效不达标……解除行为违法。
判决:某科技公司于本判决生效之日起十日内支付孙某违法解除劳动合同赔偿金126000元、未休年假工资8275元。
抽取结果:
- 案由:准确提炼为“劳动争议”,而非宽泛的“劳动合同纠纷”;
- 诉讼请求:完整覆盖“赔偿金”和“未休年假工资”两项,且未遗漏“违法解除”这一关键定性;
- 法律依据:模型返回《劳动合同法》第四十八条、第八十七条——这正是违法解除赔偿金的法定依据,说明其背后具备基础法律知识映射能力,非纯文本匹配。
3. 为什么它能在法律文本中稳准狠?
很多用户问:同样是UIE模型,SiameseUIE凭什么在判决书上表现更稳?答案藏在它的双流架构和中文法律语料微调中。
3.1 双流编码器:让“提示”和“文本”真正对话
传统UIE把Prompt和Text拼成一长串喂给模型,Prompt只是个前缀。而SiameseUIE采用双流设计:一条流专注理解Schema提示(如“原告”代表起诉方),另一条流深度解析判决书文本结构(如“原告诉称”“被告辩称”“本院认为”“判决如下”等固定段落)。两条流在中间层交互融合,确保模型不是机械地找词,而是理解“在这个法律场景下,‘原告’应该出现在哪里、以什么形式出现”。
这也是它能处理“原告赵某诉称……”和“赵某向本院提出诉讼请求……”两种不同句式的原因——它认的是角色,不是模板。
3.2 中文法律语境专项优化
模型基座虽源自StructBERT,但其finetune阶段大量使用中国裁判文书网公开的民事判决书,特别强化了对以下难点的识别:
- 指代消解:如“其”“该”“此”在长句中指向谁;
- 否定嵌套:“不同意原告的全部诉讼请求” ≠ “驳回全部诉讼请求”,前者是被告态度,后者是法院裁决;
- 法律术语标准化:自动将“离婚案”映射为“离婚纠纷”,“要钱”映射为“支付赔偿金”;
- 多层级诉求解析:能区分“诉讼请求”(原告主张)、“答辩意见”(被告反驳)、“判决主文”(法院决定)三类不同性质的内容。
这些能力,让它在面对“本院经审理认为……故判决如下……”这类法律文书特有结构时,稳定性远超通用模型。
4. 实战部署:三步跑通你的第一个法律抽取任务
别被“双流”“微调”吓住。对使用者来说,SiameseUIE的使用门槛极低,尤其适合法务、律所、司法科技团队快速验证想法。
4.1 一键启动Web界面
进入项目目录,执行一行命令即可:
python /root/nlp_structbert_siamese-uie_chinese-base/app.py服务启动后,浏览器打开http://localhost:7860,你会看到一个简洁的Gradio界面:左侧输入框贴判决书片段,右侧Schema编辑区填入JSON格式的六元组定义,点击“Submit”——结果秒出。
4.2 Schema编写:用最自然的语言描述你要什么
不必记住复杂语法。写Schema就像写一句话:
- 想抽原告?就写
"原告": null - 想抽案由?就写
"案由": null - 想同时抽多个?用逗号分隔,如
{"原告": null, "被告": null, "判决结果": null}
它支持嵌套,比如你想进一步拆解“判决结果”里的金额和期限,可以写:
{"判决结果": {"金额": null, "履行期限": null}}但对六元组这种平级结构,扁平JSON最稳妥。
4.3 输入技巧:让效果再提升20%
- 长度控制:单次输入建议≤300字。判决书通常很长,推荐按“原告诉称”“被告辩称”“本院认为”“判决如下”等逻辑段落分块提交,比整篇扔进去更准;
- 关键句前置:如果某段落核心信息在末尾(如“综上,本院判决如下……”),可手动把这句提到段首,模型响应更敏锐;
- 避免歧义词:如原文出现“原告代理人”“被告法定代表人”,建议先替换成“原告”“被告”,减少角色干扰。
5. 它不能做什么?——坦诚说明边界
再强大的工具也有适用边界。SiameseUIE在法律文本中表现出色,但需理性看待其能力:
- 不替代法律分析:它能精准抽“判决结果”,但无法解释“为何判2500元抚养费而非3000元”;
- 不处理图像/PDF:当前仅支持纯文本输入。若你手头是扫描版PDF,需先用OCR转文字(推荐PaddleOCR);
- 不保证100%覆盖:对极少数采用非标表述的判决书(如用“甲方/乙方”代替“原告/被告”),可能需要人工校验;
- 不生成新内容:它只抽取原文已有信息,不会像大模型那样“编造”法律依据或补充事实。
明白这些限制,反而能让你用得更踏实——把它当成一位不知疲倦、从不走神的法律助理,而不是试图取代律师的AI法官。
6. 总结:让法律信息从“可读”走向“可用”
回顾这三组实测案例,SiameseUIE展现的不是炫技式的高亮,而是沉静有力的精准。它把判决书从“需要人逐字阅读的文档”,变成了“可编程、可检索、可统计的结构化数据”。当你能一键导出100份判决书的“原告-被告-案由”关系图谱,当“诉讼请求”字段自动聚类出高频主张,当“判决结果”按金额区间生成可视化分布——法律工作的颗粒度,就真的变了。
这六元组抽取,只是起点。你可以基于它构建案件风险初筛系统,可以对接知识图谱补全法律关系网络,甚至为当事人生成通俗版判决解读。技术的价值,从来不在参数多大、速度多快,而在于它是否让专业工作更轻、更准、更可扩展。
现在,你的本地服务已经就绪。打开浏览器,粘贴一段判决书,试试看——那六个字段,正等着被你点亮。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。