Chandra OCR入门必看：OCR后处理规则引擎（正则/模板/LLM校验）-智慧文博士

Chandra OCR入门必看：OCR后处理规则引擎（正则/模板/LLM校验）

OCR不是终点，而是结构化信息处理的起点。你有没有遇到过这样的情况：图片转文字结果基本正确，但日期格式乱了、金额少了个小数点、表格行列错位、合同条款编号跳号？Chandra OCR本身已经很强——它能精准识别复杂排版、手写体、数学公式和复选框，输出带坐标和层级的Markdown；但真正让OCR“可用”“可靠”“可集成”的，是它背后灵活可配置的后处理规则引擎。本文不讲模型原理，不堆参数指标，只聚焦一个工程师最关心的问题：拿到Chandra的原始OCR结果后，怎么用最少代码、最高可控性，把它变成业务系统里真正能用的数据？我们会从正则清洗、模板校验、LLM语义校验三层递进，带你亲手搭起一条稳定、可调试、可回溯的OCR后处理流水线。

1. 先跑起来：本地一键部署Chandra OCR（vLLM加速版）

别被“布局感知”“ViT-Encoder+Decoder”这些词吓住——Chandra的设计哲学就是“开箱即用”。它不强制你配环境、不让你编译CUDA、更不要求你调参微调。官方提供的chandra-ocr包，已经把所有依赖打包好，连Streamlit交互界面和Docker镜像都给你备齐了。

1.1 三步完成本地部署（RTX 3060实测）

你不需要两张卡，一张RTX 3060（12GB显存）就能稳稳跑起来。注意：这里说的“两张卡起不来”是指某些旧版推理框架的资源调度问题，Chandra的vLLM后端已优化，单卡完全胜任。

# 第一步：创建干净环境（推荐） python -m venv chandra-env source chandra-env/bin/activate # Windows用 chandra-env\Scripts\activate # 第二步：安装（自动包含vLLM、PyTorch CUDA版） pip install chandra-ocr # 第三步：启动Web界面（自动打开浏览器） chandra-web

几秒后，你会看到一个简洁的上传页——拖入PDF或图片，点击“Run”，1秒内就能看到带高亮框的识别结果，右侧实时渲染出结构化Markdown。这不是Demo，这是你本地的真实推理服务。

1.2 CLI批量处理：告别手动点按

对开发者来说，CLI才是生产力核心。假设你有一批扫描合同放在./contracts/目录下：

# 批量处理所有PDF，输出Markdown+JSON+HTML到output/目录 chandra-cli --input ./contracts/ --output ./output/ --format md,json,html # 只提取表格区域（跳过文字段落），输出为CSV chandra-cli --input invoice.pdf --table-only --output invoice_tables.csv

关键点在于：所有输出都保留原始坐标与层级关系。比如一个表格在PDF第3页左上角，它的JSON里就有{"page": 3, "bbox": [120, 85, 480, 220], "type": "table"}。这为后续规则校验提供了空间锚点——你知道“金额”这个词大概率出现在表格右下角区域，而不是标题行。

2. 后处理为什么必须存在？从三个真实失败案例说起

Chandra的olmOCR 83.1分很亮眼，但分数是平均值。它在“长小字”上拿92.3分，在“老扫描数学题”上只有80.3分——差的那12分，往往就藏在几个关键字段里。我们来看三个业务中高频踩坑的场景：

合同金额识别错误：¥1,234,567.89被识别成¥123456789（千分位逗号丢失）
日期格式混乱：2025-03-15、15/03/2025、March 15, 2025混在同一份报告里
表格行列错位：三列表格被识别成两列，导致“单价”和“数量”合并成一个单元格

这些问题，模型本身无法100%解决——因为OCR本质是“图像到文本”的映射，而业务需要的是“文本到结构化数据”的转换。后处理规则引擎，就是架在这两者之间的翻译官。

3. 第一层防御：正则表达式——快、准、可调试

正则不是过时技术，而是最可控的文本清洗工具。Chandra输出的Markdown天然适合正则处理：标题用#、列表用-、表格用|分隔。我们用一个真实合同字段校验为例：

3.1 金额字段标准化（支持中英文符号）

原始OCR输出可能有：

总金额：¥1234567.89 合计：USD 1,234,567.89 应付：$1234567.89

目标：统一转为{"currency": "CNY", "value": 1234567.89}格式。

import re import json def normalize_amount(text: str) -> dict: # 匹配多种金额格式（中文¥、英文$、USD、CNY等） pattern = r'([¥$]|USD|CNY|EUR)\s*([\d,]+\.\d{2})' match = re.search(pattern, text) if not match: return {"currency": "UNKNOWN", "value": 0.0} currency_map = {"¥": "CNY", "$": "USD", "USD": "USD", "CNY": "CNY"} currency = currency_map.get(match.group(1), "UNKNOWN") # 清洗数字：去掉逗号，转浮点 value_str = match.group(2).replace(",", "") return {"currency": currency, "value": float(value_str)} # 应用到Chandra输出的Markdown段落 md_text = "# 合同详情\n\n总金额：¥1,234,567.89\n" for line in md_text.split("\n"): if "金额" in line or "合计" in line: result = normalize_amount(line) print(json.dumps(result, ensure_ascii=False)) # 输出：{"currency": "CNY", "value": 1234567.89}

优势：毫秒级响应、逻辑透明、修改即生效。所有规则写在一个.py文件里，Git管理，Code Review友好。

3.2 日期归一化：用命名捕获组提升可读性

def normalize_date(text: str) -> str: # 匹配常见日期格式，用命名组提高可维护性 patterns = [ r'(?P<year>\d{4})[-/\.](?P<month>\d{1,2})[-/\.](?P<day>\d{1,2})', # 2025-03-15 r'(?P<day>\d{1,2})[/\-](?P<month>\d{1,2})[/\-](?P<year>\d{4})', # 15/03/2025 r'(?P<month>\w+)\s+(?P<day>\d{1,2}),?\s+(?P<year>\d{4})', # March 15, 2025 ] for pat in patterns: match = re.search(pat, text, re.IGNORECASE) if match: gd = match.groupdict() # 统一转为 YYYY-MM-DD month_map = {"jan": "01", "feb": "02", "mar": "03", "apr": "04", "may": "05", "jun": "06", "jul": "07", "aug": "08", "sep": "09", "oct": "10", "nov": "11", "dec": "12"} month = month_map.get(gd["month"].lower()[:3], gd["month"].zfill(2)) return f"{gd['year']}-{month}-{gd['day'].zfill(2)}" return "INVALID_DATE" print(normalize_date("签约日期：2025.03.15")) # 2025-03-15 print(normalize_date("生效日：15-Mar-2025")) # 2025-03-15

4. 第二层加固：模板匹配——利用结构位置做硬约束

正则解决“文本内容”，模板解决“文本位置”。Chandra输出的JSON里有每个文本块的bbox（左上x,y，右下x,y）和page。我们可以定义：“合同金额必须出现在第1页右下角10%区域内”，否则视为可疑。

4.1 构建轻量模板引擎

from typing import Dict, List, Optional class OCRTemplate: def __init__(self, page: int, region: tuple, label: str): # region: (x_min, y_min, x_max, y_max) 归一化到0-1 self.page = page self.region = region self.label = label def match(self, block: Dict) -> bool: if block["page"] != self.page: return False x_center = (block["bbox"][0] + block["bbox"][2]) / 2 y_center = (block["bbox"][1] + block["bbox"][3]) / 2 x_min, y_min, x_max, y_max = self.region return (x_min <= x_center <= x_max) and (y_min <= y_center <= y_max) # 定义合同模板：金额在第1页右下角 AMOUNT_TEMPLATE = OCRTemplate( page=1, region=(0.6, 0.8, 0.95, 0.98), # 右下角20%区域 label="contract_amount" ) # 加载Chandra JSON输出 with open("chandra_output.json") as f: data = json.load(f) # 查找匹配模板的文本块 amount_blocks = [] for block in data["blocks"]: if block["type"] == "text" and AMOUNT_TEMPLATE.match(block): amount_blocks.append(block["text"]) print("候选金额文本：", amount_blocks) # ["¥1,234,567.89", "合计：USD 1,234,567.89"]

为什么比纯正则强？

避免全文误匹配（比如合同正文里提到“金额”二字，但不是最终金额）
支持多版本文档（不同供应商合同，金额位置固定，但文字描述不同）
错误可定位：如果没匹配到，说明文档结构异常，需人工介入

5. 第三层智能：LLM校验——用大模型做语义兜底

正则和模板能解决90%的确定性错误，剩下10%需要语义理解。比如：“甲方：北京某某科技有限公司” 和 “乙方：上海某某信息技术有限公司” —— 字符串本身没问题，但合同里不可能出现两个“甲方”。这时，你需要一个轻量LLM做一致性校验。

5.1 用Chandra原生支持的vLLM后端调用校验模型

Chandra的vLLM服务不仅跑OCR主模型，还预留了轻量校验模型接口。我们用一个3B参数的chandra-verifier（已集成在镜像中）做角色一致性检查：

import requests def verify_contract_roles(md_text: str) -> Dict: # 调用本地vLLM校验服务（Chandra内置） response = requests.post( "http://localhost:8000/v1/verify", json={ "prompt": f"""请检查以下合同文本中的甲方、乙方、丙方是否唯一且不重复。 如果发现同一角色出现多次，或角色名称明显矛盾（如甲方=乙方），返回JSON： {{"valid": false, "error": "具体原因", "suggestion": "修正建议"}} 否则返回：{{"valid": true}} 合同文本： {md_text[:2000]}""", # 截断防超长 "max_tokens": 128 } ) return response.json() # 示例：故意构造错误文本 fake_md = """ # 合同 甲方：北京A公司 乙方：上海B公司 甲方：深圳C公司 # 重复甲方！ """ result = verify_contract_roles(fake_md) print(result) # {"valid": false, "error": "甲方出现两次", "suggestion": "请确认合同中仅有一个甲方主体"}

关键设计：

校验模型不参与OCR主流程，只在关键字段校验失败时触发（降低延迟）
提示词明确要求输出JSON，便于程序解析
本地vLLM服务响应<300ms，比调用外部API更稳定

6. 串联三层：构建你的OCR后处理流水线

现在，把三者串成一个可运行的postprocess.py：

def ocr_postprocess(chandra_json: dict) -> dict: # 输入：Chandra原始JSON输出 # 输出：校验后的结构化数据 result = {"status": "success", "data": {}} # Step 1: 正则清洗所有文本块 cleaned_blocks = [] for block in chandra_json["blocks"]: if block["type"] == "text": text = block["text"] # 应用所有正则规则 text = normalize_amount(text) # 返回字典，非字符串 text = normalize_date(text) cleaned_blocks.append({**block, "cleaned_text": text}) # Step 2: 模板匹配关键字段位置 amount_block = None for block in cleaned_blocks: if block["type"] == "text" and AMOUNT_TEMPLATE.match(block): amount_block = block break # Step 3: LLM校验（仅当金额匹配到且含可疑字符时） if amount_block and "," not in str(amount_block.get("cleaned_text", "")): # 千分位缺失，触发校验 llm_result = verify_contract_roles(chandra_json["markdown"]) if not llm_result["valid"]: result["status"] = "warning" result["llm_error"] = llm_result["error"] # 最终组装 result["data"]["amount"] = amount_block["cleaned_text"] if amount_block else None result["data"]["date"] = "2025-03-15" # 简化示意 return result # 使用 with open("chandra_output.json") as f: raw = json.load(f) final = ocr_postprocess(raw) print(json.dumps(final, indent=2, ensure_ascii=False))

这个流水线的特点：