























做 PDF→Excel 时,扫描件必须 OCR。 试了 3 个开源引擎,每个都有自己的问题。下面是我踩完坑后的结论。 场景 输入:用户扫描的发票 PDF(A4,300dpi,约 50 行表格) 需求: 表格识别(行列结构保留) 中文 + 数字混排 本地推理(纯本地是硬要求,不是可选项) 单页 < 1 秒(用户不会等 30 秒看进度条) 候选 引擎 语言 包大小 速度 准确率 Tesseract 5 C++ 50MB 800ms/页 ≈90% PaddleOCR 2.7 Python+C++ 300MB+ 400ms/页 ≈98% RapidOCR 0.0.7 Python (ONNX) 30MB 200ms/页 ≈93% 我的取舍 准确率:RapidOCR 比 PaddleOCR 低 5 个点。 速度:RapidOCR 比 PaddleOCR 快 2 倍。 包大小:RapidOCR 比 PaddleOCR 小 10 倍。 对一个本地 PDF 工具来说,速度 > 准确率。 理由是反直觉但真实: 用户最痛的不是「识别错一个字」 是...
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。