





















摘要:手写数学的准确转录对于教育人工智能系统至关重要,然而当前基准测试未能正确评估这一能力。大多数先前研究集中于单行表达式,并依赖于词汇指标(如BLEU),这些指标无法评估多行学生解决方案中的语义推理。在本文中,我们首次对多行手写数学光学字符识别(OCR)进行了系统研究,揭示了一种视觉语言模型(VLM)的关键失效模式:过度纠正。这些模型不是忠实地转录学生的作业,而是经常“修正”错误,从而掩盖了教育评估旨在检测的错误。为此,我们提出了PINK(基于惩罚的INK评分),一种利用大型语言模型(LLM)进行评分标准评估的语义评估指标,并明确惩罚过度纠正。我们对FERMAT数据集上的15个最先进的VLM进行的综合评估显示,与BLEU相比存在显著的排名逆转:GPT-4o等模型因过度纠正而受到严厉惩罚,而Gemini 2.5 Flash则成为最忠实转录器。此外,人类专家研究表明,PINK与人类判断(55.0%的偏好率高于BLEU的39.5%)显著更一致,为教育环境中手写数学OCR提供更可靠的评估框架。
| 主题: | 计算机与社会 (cs.CY); 人工智能 (cs.AI); 计算机视觉与模式识别 (cs.CV); 机器学习 (cs.LG) |
| 引用方式: | arXiv:2604.22774 [cs.CY] |
| (或 arXiv:2604.22774v2 [cs.CY] 用于此版本) | |
| https://doi.org/10.48550/arXiv.2604.22774 通过DataCite发布的arXiv DOI |
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。