CC-OCR 是一个全面且具有挑战性的基准测试,专门用于评估大型多模态模型(LMMs)在光学字符识别(OCR)方面的阅读能力,以下是对 CC-OCR 的详细介绍:
1、任务类型
多场景文本阅读:包含自然场景、文档和用户生成内容(UGC)图像的 OCR,总共有 2750 张图像,分为三个子集。
多语言文本阅读:强调跨多种语言的文本识别能力,总共包含 1500 张图像,涵盖多种东亚和基于拉丁字母的语言。
文档解析:包括公式识别、表格和图表分析、元素检测和布局分析,总共包含 800 张图像。
关键信息提取:重新注释了 SIBR 和 HUST-CELL 数据集,统一了注释格式,总共包含 2008 张图像。
2、数据来源与多样性
多场景 OCR 赛道:图像从 TotalText、IC15、InverseText、HierText 等学术数据集和自行收集的数据中挑选。
多语言 OCR 赛道:图像从各种场景中挑选,包括自然场景、文档和手写图像。
文档解析赛道:图像包括印刷文档、现实拍摄的样本、表格解析、数学表达式识别和分子公式识别。
关键信息提取赛道:受限类别子集包括 SROIE、CORD、EPHOIE 和 POIE 图像,开放类别子集包括 SIBR 和 HUST-CELL 图像。
3、评估指标
文本序列和位置序列:采用 Eval-Trans 和 Eval-Pos 进行评估。
文档解析和公式识别:使用归一化编辑距离 (NED) 进行评估。
表格解析:使用基于树编辑距离的相似度 (TEDS) 进行评估。
关键信息提取:遵循之前的工作使用字段级 F1 分数进行评估。
4、模型表现
通用模型:如 Gemini-1.5-Pro 和 Qwen-VL-Max 表现较好。
专家模型:如 KOSMOS2.5、TextMonkey、Florence 和 InternVL。
5、局限性与挑战
细粒度文本定位:所有 LMMs 的细粒度文本定位是共同的弱点。
自然场景中的文本识别性能低:比文档中的文本识别低 15% 以上。
结构化格式识别、解析和 KIE 任务性能差:比纯文本识别差。
多语言能力弱:中文和英文的能力比多语言更强。
6、未来研究方向
提高细粒度文本定位能力:开发更先进的文本检测算法和技术。
增强对复杂场景的适应性:改进模型以更好地处理噪声、光照变化等复杂因素。
提升多语言支持:增加更多语言的训练数据和优化模型的多语言处理能力。
优化 KIE 任务性能:通过更精细的注释和更强大的模型架构来提高关键信息提取的准确性。
CC-OCR 提供了一个全面的评估框架,用于测试 LMMs 在多场景文本阅读、多语言文本阅读、文档解析和关键信息提取方面的能力,通过这一基准测试,研究人员可以更好地了解现有模型的优缺点,并针对性地进行改进。
以上内容就是解答有关“cc ocr”的详细内容了,我相信这篇文章可以为您解决一些疑惑,有任何问题欢迎留言反馈,谢谢阅读。
原创文章,作者:K-seo,如若转载,请注明出处:https://www.kdun.cn/ask/777656.html