olmOCR

UJava约 478 字大约 2 分钟

**[olmocr]**‌（Open Language Model for OCR）是一个由[AllenAI]团队开发的开源工具包，旨在高效地将PDF和其他文档转换为结构化的纯文本，同时保持自然的阅读顺序。该工具支持多种文件格式，包括PDF、JPG和PNG，特别适用于处理复杂布局的文档，如表格、数学公式和手写内容‌。

功能特点

‌高准确性和低错误率‌：olmocr经过大量学术论文、技术文档等内容的训练，采用独特的提示技术来提高识别的准确性，减少错误信息的生成‌。
‌支持复杂布局‌：该工具能够处理多栏排版、嵌入表格、数学公式和手写文本等复杂布局，特别适合需要高精度文本提取的场景‌。
‌Markdown格式输出‌：olmocr生成的文本以Markdown格式输出，便于后续使用，如与语言模型集成或文档编辑‌。
‌成本效益高‌：处理00万页PDF的成本仅为90美元，相比使用GPT-o API的成本降低了倍，特别适合预算有限的用户‌。
‌开源和可扩展‌：olmocr完全开源，用户可以自由部署使用，并支持多GPU扩展，适合企业级PDF批量转换需求‌。

技术细节

olmocr基于一个70亿参数的视觉语言模型（VLM），在超过60,000页的PDF数据集上进行了微调。其核心创新包括“文档锚定”技术，将文本元数据与基于图像的分析相结合，直接从PDF嵌入的数据中提取文本元素，并与相应的视觉表示对齐‌。此外，olmocr还提供了评估工具包、语言过滤和SEO垃圾邮件移除等功能，方便用户进行进一步处理‌。

公众号更有货，推荐关注！