本文主要是介绍Marker可以快速且准确地将PDF转换为markdown格式。,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
Marker
Marker可以快速且准确地将PDF转换为markdown格式。
- 支持多种文档类型(针对书籍和科学论文进行了优化)
- 支持所有语言
- 移除页眉/页脚/其他杂质
- 格式化表格和代码块
- 提取并保存图像以及markdown
- 将大多数方程转换为latex
- 支持在GPU、CPU或MPS上运行
工作原理
Marker是一个由深度学习模型组成的管道:
- 提取文本,必要时进行OCR处理(启发式算法,surya,tesseract)
- 检测页面布局并找到阅读顺序(surya)
- 清理和格式化每个块(启发式算法,texify)
- 组合块并后处理完整文本(启发式算法,pdf_postprocessor)
它仅在必要时使用模型,这提高了速度和准确性。
示例
PDF文档 | 类型 | Marker输出 | Nougat输出 |
---|---|---|---|
Think Python | 教科书 | 查看 | 查看 |
Think OS | 教科书 | 查看 | 查看 |
Switch Transformers | arXiv论文 | 查看 | 查看 |
Multi-column CNN | arXiv论文 | 查看 | 查看 |
这篇关于Marker可以快速且准确地将PDF转换为markdown格式。的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!