本文主要是介绍PDF-Extract-Kit提取PDF数据,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
链接:
https://github.com/opendatalab/PDF-Extract-Kit
记录一下
首先是clone该项目,
然后新建一个虚拟环境
进入环境,进入项目
https://github.com/opendatalab/PDF-Extract-Kit?tab=readme-ov-file#installation-guide
如果报错没有PIL.Image.LINEAR,就
pip uninstall detectron2
git clone https://github.com/facebookresearch/detectron2.git
python -m pip install -e detectron2
然后下载模型:
git lfs clone https://huggingface.co/wanderkid/PDF-Extract-Kit
这一步是得到一个文件夹,里面有models文件夹,把models替换到上面clone的项目的models,这样才能有权重。
最后放入pdf文件,run
nohup python pdf_extract.py --pdf ../data/mrag.pdf --output ../output --vis > log.log 2>&1 &
最后提取为json保存
PDF-Extract-Kit输出格式{"layout_dets": [ # 页中的元素{"category_id": 0, # 类别编号, 0~9,13~15"poly": [136.0, # 坐标为图片坐标,需要转换回pdf坐标, 顺序是 左上-右上-右下-左下的x,y坐标781.0,340.0,781.0,340.0,806.0,136.0,806.0],"score": 0.69, # 置信度"latex": '' # 公式识别的结果,只有13,14有内容,其他为空,另外15是ocr的结果,这个key会换成text},...],"page_info": { # 页信息:提取bbox时的分辨率大小,如果有缩放可以基于该信息进行对齐"page_no": 0, # 页数"height": 1684, # 页高"width": 1200 # 页宽}
}{0: 'title', # 标题1: 'plain text', # 文本2: 'abandon', # 包括页眉页脚页码和页面注释3: 'figure', # 图片4: 'figure_caption', # 图片描述5: 'table', # 表格6: 'table_caption', # 表格描述7: 'table_footnote', # 表格注释8: 'isolate_formula', # 行间公式(这个是layout的行间公式,优先级低于14)9: 'formula_caption', # 行间公式的标号13: 'inline_formula', # 行内公式14: 'isolated_formula', # 行间公式15: 'ocr_text'} # ocr识别结果
这篇关于PDF-Extract-Kit提取PDF数据的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!