本文主要是介绍Python-pdfplumber读取PDF内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
文章目录
import pdfplumber
import pandas as pdwith pdfplumber.open("path/to/file.pdf") as pdf:
first_page = pdf.pages[0]
# 获取文本,直接得到字符串,包括了换行符【与PDF上的换行位置一致,而不是实际的“段落”】
print(first_page.extract_texts())
# 获取本页全部表格,也可以使用extract_table()获得单个表格
for table in p0.extract_tables():
#得到的table是嵌套list类型,转化成DataFrame更加方便查看和分析
df = pd.DataFrame(table[1:], columns=table[0])
print(df)
import pdfplumber
with pdfplumber.open(pdf_path) as pdf:first_page = pdf.pages[0]print(first_page.extract_text())
pdfplumber还可以获得页面上的所有单词、直线、方格、乃至曲线的位置信息,具体可以看看官网的说明:https://github.com/jsvine/pdfplumber
这篇关于Python-pdfplumber读取PDF内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!