pip install pdfplumber如果要进行可视化的调试,则需要安装ImageMagick。
DelegateException。则安装GhostScript
32位。(注意,一定要下载32位版本,哪怕Windows和python的版本是64位的。)1import pdfplumber with
pdfplumber.open('path/to/file.pdf')
as pdf: first_page =
pdf.pages[0]
print(first_page.chars[0])import pdfplumber import pandas
as pd with
pdfplumber.open('中新科技:2015年年度报告摘要.PDF')
as pdf: page =
pdf.pages[1]
# 第一页的信息 text =
page.extract_text()
print(text) table
=
page.extract_tables()
for t in table: #
得到的table是嵌套list类型,转化成DataFrame更加方便查看和分析 df =
pd.DataFrame(t[1:],
columns=t[0])
print(df)