技术文摘
Python 完成 PD 文字识别、提取及 CSV 文件写入的脚本分享
2024-12-31 02:51:53 小编
Python 完成 PD 文字识别、提取及 CSV 文件写入的脚本分享
在当今数字化时代,处理和分析大量的文档数据是一项常见但具有挑战性的任务。Python 作为一种强大而灵活的编程语言,为我们提供了便捷的工具和库来解决这类问题。本文将分享一个使用 Python 实现 PDF 文字识别、提取,并将结果写入 CSV 文件的脚本。
我们需要安装一些必要的库,例如 pdfplumber 用于处理 PDF 文件,pandas 用于数据处理和 CSV 文件的写入。
import pdfplumber
import pandas as pd
接下来,定义一个函数来读取 PDF 文件并提取其中的文字内容。
def extract_text_from_pdf(pdf_path):
with pdfplumber.open(pdf_path) as pdf:
text = ""
for page in pdf.pages:
text += page.extract_text()
return text
然后,我们可以使用这个函数来读取指定的 PDF 文件,并对提取的文字进行处理和分析,比如按照特定的规则提取关键信息。
假设我们要提取的关键信息是每行以特定关键词开头的内容,我们可以这样实现:
def extract_key_info(text):
key_info = []
lines = text.split('\n')
for line in lines:
if line.startswith("特定关键词"):
key_info.append(line)
return key_info
最后,将提取到的关键信息写入 CSV 文件。
def write_to_csv(key_info, csv_path):
df = pd.DataFrame(key_info, columns=["Key Information"])
df.to_csv(csv_path, index=False)
在主程序中,指定 PDF 文件的路径和 CSV 文件的保存路径,调用上述函数完成整个流程。
pdf_path = "your_pdf_file.pdf"
csv_path = "output.csv"
text = extract_text_from_pdf(pdf_path)
key_info = extract_key_info(text)
write_to_csv(key_info, csv_path)
通过这个简单的 Python 脚本,我们能够高效地完成 PDF 文字的识别、提取,并将有价值的信息整理保存到 CSV 文件中,为后续的数据处理和分析提供了便利。
利用 Python 的强大功能,我们可以轻松应对各种文档处理任务,提高工作效率和数据处理的准确性。希望这个脚本示例对您在处理 PDF 文档相关的工作中有所帮助,让您能够更加灵活地运用 Python 解决实际问题。
- vue-material-year-calendar组件实现日历所有月日显示功能的方法
- 优化代码缩进获取路径层级的方法
- 构建酷炫项目学习Tailwind CSS
- PostCSS实现Web端与移动端一致尺寸大小的方法
- vue-material-year-calendar打造全月日显示日历及自定义外观方法
- Vite打包时怎样排除特定日志输出如console.log
- Vue打包项目在WebView2中无法接收C#数据的解决方法
- Vuex报错sub函数未定义如何解决
- vue-material-year-calendar插件中activeDates.push后日历未选中问题的解决方法
- Vue3 响应式系统用 Reflect.set 设置对象属性,怎样保证所有更新正确触发
- Object.defineProperty与Proxy双重劫持querySelector时出现两次执行的原因
- 使用 Object.defineProperty 劫持对象方法为何会触发两次执行
- Vue 3数据编辑页返回列表页数据不刷新的解决方法
- PL-: Microsoft Power BI Practice Test 4
- Vue中清空数组特定词条name属性的方法