AI办公自动化:kimi批量搜索提取PDF文档中特定文本内容

本文主要是介绍AI办公自动化:kimi批量搜索提取PDF文档中特定文本内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

工作任务:PDF文档中有资料来源这一行,比如:

资料来源:moomoo tech、The Information、Bloomberg、Reuters,浙商证券研究所

数据来源:CSDN、浙商证券研究所

数据来源:CSDN、arXiv、浙商证券研究所

数据来源:秘塔AI搜索官网,Similarweb,Epic Connector,东吴证券研究所

来源:Github,《面向深度学习的多模态融合技术研究综述》,《Make-a-video: text-to-video generation without text-video data》,浙商证券研究所

来源:Github,OSCHINA,浙商证券研究所

希望提取文件中几百个PDF文档中的资料来源

在kimi中输入提示词:

你是一个Python编程专家,完成一个脚本编写任务,具体步骤如下:

打开文件夹:F:\研报下载\AIGC研报;

用pdfplumber 库读取文件夹中所有的PDF文件;

遍历PDF文档中的每行文本,查找以“资料来源:”开头、以“数据来源:”开头和以“来源:”开头的这一行文本内容;

保存这些文本内容到文件夹“F:\AI自媒体内容\AI行业数据分析”下的Excel文件中;

注意:

每一步都要输出信息

处理异常和错误:确保你的代码能够处理可能遇到的异常,如文件损坏、权限问题或格式不一致等。

Kimi生成的源代码:

import os

import re

import pdfplumber

from openpyxl import Workbook

# 定义要搜索的关键词

keywords = ["资料来源:", "数据来源:", "来源:"]

# 定义源文件夹和目标文件夹路径

source_folder = r'F:\研报下载\AIGC研报'

target_folder = r'F:\AI自媒体内容\AI行业数据分析'

# 确保目标文件夹存在

os.makedirs(target_folder, exist_ok=True)

# 创建Excel工作簿

workbook = Workbook()

sheet = workbook.active

# 遍历源文件夹中的所有文件

for filename in os.listdir(source_folder):

if filename.endswith('.pdf'):

print(f"正在处理文件:{filename}")

# 构建完整的文件路径

file_path = os.path.join(source_folder, filename)

try:

# 使用pdfplumber打开PDF文件

with pdfplumber.open(file_path) as pdf:

# 遍历PDF文档中的每页

for page in pdf.pages:

text = page.extract_text()

# 使用正则表达式搜索关键词

for keyword in keywords:

pattern = re.compile(re.escape(keyword) + ".*")

matches = pattern.findall(text)

for match in matches:

print(f"找到匹配的文本:{match}")

# 将找到的文本写入Excel

sheet.append([match])

except Exception as e:

print(f"处理文件{filename}时发生错误:{e}")

# 保存Excel文件

excel_file_path = os.path.join(target_folder, 'AI_Industry_Analysis.xlsx')

workbook.save(excel_file_path)

print(f"所有数据已保存到:{excel_file_path}")

这篇关于AI办公自动化:kimi批量搜索提取PDF文档中特定文本内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1053715

相关文章

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

从去中心化到智能化:Web3如何与AI共同塑造数字生态

在数字时代的演进中,Web3和人工智能(AI)正成为塑造未来互联网的两大核心力量。Web3的去中心化理念与AI的智能化技术,正相互交织,共同推动数字生态的变革。本文将探讨Web3与AI的融合如何改变数字世界,并展望这一新兴组合如何重塑我们的在线体验。 Web3的去中心化愿景 Web3代表了互联网的第三代发展,它基于去中心化的区块链技术,旨在创建一个开放、透明且用户主导的数字生态。不同于传统

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

hdu1240、hdu1253(三维搜索题)

1、从后往前输入,(x,y,z); 2、从下往上输入,(y , z, x); 3、从左往右输入,(z,x,y); hdu1240代码如下: #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#inc

AI一键生成 PPT

AI一键生成 PPT 操作步骤 作为一名打工人,是不是经常需要制作各种PPT来分享我的生活和想法。但是,你们知道,有时候灵感来了,时间却不够用了!😩直到我发现了Kimi AI——一个能够自动生成PPT的神奇助手!🌟 什么是Kimi? 一款月之暗面科技有限公司开发的AI办公工具,帮助用户快速生成高质量的演示文稿。 无论你是职场人士、学生还是教师,Kimi都能够为你的办公文

Andrej Karpathy最新采访:认知核心模型10亿参数就够了,AI会打破教育不公的僵局

夕小瑶科技说 原创  作者 | 海野 AI圈子的红人,AI大神Andrej Karpathy,曾是OpenAI联合创始人之一,特斯拉AI总监。上一次的动态是官宣创办一家名为 Eureka Labs 的人工智能+教育公司 ,宣布将长期致力于AI原生教育。 近日,Andrej Karpathy接受了No Priors(投资博客)的采访,与硅谷知名投资人 Sara Guo 和 Elad G

【专题】2024飞行汽车技术全景报告合集PDF分享(附原数据表)

原文链接: https://tecdat.cn/?p=37628 6月16日,小鹏汇天旅航者X2在北京大兴国际机场临空经济区完成首飞,这也是小鹏汇天的产品在京津冀地区进行的首次飞行。小鹏汇天方面还表示,公司准备量产,并计划今年四季度开启预售小鹏汇天分体式飞行汽车,探索分体式飞行汽车城际通勤。阅读原文,获取专题报告合集全文,解锁文末271份飞行汽车相关行业研究报告。 据悉,业内人士对飞行汽车行业

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

pdfmake生成pdf的使用

实际项目中有时会有根据填写的表单数据或者其他格式的数据,将数据自动填充到pdf文件中根据固定模板生成pdf文件的需求 文章目录 利用pdfmake生成pdf文件1.下载安装pdfmake第三方包2.封装生成pdf文件的共用配置3.生成pdf文件的文件模板内容4.调用方法生成pdf 利用pdfmake生成pdf文件 1.下载安装pdfmake第三方包 npm i pdfma