如何使用 GPT API 从 PDF 出版物导出研究图表?

2024-05-04 10:20

本文主要是介绍如何使用 GPT API 从 PDF 出版物导出研究图表?,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

原文地址:how-to-use-gpt-api-to-export-a-research-graph-from-pdf-publications

揭示内部结构——提取研究实体和关系

2024 年 2 月 6 日

介绍

研究图是研究对象的结构化表示,它捕获有关实体的信息以及研究人员、组织、出版物、资助和研究数据之间的关系。目前,出版物以 PDF 文件形式提供,由于文本格式自由,因此很难解析 PDF 文件以提取结构化信息。在本文中,我们将尝试从出版物的 PDF 中创建研究图,方法是从文本中提取相关信息,并使用 OpenAI 将其组织成图结构。

4

OpenAI

在这项工作中,我们使用 OpenAI API 和 GPT 的新助手功能(目前处于测试阶段),将 PDF 文档转换为一组基于研究图模式的结构化 JSON 文件。

助手 API

Assistants API 允许你在应用程序中构建人工智能(AI)助理。助手可以根据预定准则使用模型、工具和信息回答用户的问题。这是一个测试版 API,目前正在积极开发中。使用助手 API,我们可以使用 OpenAI 托管的工具,如代码解释器和知识检索。在本文中,我们将重点介绍知识检索。

知识检索

有时,我们需要人工智能模型回答基于未知知识的查询,如用户提供的文档或敏感信息。我们可以使用助手 API 知识检索工具,用这些信息来增强模型。我们可以将文件上传到助手,它就会自动对文档进行分块,并创建和存储嵌入,从而在数据上实现矢量搜索。

举例说明

在我们的示例中,我们将向 OpenAI 助手和知识检索工具上传 PDF 格式的出版物文件,以获得给定出版物图模式的 JSON 输出。本示例中使用的出版物可通过以下链接访问

5

步骤 1

读取存储出版物 PDF 的输入路径和存储 JSON 输出的输出路径。

import configparser
config = configparser.ConfigParser()
config.read('{}/config.ini'.format(current_path))
input_path = config['DEFAULT']['Input-Path']
output_path = config['DEFAULT']['Output-Path']
debug = config['DEFAULT']['Debug']

步骤 2

从输入路径中获取所有 PDF 文件。

onlyfiles = [f for f in os.listdir(input_path) if os.path.isfile(os.path.join(input_path, f))]

步骤 3

然后,我们需要初始化助手以使用知识检索工具。为此,我们需要在 API 中指定 “检索 ”工具的类型。我们还需要指定助手的指令和要使用的 OpenAI 模型。

my_file_ids = []
if client.files.list().data==[]:for f in onlyfiles:file = client.files.create(file=open(input_path + f, "rb"),purpose='assistants')my_file_ids.append(file.id)
# Add the file to the assistant
assistant = client.beta.assistants.create(instructions = "You are a publication database support chatbot. Use pdf files uploaded to best respond to user queries in JSON.",model = "gpt-4-1106-preview",tools = [{"type": "retrieval"}],# Do not attach all files to the assistant, otherwise, it will mismatch the answers even though specify file ID in query messages.# We will attach to each message instead
)

步骤 4

然后,我们指定需要从出版物文件中提取的信息,并将其作为用户查询传递给助手。在对助手的指令进行试验后,我们发现在每条用户信息中要求使用 JSON 格式能产生最一致的输出。

user_msgs = ["Print the title of this paper in JSON","Print the authors of this paper in JSON","Print the abstract section of the paper in JSON","Print the keywords of the paper in JSON","Print the DOI number of the paper in JSON","Print the author affiliations of the paper in JSON","Print the reference section of the paper in JSON"]

步骤 5

下一步是将查询传递给助手以生成输出。我们需要为每个用户查询创建一个单独的线程对象,其中包含作为用户消息的查询。然后,我们运行线程并获取助手的答案。

all_results = []
for i in my_file_ids:print('\n#####')# the JSON result it can extract and parse, hopefullyfile_result = {}for q in user_msgs:# create thread, user message and run objects for each querythread = client.beta.threads.create()msg = client.beta.threads.messages.create(thread_id=thread.id,role="user",content=q,file_ids=[i] # specify the file/publication we want to extract from)print('\n',q)run = client.beta.threads.runs.create(thread_id=thread.id,assistant_id=assistant.id,additional_instructions="If answer cannot be found, print 'False'" # not very useful at the time of this presentation)# checking run status by retrieving updated object each timewhile run.status in ["queued",'in_progress']:print(run.status) time.sleep(5)run = client.beta.threads.runs.retrieve(thread_id=thread.id,run_id=run.id)# usually a rate limit errorif run.status=='failed':  logging.info("Run failed: ", run)if run.status=='completed':print("<Complete>")# extract updated message object, this includes user messagesmessages = client.beta.threads.messages.list(thread_id=thread.id)for m in messages:if m.role=='assistant':value = m.content[0].text.value # get the text responseif "json" not in value:if value=='False':logging.info("No answer found for ", str(q))else:logging.info("Not JSON output, maybe no answer found in the file or model is outdated: ", str(value))else:# clean the response and try to parse as jsonvalue = value.split("```")[1].split('json')[-1].strip()try: d = json.loads(value)file_result.update(d)print(d)except Exception as e:logging.info(f"Query {q} \nFailed to parse string to JSON: ", str(e))print(f"Query {q} \nFailed to parse string to JSON: ", str(e))all_results.append(file_result)

上述出版文件生成的 JSON 输出为:

[{'title': 'Dodes (diagnostic nodes) for Guideline Manipulation','authors': [{'name': 'PM Putora','affiliation': 'Department of Radiation-Oncology, Kantonsspital St. Gallen, St. Gallen, Switzerland'},{'name': 'M Blattner','affiliation': 'Laboratory for Web Science, Zürich, Switzerland'},{'name': 'A Papachristofilou','affiliation': 'Department of Radiation Oncology, University Hospital Basel, Basel, Switzerland'},{'name': 'F Mariotti','affiliation': 'Laboratory for Web Science, Zürich, Switzerland'},{'name': 'B Paoli','affiliation': 'Laboratory for Web Science, Zürich, Switzerland'},{'name': 'L Plasswilma','affiliation': 'Department of Radiation-Oncology, Kantonsspital St. Gallen, St. Gallen, Switzerland'}],'Abstract': {'Background': 'Treatment recommendations (guidelines) are commonly represented in text form. Based on parameters (questions) recommendations are defined (answers).','Objectives': 'To improve handling, alternative forms of representation are required.','Methods': 'The concept of Dodes (diagnostic nodes) has been developed. Dodes contain answers and questions. Dodes are based on linked nodes and additionally contain descriptive information and recommendations. Dodes are organized hierarchically into Dode trees. Dode categories must be defined to prevent redundancy.','Results': 'A centralized and neutral Dode database can provide standardization which is a requirement for the comparison of recommendations. Centralized administration of Dode categories can provide information about diagnostic criteria (Dode categories) underutilized in existing recommendations (Dode trees).','Conclusions': 'Representing clinical recommendations in Dode trees improves their manageability handling and updateability.'},'Keywords': ['dodes','ontology','semantic web','guidelines','recommendations','linked nodes'],'DOI': '10.5166/jroi-2-1-6','references': [{'ref_number': '[1]','authors': 'Mohler J Bahnson RR Boston B et al.','title': 'NCCN clinical practice guidelines in oncology: prostate cancer.','source': 'J Natl Compr Canc Netw.','year': '2010 Feb','volume_issue_pages': '8(2):162-200'},{'ref_number': '[2]','authors': 'Heidenreich A Aus G Bolla M et al.','title': 'EAU guidelines on prostate cancer.','source': 'Eur Urol.','year': '2008 Jan','volume_issue_pages': '53(1):68-80','notes': 'Epub 2007 Sep 19. Review.'},{'ref_number': '[3]','authors': 'Fairchild A Barnes E Ghosh S et al.','title': 'International patterns of practice in palliative radiotherapy for painful bone metastases: evidence-based practice?','source': 'Int J Radiat Oncol Biol Phys.','year': '2009 Dec 1','volume_issue_pages': '75(5):1501-10','notes': 'Epub 2009 May 21.'},{'ref_number': '[4]','authors': 'Lawrentschuk N Daljeet N Ma C et al.','title': "Prostate-specific antigen test result interpretation when combined with risk factors for recommendation of biopsy: a survey of urologist's practice patterns.",'source': 'Int Urol Nephrol.','year': '2010 Jun 12','notes': 'Epub ahead of print'},{'ref_number': '[5]','authors': 'Parmelli E Papini D Moja L et al.','title': 'Updating clinical recommendations for breast colorectal and lung cancer treatments: an opportunity to improve methodology and clinical relevance.','source': 'Ann Oncol.','year': '2010 Jul 19','notes': 'Epub ahead of print'},{'ref_number': '[6]','authors': 'Ahn HS Lee HJ Hahn S et al.','title': 'Evaluation of the Seventh American Joint Committee on Cancer/International Union Against Cancer Classification of gastric adenocarcinoma in comparison with the sixth classification.','source': 'Cancer.','year': '2010 Aug 24','notes': 'Epub ahead of print'},{'ref_number': '[7]','authors': 'Rami-Porta R Goldstraw P.','title': 'Strength and weakness of the new TNM classification for lung cancer.','source': 'Eur Respir J.','year': '2010 Aug','volume_issue_pages': '36(2):237-9'},{'ref_number': '[8]','authors': 'Sinn HP Helmchen B Wittekind CH.','title': 'TNM classification of breast cancer: Changes and comments on the 7th edition.','source': 'Pathologe.','year': '2010 Aug 15','notes': 'Epub ahead of print'},{'ref_number': '[9]','authors': 'Paleri V Mehanna H Wight RG.','title': "TNM classification of malignant tumours 7th edition: what's new for head and neck?",'source': 'Clin Otolaryngol.','year': '2010 Aug','volume_issue_pages': '35(4):270-2'},{'ref_number': '[10]','authors': 'Guarino N.','title': 'Formal Ontology and Information Systems','source': '1998 IOS Press'},{'ref_number': '[11]','authors': 'Uschold M Gruniger M.','title': 'Ontologies: Principles Methods and Applications.','source': 'Knowledge Engineering Review','year': '1996','volume_issue_pages': '11(2)'},{'ref_number': '[12]','authors': 'Aho A Garey M Ullman J.','title': 'The Transitive Reduction of a Directed Graph.','source': 'SIAM Journal on Computing','year': '1972','volume_issue_pages': '1(2): 131–137'},{'ref_number': '[13]','authors': 'Tai K','title': 'The tree-to-tree correction problem.','source': 'Journal of the Association for Computing Machinery (JACM)','year': '1979','volume_issue_pages': '26(3):422-433'}]}]

步骤 6

文件对象和助手对象需要清理,因为它们在 “检索 ”模式下需要花钱。此外,这也是一种良好的编码实践。

for f in client.files.list().data:client.files.delete(f.id)
# Retrieve and delete running assistants
my_assistants = client.beta.assistants.list(order="desc",
)
for a in my_assistants.data:    response = client.beta.assistants.delete(a.id)print(response)

步骤 7

下一步是使用 Python Networkx 软件包生成图形可视化。

import networkx as nx
import matplotlib.pyplot as plt
G = nx.DiGraph()
node_colors = []
key = "jroi/" + all_results[0]['title']
G.add_nodes_from([(all_results[0]['title'], {'doi': all_results[0]['DOI'], 'title': all_results[0]['title'], 'source': 'jroi', 'key': key})])
node_colors.append('#4ba9dc')
for author in all_results[0]['authors']:key = "jroi/" + author['name']G.add_nodes_from([(author['name'], {'key': key, 'local_id': author['name'], 'full_name': author['name'], 'source': 'jroi'})])G.add_edge(all_results[0]['title'], author['name'])node_colors.append('#63cc9e')
for reference in all_results[0]['references']:key = "jroi/" + reference['title']G.add_nodes_from([(reference['title'].split('.')[0][:25] + '...', {'title': reference['title'], 'source': 'jroi', 'key': key})])G.add_edge(all_results[0]['title'], reference['title'].split('.')[0][:25] + '...')node_colors.append('#4ba9dc')
pos = nx.spring_layout(G)
labels = nx.get_edge_attributes(G, 'label')
nx.draw(G, pos, with_labels=True, node_size=1000, node_color=node_colors, font_size=7, font_color='black')
nx.draw_networkx_edge_labels(G, pos, edge_labels=labels)
plt.savefig("graph_image.png")
plt.show()

可视化图表如下:

6

注:请注意,OpenAI 生成的输出结构可能因执行方式不同而不同。因此,你可能需要根据该结构更新上述代码。

结论

总之,利用 GPT API 从 PDF 出版物中提取研究图为研究人员和数据分析师提供了一个强大而高效的解决方案。该工作流程简化了将 PDF 出版物转换为结构化、可访问的研究图表的过程。但是,我们也必须仔细关注大型语言模型 (LLM) 生成的回复的不一致性。随着时间的推移,通过定期更新和改进提取模型,可以进一步提高准确性和相关性。

这篇关于如何使用 GPT API 从 PDF 出版物导出研究图表?的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/958981

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

如何使用celery进行异步处理和定时任务(django)

《如何使用celery进行异步处理和定时任务(django)》文章介绍了Celery的基本概念、安装方法、如何使用Celery进行异步任务处理以及如何设置定时任务,通过Celery,可以在Web应用中... 目录一、celery的作用二、安装celery三、使用celery 异步执行任务四、使用celery

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

Jsoncpp的安装与使用方式

《Jsoncpp的安装与使用方式》JsonCpp是一个用于解析和生成JSON数据的C++库,它支持解析JSON文件或字符串到C++对象,以及将C++对象序列化回JSON格式,安装JsonCpp可以通过... 目录安装jsoncppJsoncpp的使用Value类构造函数检测保存的数据类型提取数据对json数

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

springboot整合 xxl-job及使用步骤

《springboot整合xxl-job及使用步骤》XXL-JOB是一个分布式任务调度平台,用于解决分布式系统中的任务调度和管理问题,文章详细介绍了XXL-JOB的架构,包括调度中心、执行器和Web... 目录一、xxl-job是什么二、使用步骤1. 下载并运行管理端代码2. 访问管理页面,确认是否启动成功

使用Nginx来共享文件的详细教程

《使用Nginx来共享文件的详细教程》有时我们想共享电脑上的某些文件,一个比较方便的做法是,开一个HTTP服务,指向文件所在的目录,这次我们用nginx来实现这个需求,本文将通过代码示例一步步教你使用... 在本教程中,我们将向您展示如何使用开源 Web 服务器 Nginx 设置文件共享服务器步骤 0 —

Java中switch-case结构的使用方法举例详解

《Java中switch-case结构的使用方法举例详解》:本文主要介绍Java中switch-case结构使用的相关资料,switch-case结构是Java中处理多个分支条件的一种有效方式,它... 目录前言一、switch-case结构的基本语法二、使用示例三、注意事项四、总结前言对于Java初学者

Golang使用minio替代文件系统的实战教程

《Golang使用minio替代文件系统的实战教程》本文讨论项目开发中直接文件系统的限制或不足,接着介绍Minio对象存储的优势,同时给出Golang的实际示例代码,包括初始化客户端、读取minio对... 目录文件系统 vs Minio文件系统不足:对象存储:miniogolang连接Minio配置Min