nlp事件抽取算例实现:(有完整算例和完整代码)

2023-10-24 21:10

本文主要是介绍nlp事件抽取算例实现:(有完整算例和完整代码),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

定义

事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

事件抽取任务:

事件有很多种,如因果事件,转则事件。。。
统一定义:一般一个事件都有事件,地点,人物等因素。
事件抽取就是把这些因素提取出来。
不多讲啦,上算例。

算例:

火灾新闻算例:
一个火灾事件新闻我们感兴趣的是 事故发生时间,事故发生地点,事故伤亡,事故原因。
我们把这些抽取出来.顺便再附上事件摘要。
即输入一个火灾事件新闻,输出 事故地点,事故时间,事故伤亡,事故原因,事故摘要。
方法:基于正则。

导入包:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# @Author: yudengwu
# @Date  : 2020/6/27
import re

#事故原因:

def pattern_cause(data):"data.type: [文字]"data = str(data)patterns = []key_words = ['起火', '事故', '火灾']pattern = re.compile('.*?(?:{0})原因(.*?)[,.?:;!,。?:;!]'.format('|'.join(key_words)))patterns.append(pattern)for c in patterns:print('事故原因:',c.search(data).group(1))

#事故伤亡:

def pattern_lose(data):"data.type: [文字]"data = str(data)patterns = []key_words = ['伤亡', '损失']pattern = re.compile('.*?(未造成.*?(?:{0}))[,.?:;!,。?:;]'.format('|'.join(key_words)))patterns.append(pattern)patterns.append(re.compile('(\d+人死亡)'))patterns.append(re.compile('(\d+人身亡)'))patterns.append(re.compile('(\d+人受伤)'))patterns.append(re.compile('(\d+人烧伤)'))patterns.append(re.compile('(\d+人坠楼身亡)'))patterns.append(re.compile('(\d+人遇难)'))for i in patterns:jieguo = i.search(data)if not jieguo:passelse:print('事故伤亡:',jieguo.group(1))

#事故时间:

#事故时间:
def pattern_time(data):data = ''.join(test_data)# data.type :strPATTERN = r"([0-9零一二两三四五六七八九十]+年)?([0-9一二两三四五六七八九十]+月)?([0-9一二两三四五六七八九十]+[号日])?([上中下午晚早]+)?([0-9零一二两三四五六七八九十百]+[点:\.时])?([0-9零一二三四五六七八九十百]+分?)?([0-9零一二三四五六七八九十百]+秒)?"pattern = re.compile(PATTERN)m = pattern.search(data)# "19年1月14日18时19分39秒上午"m1 = pattern.search("上午")year=m.group(1) # 年month=m.group(2) # 月day=m.group(3) # 日am=m.group(4)  # 上午,中午,下午,早中晚hour=m.group(5) # 时minutes=m.group(6)  # 分seconds=m.group(7) # 秒print('事故时间: ',year,month,day,am,hour,minutes,seconds)

#事故地点:

#事件地点
def pattern_address(data):data = ''.join(data)#转换格式p_string = data.split(',')#分句address=[]for line in p_string:line = str(line)PATTERN1 = r'([\u4e00-\u9fa5]{2,5}?(?:省|自治区|市)){0,1}([\u4e00-\u9fa5]{2,7}?(?:区|县|州)){0,1}([\u4e00-\u9fa5]{2,7}?(?:镇)){0,1}([\u4e00-\u9fa5]{2,7}?(?:村|街|街道)){0,1}([\d]{1,3}?(号)){0,1}'# \u4e00-\u9fa5 匹配任何中文# {2,5} 匹配2到5次# ? 前面可不匹配# (?:pattern) 如industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。意思就是说括号里面的内容是一个整体是以y或者ies结尾的单词pattern = re.compile(PATTERN1)p1 = ''p2 = ''p3 = ''p4 = ''p5 = ''p6 = ''m = pattern.search(line)if not m:continueelse:address.append(m.group(0))#print('事件地点:',m.group(0))print('事件地点:',set(address))

#事故摘要:
摘要讲解见链接:中文文本摘要提取 (文本摘要提取 有代码)基于python
停用词链接:nlp 中文停用词数据集

def shijian(data):import jiebatext=''.join(data)text = re.sub(r'[[0-9]*]', ' ', text)  # 去除类似[1],[2]text = re.sub(r'\s+', ' ', text)  # 用单个空格替换了所有额外的空格sentences = re.split('(。|!|\!|\.|?|\?)', text)  # 分句# 加载停用词def stopwordslist(filepath):stopwords = [line.strip() for line in open(filepath, 'r', encoding='gbk').readlines()]return stopwordsstopwords = stopwordslist("停用词.txt")# 词频word2count = {}  # line 1for word in jieba.cut(text):  # 对整个文本分词if word not in stopwords:if word not in word2count.keys():word2count[word] = 1else:word2count[word] += 1for key in word2count.keys():word2count[key] = word2count[key] / max(word2count.values())# 计算句子得分sent2score = {}for sentence in sentences:for word in jieba.cut(sentence):if word in word2count.keys():if len(sentence) < 300:if sentence not in sent2score.keys():sent2score[sentence] = word2count[word]else:sent2score[sentence] += word2count[word]# 字典排序def dic_order_value_and_get_key(dicts, count):# by hellojesson# 字典根据value排序,并且获取value排名前几的keyfinal_result = []# 先对字典排序sorted_dic = sorted([(k, v) for k, v in dicts.items()], reverse=True)tmp_set = set()  # 定义集合 会去重元素 --此处存在一个问题,成绩相同的会忽略,有待改进for item in sorted_dic:tmp_set.add(item[1])for list_item in sorted(tmp_set, reverse=True)[:count]:for dic_item in sorted_dic:if dic_item[1] == list_item:final_result.append(dic_item[0])return final_result# 摘要输出final_resul = dic_order_value_and_get_key(sent2score, 5)print('事件主要意思:',final_resul)

#主函数:

def main(data):pattern_cause(data)pattern_lose(data)pattern_time(data)pattern_address(data)shijian(data)
if __name__ =='__main__':#读取数据with open('新闻.txt', 'r', encoding='utf-8') as f:test_data = f.readlines()main(test_data)

数据集:新闻.txt

1月14日18时19分,宝鸡市渭滨区金陵街道机厂街社区铁路家属院17号楼一单元发生火灾,火势由二、三、四阳台向上蔓延,一名老人被困屋内,情况危急。宝鸡消防支队渭滨大队广元路中队接警后,迅速赶赴现场展开救援,将被困老人救出。记者了解到,火灾发生后,宝鸡消防支队渭滨大队广元路中队立即赶赴现场开展救援,经现场侦查发现,火势由二、三、四楼阳台向上蔓延,均已过火。由于小区内道路蜿蜒且狭窄,中队立即调派经一路、开元、宝光、电子街4个卫星消防站增援。中队到场后立即成立搜救组、灭火组、供水组开展救援工作。消防在搜救过程中发现1单元2楼南户有一名老人被困,中队立即进行营救,同时并对2单元30余名群众进行疏散。灭火小组从小区南北两侧对现场火势进行打压。铁塔路及新华路中队随后也赶到现场增援,20时10分现场明火被扑灭。火灾未造成人员伤亡,起火原因正在调查中。

运行结果
在这里插入图片描述
事件主题意思在下面:

截个全图看下:
在这里插入图片描述
运行结果还不错。
反思
这代码是针对国内新闻的,因为地址正则是针对国内地址的。
代码马马虎虎,不是很完善。针对其他类新闻和文本,则需修改下正则(如事事故伤亡可能没有)。
基于正则需要花费大量脑力。基于正则主要在于如何定义规则。
有时间还是想想基于模型吧。
电气工程的计算机萌新:余登武。写文章不容易。如果你喜欢本文章,请点个赞支持下写作,谢谢。
在这里插入图片描述
在这里插入图片描述

这篇关于nlp事件抽取算例实现:(有完整算例和完整代码)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/277767

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

hdu1043(八数码问题,广搜 + hash(实现状态压缩) )

利用康拓展开将一个排列映射成一个自然数,然后就变成了普通的广搜题。 #include<iostream>#include<algorithm>#include<string>#include<stack>#include<queue>#include<map>#include<stdio.h>#include<stdlib.h>#include<ctype.h>#inclu

禁止平板,iPad长按弹出默认菜单事件

通过监控按下抬起时间差来禁止弹出事件,把以下代码写在要禁止的页面的页面加载事件里面即可     var date;document.addEventListener('touchstart', event => {date = new Date().getTime();});document.addEventListener('touchend', event => {if (new

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

活用c4d官方开发文档查询代码

当你问AI助手比如豆包,如何用python禁止掉xpresso标签时候,它会提示到 这时候要用到两个东西。https://developers.maxon.net/论坛搜索和开发文档 比如这里我就在官方找到正确的id描述 然后我就把参数标签换过来

让树莓派智能语音助手实现定时提醒功能

最初的时候是想直接在rasa 的chatbot上实现,因为rasa本身是带有remindschedule模块的。不过经过一番折腾后,忽然发现,chatbot上实现的定时,语音助手不一定会有响应。因为,我目前语音助手的代码设置了长时间无应答会结束对话,这样一来,chatbot定时提醒的触发就不会被语音助手获悉。那怎么让语音助手也具有定时提醒功能呢? 我最后选择的方法是用threading.Time

Android实现任意版本设置默认的锁屏壁纸和桌面壁纸(两张壁纸可不一致)

客户有些需求需要设置默认壁纸和锁屏壁纸  在默认情况下 这两个壁纸是相同的  如果需要默认的锁屏壁纸和桌面壁纸不一样 需要额外修改 Android13实现 替换默认桌面壁纸: 将图片文件替换frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.*  (注意不能是bmp格式) 替换默认锁屏壁纸: 将图片资源放入vendo

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

poj 1258 Agri-Net(最小生成树模板代码)

感觉用这题来当模板更适合。 题意就是给你邻接矩阵求最小生成树啦。~ prim代码:效率很高。172k...0ms。 #include<stdio.h>#include<algorithm>using namespace std;const int MaxN = 101;const int INF = 0x3f3f3f3f;int g[MaxN][MaxN];int n