Win10(x64)系统Python 3.6.5(Anaconda3)本地调用哈工大最新版LTP 3.4

本文主要是介绍Win10(x64)系统Python 3.6.5(Anaconda3)本地调用哈工大最新版LTP 3.4,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Win10(x64)系统Python 3.6.5(Anaconda3)本地调用哈工大最新版LTP 3.4

本文基于网上失败与成功经验,经过多次调试,实现了Win10(x64)系统下Python 3.6.5(Anaconda3)本地调用哈工大LTP 3.4,故将主要关键步骤分述如下:

  • LTP的选择与下载
  • LTP本地安装
  • pyltp库安装
  • 程序调用与测试

LTP的选择与下载

哈工大语言技术平台(LTP) 提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、 高效、精准的自然语言处理技术。 —— [ 哈工大语言技术平台 ]

python语言下本地调用LTP,需要安装LTP、LTP模型文件以及第三方库pyltp。

目前语言技术平台3.4.0版 发布,
* 增加新的基于Bi-LSTM的SRL模型
* 增加了SRL的多线程命令行程序srl_cmdline
* 修改了SRL相关的编程接口已经改变,修复了之前内存泄露的相关问题。

笔者电脑为Win10(x64)系统,Python为Anaconda3所集成的python3.6.5,采用哈工大最新版LTP 3.4,根据版本匹配建议(链接),需下载ltp-3.4.0-win-x64-Release.zip以及模型文件ltp_data_v3.4.0.zip。需要预先说明的是,此时对应的python库
这里写图片描述

LTP采用C++编写,若采用python语言调用LTP,安装pyltp库,版本pyltp-0.2.1,直接采用pip命令安装难以成功,会出现缺少VC++ 14.0 组件的错误。其实笔者电脑已安装Visual studio 2017
这里写图片描述
最后经过多次尝试网上说的一些方法,采用安装pyltp对应的 wheel文件成功。网上能找到pyltp-0.2.1的wheel文件,但更低版本的就难以找到了。据说是一个大神在自己的电脑(win10)上编译的,64bit的windows应该都可以,csdn下载地址(链接)
pyltp-0.2.1-cp35-cp35m-win_amd64.whl
pyltp-0.2.1-cp36-cp36m-win_amd64.whl
注意: 这两个文件的区别是python版本号

LTP本地安装

(1)新建一个项目文件夹,比如:F:\myprojects\LTP;

(2)将模型文件ltp_data_v3.4.0.zip解压后的ltp_data文件夹放入项目文件夹;

(3)将ltp-3.4.0-win-x64-Release.zip解压后的dll、exe文件全部拷入项目文件夹。
LTP文件夹

这里写图片描述

模型文件夹
这里写图片描述

按照官网提示(链接),LTP 3.4.0 版本 SRL模型 pisrl.model 如在windows系统下不可用,可以到官网“此链接” 下载支持windows的语义角色标注模型。
这里写图片描述

由后期调试经验表明,此步骤非常重要,语义角色标注模型基本报错,通过替换win版本后调试成功。

pyltp库安装

由前述下载好pyltp-0.2.1-cp36-cp36m-win_amd64.whl 文件后,存放到本地文件夹,然后采用pip命令安装,如笔者存放在路径F:\fruanjian\pyth下,pip命令:
pip install F:\fruanjian\pyth\pyltp-0.2.1-cp36-cp36m-win_amd64.whl
这里写图片描述

程序调用与测试

参考网上示例(链接),做了细部修改,比如更改路径,以及3.4版本语义角色分析需采用pisrl.model

程序调用代码块

代码块语法遵循标准markdown代码,例如:

import os
LTP_DATA_DIR = 'F:\myprojects\LTP\ltp_data34'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径,模型名称为`cws.model`
pos_model_path = os.path.join(LTP_DATA_DIR, 'pos.model')  # 词性标注模型路径,模型名称为`pos.model`
ner_model_path = os.path.join(LTP_DATA_DIR, 'ner.model')  # 命名实体识别模型路径,模型名称为`pos.model`
par_model_path = os.path.join(LTP_DATA_DIR, 'parser.model')  # 依存句法分析模型路径,模型名称为`parser.model`
srl_model_path = os.path.join(LTP_DATA_DIR, 'pisrl.model')  # 语义角色标注模型目录路径,模型目录为`srl`。注意该模型路径是一个目录,而不是一个文件。from pyltp import SentenceSplitter
from pyltp import Segmentor
from pyltp import Postagger
from pyltp import NamedEntityRecognizer
from pyltp import Parser
from pyltp import SementicRoleLabeller#分句,也就是将一片文本分割为独立的句子
def sentence_splitter(sentence='人生苦短。我用python。你呢?'):sents = SentenceSplitter.split(sentence)  # 分句print ('\n'.join(sents))#分词
def segmentor(sentence='我是中国人'):segmentor = Segmentor()  # 初始化实例segmentor.load(cws_model_path)  # 加载模型words = segmentor.segment(sentence)  # 分词#默认可以这样输出print ('\t'.join(words))# 可以转换成List 输出words_list = list(words)segmentor.release()  # 释放模型return words_listdef posttagger(words):postagger = Postagger() # 初始化实例postagger.load(pos_model_path)  # 加载模型postags = postagger.postag(words)  # 词性标注for word,tag in zip(words,postags):print (word+'/'+tag)postagger.release()  # 释放模型return postags#命名实体识别
def ner(words, postags):recognizer = NamedEntityRecognizer() # 初始化实例recognizer.load(ner_model_path)  # 加载模型netags = recognizer.recognize(words, postags)  # 命名实体识别for word, ntag in zip(words, netags):print (word + '/' + ntag)recognizer.release()  # 释放模型return netags#依存语义分析
def parse(words, postags):parser = Parser() # 初始化实例parser.load(par_model_path)  # 加载模型arcs = parser.parse(words, postags)  # 句法分析print ("\t".join("%d:%s" % (arc.head, arc.relation) for arc in arcs))parser.release()  # 释放模型return arcs#角色标注
def role_label(words, postags, arcs):labeller = SementicRoleLabeller() # 初始化实例labeller.load(srl_model_path)  # 加载模型roles = labeller.label(words, postags,  arcs)  # 语义角色标注for role in roles:print (role.index, "".join(["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))labeller.release()  # 释放模型#测试分句子
print('******************测试将会顺序执行:**********************')
sentence_splitter()
print('###############以上为分句子测试###############')
#测试分词
words=segmentor()
print('###############以上为分词标注测试###############')
#测试标注
tags = posttagger(words)
print('###############以上为词性标注测试###############')
#命名实体识别
netags = ner(words,tags)
print('###############以上为命名实体识别测试###############')
#依存句法识别
arcs = parse(words,tags)
print('###############以上为依存句法测试###############')
#角色标注
roles = role_label(words,tags,arcs)
print('###############以上为角色标注测试###############')

再次提醒,可能替换ltp_data文件夹下语义角色分析的pisrl.model,否则可能出错。
另一个出错的地方就是 SementicRoleLabeller.label函数,笔者修改后采用3个参数,调试成功。
这里写图片描述
测试结果为
这里写图片描述
而 SementicRoleLabeller.label采用网上的4个参数,调用函数如下
这里写图片描述
一直调试不成功,出现如下错误:
Traceback (most recent call last):
File “F:\xuexi\spypython\nlpprogram\test_ltp.py”, line 95, in
roles = role_label(words,tags,netags,arcs)
File “F:\xuexi\spypython\nlpprogram\test_ltp.py”, line 72, in role_label
roles = labeller.label(words, postags, netags, arcs) # 语义角色标注
Boost.Python.ArgumentError: Python argument types in
SementicRoleLabeller.label(SementicRoleLabeller, list, VectorOfString, VectorOfString, VectorOfParseResult)
did not match C++ signature:

以上即是本人初次学习LTP时安装LTP的尝试,其中也存在很多不懂的地方,欢迎各位交流,敬请不吝珠玉!qq:2735500267

这篇关于Win10(x64)系统Python 3.6.5(Anaconda3)本地调用哈工大最新版LTP 3.4的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/702798

相关文章

使用Python绘制蛇年春节祝福艺术图

《使用Python绘制蛇年春节祝福艺术图》:本文主要介绍如何使用Python的Matplotlib库绘制一幅富有创意的“蛇年有福”艺术图,这幅图结合了数字,蛇形,花朵等装饰,需要的可以参考下... 目录1. 绘图的基本概念2. 准备工作3. 实现代码解析3.1 设置绘图画布3.2 绘制数字“2025”3.3

python使用watchdog实现文件资源监控

《python使用watchdog实现文件资源监控》watchdog支持跨平台文件资源监控,可以检测指定文件夹下文件及文件夹变动,下面我们来看看Python如何使用watchdog实现文件资源监控吧... python文件监控库watchdogs简介随着Python在各种应用领域中的广泛使用,其生态环境也

Python中构建终端应用界面利器Blessed模块的使用

《Python中构建终端应用界面利器Blessed模块的使用》Blessed库作为一个轻量级且功能强大的解决方案,开始在开发者中赢得口碑,今天,我们就一起来探索一下它是如何让终端UI开发变得轻松而高... 目录一、安装与配置:简单、快速、无障碍二、基本功能:从彩色文本到动态交互1. 显示基本内容2. 创建链

Java调用Python代码的几种方法小结

《Java调用Python代码的几种方法小结》Python语言有丰富的系统管理、数据处理、统计类软件包,因此从java应用中调用Python代码的需求很常见、实用,本文介绍几种方法从java调用Pyt... 目录引言Java core使用ProcessBuilder使用Java脚本引擎总结引言python

最新版IDEA配置 Tomcat的详细过程

《最新版IDEA配置Tomcat的详细过程》本文介绍如何在IDEA中配置Tomcat服务器,并创建Web项目,首先检查Tomcat是否安装完成,然后在IDEA中创建Web项目并添加Web结构,接着,... 目录配置tomcat第一步,先给项目添加Web结构查看端口号配置tomcat    先检查自己的to

python 字典d[k]中key不存在的解决方案

《python字典d[k]中key不存在的解决方案》本文主要介绍了在Python中处理字典键不存在时获取默认值的两种方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,... 目录defaultdict:处理找不到的键的一个选择特殊方法__missing__有时候为了方便起见,

使用Python绘制可爱的招财猫

《使用Python绘制可爱的招财猫》招财猫,也被称为“幸运猫”,是一种象征财富和好运的吉祥物,经常出现在亚洲文化的商店、餐厅和家庭中,今天,我将带你用Python和matplotlib库从零开始绘制一... 目录1. 为什么选择用 python 绘制?2. 绘图的基本概念3. 实现代码解析3.1 设置绘图画

Python pyinstaller实现图形化打包工具

《Pythonpyinstaller实现图形化打包工具》:本文主要介绍一个使用PythonPYQT5制作的关于pyinstaller打包工具,代替传统的cmd黑窗口模式打包页面,实现更快捷方便的... 目录1.简介2.运行效果3.相关源码1.简介一个使用python PYQT5制作的关于pyinstall

使用Python实现大文件切片上传及断点续传的方法

《使用Python实现大文件切片上传及断点续传的方法》本文介绍了使用Python实现大文件切片上传及断点续传的方法,包括功能模块划分(获取上传文件接口状态、临时文件夹状态信息、切片上传、切片合并)、整... 目录概要整体架构流程技术细节获取上传文件状态接口获取临时文件夹状态信息接口切片上传功能文件合并功能小

python实现自动登录12306自动抢票功能

《python实现自动登录12306自动抢票功能》随着互联网技术的发展,越来越多的人选择通过网络平台购票,特别是在中国,12306作为官方火车票预订平台,承担了巨大的访问量,对于热门线路或者节假日出行... 目录一、遇到的问题?二、改进三、进阶–展望总结一、遇到的问题?1.url-正确的表头:就是首先ur