自然语言处理-应用场景-聊天机器人(二):Seq2Seq【CHAT/闲聊机器人】--> BeamSearch算法预测【替代 “维特比算法” 预测、替代 “贪心算法” 预测】

本文主要是介绍自然语言处理-应用场景-聊天机器人(二):Seq2Seq【CHAT/闲聊机器人】--> BeamSearch算法预测【替代 “维特比算法” 预测、替代 “贪心算法” 预测】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

在项目准备阶段我们知道,用户说了一句话后,会判断其意图,如果是想进行闲聊,那么就会调用闲聊模型返回结果。

目前市面上的常见闲聊机器人有微软小冰这种类型的模型,很久之前还有小黄鸡这种体验更差的模型

常见的闲聊模型都是一种seq2seq的结构。

一、准备训练数据

单轮次的聊天数据非常不好获取,所以这里我们从github上使用一些开放的数据集来训练我们的闲聊模型

数据地址:https://github.com/codemayq/chaotbot_corpus_Chinese

主要的数据有两个:

  1. 小黄鸡的聊天语料:噪声很大
    在这里插入图片描述
  2. 微博的标题和评论:质量相对较高
    在这里插入图片描述
    在这里插入图片描述

二、数据的处理和保存

由于数据中存到大量的噪声,可以对其进行基础的处理,然后分别把input和target使用两个文件保存,即input.txt文件中的第N行为“问”,target.txt文件中的第N行为“答”

  • 会把“以单个字分词后的句子”作为特征值、目标值(存放在input_word.txt、target_word.txt),
  • 把“以词语分词后的句子”作为特征值、目标值(存放在input.txt、target.txt)

1、小黄鸡的语料的处理

def format_xiaohuangji_corpus(word=False):"""处理小黄鸡的语料"""if word:corpus_path = "./chatbot/corpus/xiaohuangji50w_nofenci.conv"input_path = "./chatbot/corpus/input_word.txt"output_path = "./chatbot/corpus/output_word.txt"else:corpus_path = "./chatbot/corpus/xiaohuangji50w_nofenci.conv"input_path = "./chatbot/corpus/input.txt"output_path = "./chatbot/corpus/output.txt"f_input = open(input_path,"a")f_output = open(output_path,"a")pair = []for line in tqdm(open(corpus_path),ascii=True):if line.strip() == "E":if not pair:continueelse:assert len(pair) == 2,"长度必须是2"if len(pair[0].strip())>=1 and len(pair[1].strip())>=1:f_input.write(pair[0]+"\n")f_output.write(pair[1]+"\n")pair = []elif line.startswith("M"):line = line[1:]if word:pair.append(" ".join(list(line.strip())))else:pair.append(" ".join(jieba_cut(line.strip())))

详细版:

"""
处理闲聊机器人的语料
"""
import re
from utils import cut
from tqdm import tqdmdef clean_line(line):"""处理句子中的标点符号"""line = re.sub("\^.*?\^","\^***\^",line)line = re.sub("\(.*?\)","\(***\)",line)result = []  #【【】,【】,[word,True,False],[word,True]】temp =""for word in line:if word.isalpha() or word.isdigit():if len(temp)>0:result.append([temp,True])temp = "" #如果temp里面只有一个字符result.append([word,False])else:temp += wordif len(temp) > 0:result.append([temp, True])#把result中第二个位置为True的进行替换if result[0][-1]:result = result[1:]#经过上一步后,有可能为空列表if len(result)>0:if result[-1][-1]:result = result[:-1]+[["。",False]]final_result = []for i in result:if i[-1]: #为标点的情况if "!" in i[0] or "!" in i[0]:final_result.append(["!",False])elif "…" in i[0]:final_result.append(["…", False])else:final_result.append([",",False])else:final_result.append(i)return "".join([i[0] for i in final_result])def clean_group(group):"""清理group中的输出:param group: [q,a]:return: [q,a]/bool"""#判断句子是否为纯标点英文数字,或者是其他的语言--》判断一句话中是否有中文if not re.findall("[\u4e00-\u9fa5]",group[0]):return Falseif not re.findall("[\u4e00-\u9fa5]",group[1]):return False#问题中包含`笑话`两个字的if re.findall("笑话|糗百|运势|运程",group[0]):return False#处理连续的多个标点group[0] = clean_line(group[0])group[1] = clean_line(group[1])#小黄鸡,小通group[0] = re.sub("小通|鸡鸡","小智",group[0]).strip()group[1] = re.sub("小通|鸡鸡","小智",group[1]).strip()#判断句子是否为空if len(group[0])<1 or len(group[1])<1:return Falsereturn groupdef save_group(group,fq,fa,by_word):"""保存问答对"""fq.write(" ".join(cut(group[0],by_word=by_word))+"\n")fa.write(" ".join(cut(group[1],by_word=by_word))+"\n")def process_xiaohuangji(by_word,fq,fa):data_path = "./corpus/classify/小黄鸡未分词.conv"groups = []  #[[q,a],[q,a],[q,a]]group = []bar = tqdm(open(data_path).readlines(),desc="小黄鸡数据读取...")for line in bar:if line.startswith("E"):if group:groups.append(group)group = []elif line.startswith("M"):group.append(line[1:].strip())if group:groups.append(group)for group in tqdm(groups,desc="小黄鸡数据保存..."):  #一个group就是一个问答对group = clean_group(group)if not group:continue# print("q:",group[0])# print("a:",group[1])# print("*"*30)save_group(group,fq,fa,by_word)def start_process(by_word=True):fq = open("./corpus/chatbot/input.txt","a")	# 特征值保存路径fa = open("./corpus/chatbot/target.txt","a") # 目标值保存路径process_xiaohuangji(by_word,fq,fa)if __name__=="__main__":start_process()

2、微博语料的处理

def format_weibo(word=False):"""微博数据存在一些噪声,未处理:return:"""if word:origin_input = "./chatbot/corpus/stc_weibo_train_post"input_path = "./chatbot/corpus/input_word.txt"origin_output = "./chatbot/corpus/stc_weibo_train_response"output_path = "./chatbot/corpus/output_word.txt"else:origin_input = "./chatbot/corpus/stc_weibo_train_post"input_path = "./chatbot/corpus/input.txt"origin_output = "./chatbot/corpus/stc_weibo_train_response"output_path = "./chatbot/corpus/output.txt"f_input = open(input_path,"a")f_output = open(output_path, "a")with open(origin_input) as in_o,open(origin_output) as out_o:for _in,_out in tqdm(zip(in_o,out_o),ascii=True):_in = _in.strip()_out = _out.strip()if _in.endswith(")") or _in.endswith("」") or _in.endswith(")"):_in = re.sub("(.*)|「.*?」|\(.*?\)"," ",_in)_in = re.sub("我在.*?alink|alink|(.*?\d+x\d+.*?)|#|】|【|-+|_+|via.*?:*.*"," ",_in)_in = re.sub("\s+"," ",_in)if len(_in)<1 or len(_out

这篇关于自然语言处理-应用场景-聊天机器人(二):Seq2Seq【CHAT/闲聊机器人】--> BeamSearch算法预测【替代 “维特比算法” 预测、替代 “贪心算法” 预测】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1128866

相关文章

防止Linux rm命令误操作的多场景防护方案与实践

《防止Linuxrm命令误操作的多场景防护方案与实践》在Linux系统中,rm命令是删除文件和目录的高效工具,但一旦误操作,如执行rm-rf/或rm-rf/*,极易导致系统数据灾难,本文针对不同场景... 目录引言理解 rm 命令及误操作风险rm 命令基础常见误操作案例防护方案使用 rm编程 别名及安全删除

Python实现批量CSV转Excel的高性能处理方案

《Python实现批量CSV转Excel的高性能处理方案》在日常办公中,我们经常需要将CSV格式的数据转换为Excel文件,本文将介绍一个基于Python的高性能解决方案,感兴趣的小伙伴可以跟随小编一... 目录一、场景需求二、技术方案三、核心代码四、批量处理方案五、性能优化六、使用示例完整代码七、小结一、

Python中 try / except / else / finally 异常处理方法详解

《Python中try/except/else/finally异常处理方法详解》:本文主要介绍Python中try/except/else/finally异常处理方法的相关资料,涵... 目录1. 基本结构2. 各部分的作用tryexceptelsefinally3. 执行流程总结4. 常见用法(1)多个e

PHP应用中处理限流和API节流的最佳实践

《PHP应用中处理限流和API节流的最佳实践》限流和API节流对于确保Web应用程序的可靠性、安全性和可扩展性至关重要,本文将详细介绍PHP应用中处理限流和API节流的最佳实践,下面就来和小编一起学习... 目录限流的重要性在 php 中实施限流的最佳实践使用集中式存储进行状态管理(如 Redis)采用滑动

MyBatis-plus处理存储json数据过程

《MyBatis-plus处理存储json数据过程》文章介绍MyBatis-Plus3.4.21处理对象与集合的差异:对象可用内置Handler配合autoResultMap,集合需自定义处理器继承F... 目录1、如果是对象2、如果需要转换的是List集合总结对象和集合分两种情况处理,目前我用的MP的版本

深入浅出Spring中的@Autowired自动注入的工作原理及实践应用

《深入浅出Spring中的@Autowired自动注入的工作原理及实践应用》在Spring框架的学习旅程中,@Autowired无疑是一个高频出现却又让初学者头疼的注解,它看似简单,却蕴含着Sprin... 目录深入浅出Spring中的@Autowired:自动注入的奥秘什么是依赖注入?@Autowired

Python自动化处理PDF文档的操作完整指南

《Python自动化处理PDF文档的操作完整指南》在办公自动化中,PDF文档处理是一项常见需求,本文将介绍如何使用Python实现PDF文档的自动化处理,感兴趣的小伙伴可以跟随小编一起学习一下... 目录使用pymupdf读写PDF文件基本概念安装pymupdf提取文本内容提取图像添加水印使用pdfplum

C# LiteDB处理时间序列数据的高性能解决方案

《C#LiteDB处理时间序列数据的高性能解决方案》LiteDB作为.NET生态下的轻量级嵌入式NoSQL数据库,一直是时间序列处理的优选方案,本文将为大家大家简单介绍一下LiteDB处理时间序列数... 目录为什么选择LiteDB处理时间序列数据第一章:LiteDB时间序列数据模型设计1.1 核心设计原则

基于Redis自动过期的流处理暂停机制

《基于Redis自动过期的流处理暂停机制》基于Redis自动过期的流处理暂停机制是一种高效、可靠且易于实现的解决方案,防止延时过大的数据影响实时处理自动恢复处理,以避免积压的数据影响实时性,下面就来详... 目录核心思路代码实现1. 初始化Redis连接和键前缀2. 接收数据时检查暂停状态3. 检测到延时过

PostgreSQL简介及实战应用

《PostgreSQL简介及实战应用》PostgreSQL是一种功能强大的开源关系型数据库管理系统,以其稳定性、高性能、扩展性和复杂查询能力在众多项目中得到广泛应用,本文将从基础概念讲起,逐步深入到高... 目录前言1. PostgreSQL基础1.1 PostgreSQL简介1.2 基础语法1.3 数据库