基于Trie树进行拆分字符串变成拼音音节(一):构建拼音音节模型

2023-10-23 08:59

本文主要是介绍基于Trie树进行拆分字符串变成拼音音节(一):构建拼音音节模型,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.前言

在智能客服领域,需要具备识别用户输入拼音并将其转为中文,进而来搜索与之相关问题,但用户输入的拼音内容是一个长字符串,此时需要把字符串进行中文拼音音节拆分,用逗号’,'将每个音节分开,因此本篇文章主要介绍构建基于Trie的拼音音节模型,在下篇文章介绍拆分音节,再下下篇文章介绍拼音识别成中文

二.构建模型

2.1 Trie树简要介绍

Trie树形结构属于字典树,整个树的根节点是空的, 根节点的子节点可以有多个,每个子节点智能存放单个元素,用于我们拼音模型就是根节点的子结点有26个,分别由a-z组成,每个子节点又可以当作其下的根节点,Trie字典树节点的结构为:

class TrieNode:def __init__(self):self.value = Noneself.children = {}

Trie树结构例图
在这里插入图片描述

2.2 构建拼音模型

首先我们需要中文拼音词库pinyin.txt,里面包含各种音节,将这些音节加入到trie树,变成拼音字典树,例如:

a
ai
aing
an
ang
ao
ba
bai
ban
bang
bao
bei
.
.
.

初始化字典树:

class Trie:def __init__(self):self.root = TrieNode()  # 初始化节点self.trie_path = Pinyin_Trie_Path  # 生成模型的目录文件 self.pinyin_path = Pinyin_Path # 中文拼音库目录文件

插入trie节点:

 def insert(self, key):node = self.rootfor char in key:if char not in node.children:child = TrieNode()node.children[char] = childnode = childelse:node = node.children[char]node.value = key

遍历音节字符串获取单个字母i,如果trie树已存在该单个字母,则继续在该字母节点的子节点中添加,例如:目前有音节zhao,而trie树已有zh,则遍历zhao,添加a作为h的子节点,再添加o作为a的子节点.如果字母i不属于子节点中,则需要新建一个TrieNode节点,存放新的字母.

    def build_trie(self):trie = Trie()for line in open(self.pinyin_path):word = line.strip().lower()trie.insert(word)with open(self.trie_path, 'wb') as f:pickle.dump(trie, f)

此段代码是构建拼音模型的代码,它逐行读取中文拼音词库pinyin.txt的拼音并转换成小写,并调用insert()方法插入Trie树中,最后导出拼音模型文件pinyin_Trie.model

    def search(self, key):node = self.rootmatches = []for char in key:if char not in node.children:breaknode = node.children[char]if node.value:matches.append(node.value)return matches

该代码主要功能是根据新输入的拼音去查找比对trie树的内容,比如输入zhuanye,比对trie后,会把[zhu,zhua,zhuan],[ye]返回

三.全部代码

Proj_path = os.path.dirname(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
Pinyin_Trie_Path = os.path.join(Proj_path, "main/pinyin_Trie.model")
Pinyin_Path = os.path.join(Proj_path, "main/assets/dataset/pinyin.txt")
# 定义trie字典树节点
class TrieNode:def __init__(self):self.value = Noneself.children = {}class Trie:def __init__(self):self.root = TrieNode()self.trie_path = Pinyin_Trie_Pathself.pinyin_path = Pinyin_Path# 添加树节点Pinyin_Pathdef insert(self, key):node = self.rootfor char in key:if char not in node.children:child = TrieNode()node.children[char] = childnode = childelse:node = node.children[char]node.value = key# 查找节点def search(self, key):node = self.rootmatches = []for char in key:if char not in node.children:breaknode = node.children[char]if node.value:matches.append(node.value)return matchesdef build_trie(self):trie = Trie()for line in open(self.pinyin_path):word = line.strip().lower()trie.insert(word)with open(self.trie_path, 'wb') as f:pickle.dump(trie, f)

有问题的,欢迎评论一起讨论!

这篇关于基于Trie树进行拆分字符串变成拼音音节(一):构建拼音音节模型的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/266856

相关文章

MySQL更新某个字段拼接固定字符串的实现

《MySQL更新某个字段拼接固定字符串的实现》在MySQL中,我们经常需要对数据库中的某个字段进行更新操作,本文就来介绍一下MySQL更新某个字段拼接固定字符串的实现,感兴趣的可以了解一下... 目录1. 查看字段当前值2. 更新字段拼接固定字符串3. 验证更新结果mysql更新某个字段拼接固定字符串 -

Java String字符串的常用使用方法

《JavaString字符串的常用使用方法》String是JDK提供的一个类,是引用类型,并不是基本的数据类型,String用于字符串操作,在之前学习c语言的时候,对于一些字符串,会初始化字符数组表... 目录一、什么是String二、如何定义一个String1. 用双引号定义2. 通过构造函数定义三、St

SpringSecurity6.0 如何通过JWTtoken进行认证授权

《SpringSecurity6.0如何通过JWTtoken进行认证授权》:本文主要介绍SpringSecurity6.0通过JWTtoken进行认证授权的过程,本文给大家介绍的非常详细,感兴趣... 目录项目依赖认证UserDetailService生成JWT token权限控制小结之前写过一个文章,从S

golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法

《golang获取当前时间、时间戳和时间字符串及它们之间的相互转换方法》:本文主要介绍golang获取当前时间、时间戳和时间字符串及它们之间的相互转换,本文通过实例代码给大家介绍的非常详细,感兴趣... 目录1、获取当前时间2、获取当前时间戳3、获取当前时间的字符串格式4、它们之间的相互转化上篇文章给大家介

Spring Security基于数据库的ABAC属性权限模型实战开发教程

《SpringSecurity基于数据库的ABAC属性权限模型实战开发教程》:本文主要介绍SpringSecurity基于数据库的ABAC属性权限模型实战开发教程,本文给大家介绍的非常详细,对大... 目录1. 前言2. 权限决策依据RBACABAC综合对比3. 数据库表结构说明4. 实战开始5. MyBA

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

C#使用SQLite进行大数据量高效处理的代码示例

《C#使用SQLite进行大数据量高效处理的代码示例》在软件开发中,高效处理大数据量是一个常见且具有挑战性的任务,SQLite因其零配置、嵌入式、跨平台的特性,成为许多开发者的首选数据库,本文将深入探... 目录前言准备工作数据实体核心技术批量插入:从乌龟到猎豹的蜕变分页查询:加载百万数据异步处理:拒绝界面

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

C#数据结构之字符串(string)详解

《C#数据结构之字符串(string)详解》:本文主要介绍C#数据结构之字符串(string),具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录转义字符序列字符串的创建字符串的声明null字符串与空字符串重复单字符字符串的构造字符串的属性和常用方法属性常用方法总结摘

Java进行文件格式校验的方案详解

《Java进行文件格式校验的方案详解》这篇文章主要为大家详细介绍了Java中进行文件格式校验的相关方案,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、背景异常现象原因排查用户的无心之过二、解决方案Magandroidic Number判断主流检测库对比Tika的使用区分zip