深蓝词库转换1.3版本发布——增强单词注音功能

2024-02-08 23:58

本文主要是介绍深蓝词库转换1.3版本发布——增强单词注音功能,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

“深蓝词库转换”是我在闲暇时写的一个词库转换程序,实现了各种输入法的用户词库、网络词库(细胞词库)之间的相互转换。

目前支持的输入法有:

PC端:

*搜狗拼音

*QQ拼音

*QQ五笔(纯汉字)

*谷歌拼音

*搜狗五笔

*紫光拼音

*拼音加加

手机端:

*QQ手机拼音

*百度手机拼音 

由于工作和个人的原因,所以深蓝词库转换很久很久没有更新了,趁着这个国庆有时间,所以对该小程序做了下版本更新,主要更新的功能有:

1.增强了单词注音功能。

有些词库是只有汉字而完全没有拼音的词库,这种词库要转换成我们想要的词库,那么就会遇到一个多音字的问题,我以前的版本就是采用简单粗暴的办法来对付多音字,多音字直接使用一个默认注音,或者就干脆把所有多音字的拼音都显示出来,形成多个词条。

现在我对程序进行了改进,默认维护了一个多音字的词库,可以自动找到大部分多音字的正确读音。比如我们有以下这样一个词库需要转换:

音乐就是快乐
调和不能变调
我要骑我的坐骑
收藏的藏语书
刚正不阿的阿楠
子弹与弹簧
参与挖人参计划
三人行银行
曾经的曾国藩

使用1.3版的深蓝词库转换,将这个词库转换为搜狗拼音词库的界面如图所示:

image

从截图中可以看到,无论是“音乐”还是“快乐”,无论是“子弹”还是“弹簧”基本上都可以找到正确的读音。

2.外挂注音词库

能够实现上面正确注音是因为有一个默认的多音字注音词库,但是这个词库并不是很大很全,如果遇到一些没有维护在其中的多音字词,那么系统就会采用默认的拼音,那么就有可能是错误的。比如我们在维护一个关于各种参的词库,词库内容是:

人参
花旗参
党参
沙参
西洋参
高丽参

转换的结果如图所示:

image

我们可以发现,第二个词“花旗参”的注音错误了,因为系统自带注音库中没有找到这个词,所以采用了默认的注音“can”,对于这种发现的注音错误,我们可以自己维护一个注音库,命名为“pinyin.txt”,放在该转换程序的同一个目录下,然后从新运行该词库,系统将会使用这个注音库中的词。这个注音库的格式采用搜狗拼音输入法的txt词库导出格式,一个词一行。在pinyin.txt中输入“'hua'qi'shen 花旗参”并保存,重新运行该程序,可以得到我们想要的结果:

image

3.不显示转换后的结果,直接导出。

在进行大批量数据的词库转换时,有一个性能上的问题,就是将几十万或者几百万条词条显示在下面的文本框中会非常消耗资源,其实这个显示是没有必要的,我们可以直接导出转换后的词库到硬盘上即可,而减少显示这个环节。

在“高级设置”菜单中选中“不显示结果,直接导出”这个选项:

image

然后再选择词库,点击“转换”按钮,即可直接导出词库。如图所示:

image

 

1.3版下载地址在此。

我一直将这个项目开源,您对源代码感兴趣可以查看,地址为http://code.google.com/p/imewlconverter/ 

另外,QQ分类词库(QPYD格式)我研究了一下,没有研究出来,不知道该怎么解析,希望有高手能够帮忙指点指点。如果能够把QQ分类词库给导出,那就更完美了。

这篇关于深蓝词库转换1.3版本发布——增强单词注音功能的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/692582

相关文章

springboot+redis实现订单过期(超时取消)功能的方法详解

《springboot+redis实现订单过期(超时取消)功能的方法详解》在SpringBoot中使用Redis实现订单过期(超时取消)功能,有多种成熟方案,本文为大家整理了几个详细方法,文中的示例代... 目录一、Redis键过期回调方案(推荐)1. 配置Redis监听器2. 监听键过期事件3. Redi

python版本切换工具pyenv的安装及用法

《python版本切换工具pyenv的安装及用法》Pyenv是管理Python版本的最佳工具之一,特别适合开发者和需要切换多个Python版本的用户,:本文主要介绍python版本切换工具pyen... 目录Pyenv 是什么?安装 Pyenv(MACOS)使用 Homebrew:配置 shell(zsh

Python容器转换与共有函数举例详解

《Python容器转换与共有函数举例详解》Python容器是Python编程语言中非常基础且重要的概念,它们提供了数据的存储和组织方式,下面:本文主要介绍Python容器转换与共有函数的相关资料,... 目录python容器转换与共有函数详解一、容器类型概览二、容器类型转换1. 基本容器转换2. 高级转换示

Qt实现对Word网页的读取功能

《Qt实现对Word网页的读取功能》文章介绍了几种在Qt中实现Word文档(.docx/.doc)读写功能的方法,包括基于QAxObject的COM接口调用、DOCX模板替换及跨平台解决方案,重点讨论... 目录1. 核心实现方式2. 基于QAxObject的COM接口调用(Windows专用)2.1 环境

Java实现字符串大小写转换的常用方法

《Java实现字符串大小写转换的常用方法》在Java中,字符串大小写转换是文本处理的核心操作之一,Java提供了多种灵活的方式来实现大小写转换,适用于不同场景和需求,本文将全面解析大小写转换的各种方法... 目录前言核心转换方法1.String类的基础方法2. 考虑区域设置的转换3. 字符级别的转换高级转换

Python轻松实现Word到Markdown的转换

《Python轻松实现Word到Markdown的转换》在文档管理、内容发布等场景中,将Word转换为Markdown格式是常见需求,本文将介绍如何使用FreeSpire.DocforPython实现... 目录一、工具简介二、核心转换实现1. 基础单文件转换2. 批量转换Word文件三、工具特性分析优点局

SpringBoot+Vue3整合SSE实现实时消息推送功能

《SpringBoot+Vue3整合SSE实现实时消息推送功能》在日常开发中,我们经常需要实现实时消息推送的功能,这篇文章将基于SpringBoot和Vue3来简单实现一个入门级的例子,下面小编就和大... 目录前言先大概介绍下SSE后端实现(SpringBoot)前端实现(vue3)1. 数据类型定义2.

使用C#实现将RTF转换为PDF

《使用C#实现将RTF转换为PDF》RTF(RichTextFormat)是一种通用的文档格式,允许用户在不同的文字处理软件中保存和交换格式化文本,下面我们就来看看如何使用C#实现将RTF转换为PDF... 目录Spire.Doc for .NET 简介安装 Spire.Doc代码示例处理异常总结RTF(R

SpringBoot整合Apache Spark实现一个简单的数据分析功能

《SpringBoot整合ApacheSpark实现一个简单的数据分析功能》ApacheSpark是一个开源的大数据处理框架,它提供了丰富的功能和API,用于分布式数据处理、数据分析和机器学习等任务... 目录第一步、添加android依赖第二步、编写配置类第三步、编写控制类启动项目并测试总结ApacheS

Python实现繁体转简体功能的三种方案

《Python实现繁体转简体功能的三种方案》在中文信息处理中,繁体字与简体字的转换是一个常见需求,无论是处理港澳台地区的文本数据,还是开发面向不同中文用户群体的应用,繁简转换都是不可或缺的功能,本文将... 目录前言为什么需要繁简转换?python实现方案方案一:使用opencc库方案二:使用zhconv库