中文纠错实战

2024-05-07 14:38
文章标签 实战 中文 纠错

本文主要是介绍中文纠错实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

假设有这么一个场景,医生开处方的时候,可能写错药品和疾病名称,需要程序自动化纠错

例如:曲米新乳膏和二甲双瓜和双黄连

    曲米新乳膏 ==> 曲咪新乳膏

    二甲双瓜 ==> 二甲双胍

 

 

怎么做呢?

直觉告诉我们,应该有一个数据源,包含所有的药品疾病名称。

1、数据抓取  

    寻医问药 http://www.xywy.com/

    丁香园 http://www.dxy.cn/

    好大夫 http://www.haodf.com/yaopin/

 

涉及知识:

    网络爬虫

    http协议

    html

    正则

    网络代理

    字符编码

    python

 

开源的世界,感谢这个时代吧。

scrapy框架  https://scrapy.org/  看看demo,开始工作吧!

 

2、单词匹配

药品数据爬取下来后,有药品疾病的词典了。

那么怎么从一段文字中识别出哪些是药品名称呢?假设文本都是正确的,药品名称也是正确的。

 

涉及知识:

    前缀树匹配 

    https://en.wikipedia.org/wiki/Trie

    http://baike.baidu.com/link?url=9tTTwNRyFnYW4EiTfVMrT0hkX7O8TKc0HCrStmTkWfCsV3HEtFK0BA0tWov4ny206MUIvPnzwPpdxqVFgZlo4_

 

    以python语言举例吧,PyTrie

    https://pypi.python.org/pypi/PyTrie  看看demo https://wiki.python.org/moin/CheeseShopTutorial 

    e.g. sentence = “我有双黄连和曲米新乳膏"

    遍历所有包含最后1个字的字串

        我有双黄连和曲米新乳膏

        有双黄连和曲米新乳膏

        双黄连和曲米新乳膏

        ……

    用爬取的药品名称字典生成SortedStringTrie,对每个子串用最长前缀匹配(method:longest_prefix),

    可以得到 双黄连、曲米新乳膏这两个药品名称

 

3、纠错版本1.0

    好吧,做了好多前期准备工作,可以开始尝试纠错了。先看看错误的例子:

    e.g. sentence = “我有双黄联和曲米新乳膏"

    肉眼看过去  双黄联 ==> 双黄连  机器如何做呢?

    

    涉及知识:

        编辑距离(Levenshtein距离) http://baike.baidu.com/link?url=BlzWCygnY5DdHj453HLQOhVYWnFfQO96hbHgqPTpWPo4x3_n4J6n2g5MVfYPVP7fWzf2u4doEspxkgWJSeJWvkwbMFV1FElBoqlSbbCG06ZLVlZeqoYkX6ucEwkcwTfQ

 

    编辑距离就是求两个字符串的相似性

    天安门 和 天天门  distance=1

    天安门 和 天安      distance=1

    天安门 和 天安门  distance=0

    

    有了编辑距离,借助最长前缀匹配,设定距离阀值,例如4个字,允许1个字不一样,6个字允许两个字不一样。

    用前缀匹配,找到双黄连, 对应的词是双黄联, 好吧,编辑距离ok,替换吧

    双黄连 ==> 双黄连

    恭喜你,纠错成功,关上电脑,可以交差了。

    

    测试报bug了,怎么可能!!!

    e.g. 小儿柏步止咳

    纠错 小儿柏步止咳 ==> 小儿清热止咳

    小儿清热止咳和小儿百部止咳都是药品名称,按照规则,字典树找到第一个小儿清热止咳,符合编辑距离<=2。

    

    看来不能光按照字型去纠错,汉字的输入错误大部分来自同音字。

    找个汉字转拼音的工具

    pypinyin     https://pypi.python.org/pypi/pypinyin

    加上拼音的编辑距离吧,全拼和首字母的,嗯嗯 双重保险,例如必须首字母相同。

    小儿清热止咳 首字母  xeqrzk

    小儿百部止咳 首字母  xebbzk

    小儿柏步止咳  首字母  xebbzk

    纠错 小儿柏步止咳 ==>  小儿百部止咳

    

    测试还是有作用的,虽然报bug让我很不爽

    1.0版本勉强可以上线使用了,精度门槛设置会比较高,召回相对低。

    e.g. 青春都飞扬吧

    青春都 ==> 青春痘

4、纠错版本2.0

    只看相似距离,是很难去判断纠正后的句子的合理性,因为替换规则只是针对单个单词,丢掉了句子的剩余单词信息。比如,句子1:青春都飞扬吧  句子2:青春逗很多。 句子1应该不去纠错,而句子2应该纠错。

    涉及知识:

    语言模型 https://en.wikipedia.org/wiki/Language_model  本质是用统计学意义判断句子构成的合理性

    中文分词 句子分词的多少 作为判断句子合理性的一个参考因子

    ngram  http://blog.csdn.net/baimafujinji/article/details/51281816 

    语料库 从很大的文本语录中切分出unigram bigram. 这个可以从爬取药品的网站上去爬取用户咨询的问题,这些问题里面包含的药品疾病比较多,适合用作医疗领域的ngram。

    

    ngram切分用nltk(很有名的nlp python库, method:ngrams) http://www.nltk.org/

    

    假设提取出来了unigram,bigram,那么可以试试语言模型了

 

    加入语言模型,去计算 替换后的句子 正确概率,找到替换后句子正确概率最大的

    

5、优化方向

    精度和召回总是一对矛盾

    概率提升的阀值,可以控制纠错的精度,但是降低了召回

    如何调整阀值,是不断试错过程。

    

    概率是基于统计学意义的,所以badcase的出现不可避免。可以通过人工的数据介入,去干预单词替换

    相近字 加入,使得替换备选集合多一些,提升召回率

    

    想要同时提升精度和召回,就需要分析badcase,设定粒度更小的精度阀值,优化是个长时间的工作。

6、总结

    英文纠错(good demo:http://norvig.com/spell-correct.html)很多是字母拼写错误,中文纠错更多的是相近字,拼音等带来的字词错误。

    纠错步骤:

    1、正确词词典

    2、从输入句子中 找到替换候选词集合

    3、语言模型判断句子合理性

    4、选出替换后最合理的句子

 

    精度阀值的控制 需要不断尝试,词典单词很多,且面对的是非专业领域词汇,则同样阀值前提下,纠错的精度应该会有所下降。针对特点领域的纠错是可行的,纠错的方法另一个副产品是找出相近意思的词,例如 头疼=>头痛

这篇关于中文纠错实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/967634

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

中文分词jieba库的使用与实景应用(一)

知识星球:https://articles.zsxq.com/id_fxvgc803qmr2.html 目录 一.定义: 精确模式(默认模式): 全模式: 搜索引擎模式: paddle 模式(基于深度学习的分词模式): 二 自定义词典 三.文本解析   调整词出现的频率 四. 关键词提取 A. 基于TF-IDF算法的关键词提取 B. 基于TextRank算法的关键词提取

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

C#实战|大乐透选号器[6]:实现实时显示已选择的红蓝球数量

哈喽,你好啊,我是雷工。 关于大乐透选号器在前面已经记录了5篇笔记,这是第6篇; 接下来实现实时显示当前选中红球数量,蓝球数量; 以下为练习笔记。 01 效果演示 当选择和取消选择红球或蓝球时,在对应的位置显示实时已选择的红球、蓝球的数量; 02 标签名称 分别设置Label标签名称为:lblRedCount、lblBlueCount

滚雪球学Java(87):Java事务处理:JDBC的ACID属性与实战技巧!真有两下子!

咦咦咦,各位小可爱,我是你们的好伙伴——bug菌,今天又来给大家普及Java SE啦,别躲起来啊,听我讲干货还不快点赞,赞多了我就有动力讲得更嗨啦!所以呀,养成先点赞后阅读的好习惯,别被干货淹没了哦~ 🏆本文收录于「滚雪球学Java」专栏,专业攻坚指数级提升,助你一臂之力,带你早日登顶🚀,欢迎大家关注&&收藏!持续更新中,up!up!up!! 环境说明:Windows 10

vscode中文乱码问题,注释,终端,调试乱码一劳永逸版

忘记咋回事突然出现了乱码问题,很多方法都试了,注释乱码解决了,终端又乱码,调试窗口也乱码,最后经过本人不懈努力,终于全部解决了,现在分享给大家我的方法。 乱码的原因是各个地方用的编码格式不统一,所以把他们设成统一的utf8. 1.电脑的编码格式 开始-设置-时间和语言-语言和区域 管理语言设置-更改系统区域设置-勾选Bata版:使用utf8-确定-然后按指示重启 2.vscode

springboot实战学习(1)(开发模式与环境)

目录 一、实战学习的引言 (1)前后端的大致学习模块 (2)后端 (3)前端 二、开发模式 一、实战学习的引言 (1)前后端的大致学习模块 (2)后端 Validation:做参数校验Mybatis:做数据库的操作Redis:做缓存Junit:单元测试项目部署:springboot项目部署相关的知识 (3)前端 Vite:Vue项目的脚手架Router:路由Pina:状态管理Eleme

解决Office Word不能切换中文输入

我们在使用WORD的时可能会经常碰到WORD中无法输入中文的情况。因为,虽然我们安装了搜狗输入法,但是到我们在WORD中使用搜狗的输入法的切换中英文的按键的时候会发现根本没有效果,无法将输入法切换成中文的。下面我就介绍一下如何在WORD中把搜狗输入法切换到中文。

深度学习实战:如何利用CNN实现人脸识别考勤系统

1. 何为CNN及其在人脸识别中的应用 卷积神经网络(CNN)是深度学习中的核心技术之一,擅长处理图像数据。CNN通过卷积层提取图像的局部特征,在人脸识别领域尤其适用。CNN的多个层次可以逐步提取面部的特征,最终实现精确的身份识别。对于考勤系统而言,CNN可以自动从摄像头捕捉的视频流中检测并识别出员工的面部。 我们在该项目中采用了 RetinaFace 模型,它基于CNN的结构实现高效、精准的

项目实战系列三: 家居购项目 第四部分

购物车 🌳购物车🍆显示购物车🍆更改商品数量🍆清空购物车&&删除商品 🌳生成订单 🌳购物车 需求分析 1.会员登陆后, 可以添加家居到购物车 2.完成购物车的设计和实现 3.每添加一个家居,购物车的数量+1, 并显示 程序框架图 1.新建src/com/zzw/furns/entity/CartItem.java, CartItem-家居项模型 /***