python实现拼写检查器（唐宇迪机器学习实战视频）

本文主要是介绍python实现拼写检查器（唐宇迪机器学习实战视频），希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

简易拼写检查器

原理

根据朴素贝叶斯实现。

贝叶斯公式： p(c|x)=p(c)*p(x|c)/p(x)

h代表猜测的要输入的单词 D实际输入的单词

p(h|D)=p(h)*p(D|h)/p(D)

p(D)可以不考虑，因为每次输入的单词和结果没有关系。

p(h|D)根p(h)和p(D|h)有关

p(h)先验概率(词频)

p(D|h)根据键盘上距离的来定

代码实现

需要导入

import re,collections

需要读取一个big.txt文本作为词库（只是几篇英文的文章）

# 把单词抽取出来，转化成小写，并且去除特殊符号
def words(text): return re.findall('[a-z]+',text.lower())
def train(features):model=collections.defaultdict(lambda :1)for f in features:model[f]+=1return model
NWORDS=train(words(open("big.txt").read()))

lambda的意思是：设置出现的最小出现的次数为1。这样输入新的单词先验概率不为0,如果为先验概率不为0的话，输入新单词就永远不可能出现。

计算p(D|h) （只经一次变化就是单词距离为1）

alphabet="abcdefghijklmnopqrstuvwxyz"
#返回所有与单词距离为1 的集合
def edits1(word):n=len(word)return set([word[0:i]+word[i+1:] for i in range(n)]+[word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)]+[word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet]+[word[0:i] + c + word[i:] for i in range(n+1) for c in alphabet]     #增删改等操作)  
#返回所有距离为2的集合
#只返回正确的单词
def deits2(word):return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)

设置优先级，最后返回概率最大的单词

def known(words): return set(w for w in words if w in NWORDS)
def correct(word):candiates=known([word]) or known(edits1(word)) or deits2(word) or [word]return max(candiates,key=lambda w: NWORDS[w])

测试效果：

a=correct("appla")
print a

输入appla

整体代码：

# -*- coding: UTF-8 -*-
import re,collections
# 把单词抽取出来，转化成小写，并且去除特殊符号
def words(text): return re.findall('[a-z]+',text.lower())
def train(features):model=collections.defaultdict(lambda :1)for f in features:model[f]+=1return model
NWORDS=train(words(open("big.txt").read()))alphabet="abcdefghijklmnopqrstuvwxyz"
#返回所有与单词距离为1 的集合
def edits1(word):n=len(word)return set([word[0:i]+word[i+1:] for i in range(n)]+[word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)]+[word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet]+[word[0:i] + c + word[i:] for i in range(n+1) for c in alphabet])
#返回所有距离为2的集合
#只返回正确的单词
def deits2(word):return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
def known(words): return set(w for w in words if w in NWORDS)
def correct(word):candiates=known([word]) or known(edits1(word)) or deits2(word) or [word]return max(candiates,key=lambda w: NWORDS[w])
a=correct("appla")
print a

这篇关于python实现拼写检查器（唐宇迪机器学习实战视频）的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

python实现拼写检查器（唐宇迪机器学习实战视频）

简易拼写检查器

原理

代码实现

相关文章

Qt实现对Word网页的读取功能

MySQL查看表的历史SQL的几种实现方法

Java实现字符串大小写转换的常用方法

使用Python将PDF表格自动提取并写入Word文档表格

使用Python实现局域网远程监控电脑屏幕的方法

Python列表的创建与删除的操作指南

Python使用Matplotlib和Seaborn绘制常用图表的技巧

MyBatis-Plus逻辑删除实现过程

Python数据验证神器Pydantic库的使用和实践中的避坑指南

C#借助Spire.XLS for .NET实现在Excel中添加文档属性