python实现拼写检查器(唐宇迪机器学习实战视频)

2024-06-08 13:08

本文主要是介绍python实现拼写检查器(唐宇迪机器学习实战视频),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简易拼写检查器

原理

根据朴素贝叶斯实现。

贝叶斯公式:  p(c|x)=p(c)*p(x|c)/p(x)

h代表猜测的要输入的单词 D实际输入的单词

p(h|D)=p(h)*p(D|h)/p(D)

p(D)可以不考虑,因为每次输入的单词和结果没有关系。

p(h|D)根p(h)和p(D|h)有关

p(h)先验概率(词频)

p(D|h)根据键盘上距离的来定

代码实现

需要导入

import re,collections
  1. 需要读取一个big.txt文本作为词库(只是几篇英文的文章)
    # 把单词抽取出来,转化成小写,并且去除特殊符号
    def words(text): return re.findall('[a-z]+',text.lower())
    def train(features):model=collections.defaultdict(lambda :1)for f in features:model[f]+=1return model
    NWORDS=train(words(open("big.txt").read()))

    lambda的意思是:设置出现的最小出现的次数为1。这样输入新的单词先验概率不为0,如果为先验概率不为0的话,输入新单词就永远不可能出现。

  2. 计算p(D|h) (只经一次变化就是单词距离为1)

    alphabet="abcdefghijklmnopqrstuvwxyz"
    #返回所有与单词距离为1 的集合
    def edits1(word):n=len(word)return set([word[0:i]+word[i+1:] for i in range(n)]+[word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)]+[word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet]+[word[0:i] + c + word[i:] for i in range(n+1) for c in alphabet]     #增删改等操作)  
    #返回所有距离为2的集合
    #只返回正确的单词
    def deits2(word):return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
    

     

  3. 设置优先级,最后返回概率最大的单词

    def known(words): return set(w for w in words if w in NWORDS)
    def correct(word):candiates=known([word]) or known(edits1(word)) or deits2(word) or [word]return max(candiates,key=lambda w: NWORDS[w])

     

测试效果:

a=correct("appla")
print a

输入appla

整体代码:

# -*- coding: UTF-8 -*-
import re,collections
# 把单词抽取出来,转化成小写,并且去除特殊符号
def words(text): return re.findall('[a-z]+',text.lower())
def train(features):model=collections.defaultdict(lambda :1)for f in features:model[f]+=1return model
NWORDS=train(words(open("big.txt").read()))alphabet="abcdefghijklmnopqrstuvwxyz"
#返回所有与单词距离为1 的集合
def edits1(word):n=len(word)return set([word[0:i]+word[i+1:] for i in range(n)]+[word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)]+[word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet]+[word[0:i] + c + word[i:] for i in range(n+1) for c in alphabet])
#返回所有距离为2的集合
#只返回正确的单词
def deits2(word):return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
def known(words): return set(w for w in words if w in NWORDS)
def correct(word):candiates=known([word]) or known(edits1(word)) or deits2(word) or [word]return max(candiates,key=lambda w: NWORDS[w])
a=correct("appla")
print a

 

这篇关于python实现拼写检查器(唐宇迪机器学习实战视频)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1042271

相关文章

Oracle查询优化之高效实现仅查询前10条记录的方法与实践

《Oracle查询优化之高效实现仅查询前10条记录的方法与实践》:本文主要介绍Oracle查询优化之高效实现仅查询前10条记录的相关资料,包括使用ROWNUM、ROW_NUMBER()函数、FET... 目录1. 使用 ROWNUM 查询2. 使用 ROW_NUMBER() 函数3. 使用 FETCH FI

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

Java实现Excel与HTML互转

《Java实现Excel与HTML互转》Excel是一种电子表格格式,而HTM则是一种用于创建网页的标记语言,虽然两者在用途上存在差异,但有时我们需要将数据从一种格式转换为另一种格式,下面我们就来看看... Excel是一种电子表格格式,广泛用于数据处理和分析,而HTM则是一种用于创建网页的标记语言。虽然两

Java中Springboot集成Kafka实现消息发送和接收功能

《Java中Springboot集成Kafka实现消息发送和接收功能》Kafka是一个高吞吐量的分布式发布-订阅消息系统,主要用于处理大规模数据流,它由生产者、消费者、主题、分区和代理等组件构成,Ka... 目录一、Kafka 简介二、Kafka 功能三、POM依赖四、配置文件五、生产者六、消费者一、Kaf

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

使用Python实现在Word中添加或删除超链接

《使用Python实现在Word中添加或删除超链接》在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能,本文将为大家介绍一下Python如何实现在Word中添加或... 在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能。通过添加超

windos server2022里的DFS配置的实现

《windosserver2022里的DFS配置的实现》DFS是WindowsServer操作系统提供的一种功能,用于在多台服务器上集中管理共享文件夹和文件的分布式存储解决方案,本文就来介绍一下wi... 目录什么是DFS?优势:应用场景:DFS配置步骤什么是DFS?DFS指的是分布式文件系统(Distr

Golang操作DuckDB实战案例分享

《Golang操作DuckDB实战案例分享》DuckDB是一个嵌入式SQL数据库引擎,它与众所周知的SQLite非常相似,但它是为olap风格的工作负载设计的,DuckDB支持各种数据类型和SQL特性... 目录DuckDB的主要优点环境准备初始化表和数据查询单行或多行错误处理和事务完整代码最后总结Duck