python实现拼写检查器(唐宇迪机器学习实战视频)

2024-06-08 13:08

本文主要是介绍python实现拼写检查器(唐宇迪机器学习实战视频),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

简易拼写检查器

原理

根据朴素贝叶斯实现。

贝叶斯公式:  p(c|x)=p(c)*p(x|c)/p(x)

h代表猜测的要输入的单词 D实际输入的单词

p(h|D)=p(h)*p(D|h)/p(D)

p(D)可以不考虑,因为每次输入的单词和结果没有关系。

p(h|D)根p(h)和p(D|h)有关

p(h)先验概率(词频)

p(D|h)根据键盘上距离的来定

代码实现

需要导入

import re,collections
  1. 需要读取一个big.txt文本作为词库(只是几篇英文的文章)
    # 把单词抽取出来,转化成小写,并且去除特殊符号
    def words(text): return re.findall('[a-z]+',text.lower())
    def train(features):model=collections.defaultdict(lambda :1)for f in features:model[f]+=1return model
    NWORDS=train(words(open("big.txt").read()))

    lambda的意思是:设置出现的最小出现的次数为1。这样输入新的单词先验概率不为0,如果为先验概率不为0的话,输入新单词就永远不可能出现。

  2. 计算p(D|h) (只经一次变化就是单词距离为1)

    alphabet="abcdefghijklmnopqrstuvwxyz"
    #返回所有与单词距离为1 的集合
    def edits1(word):n=len(word)return set([word[0:i]+word[i+1:] for i in range(n)]+[word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)]+[word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet]+[word[0:i] + c + word[i:] for i in range(n+1) for c in alphabet]     #增删改等操作)  
    #返回所有距离为2的集合
    #只返回正确的单词
    def deits2(word):return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
    

     

  3. 设置优先级,最后返回概率最大的单词

    def known(words): return set(w for w in words if w in NWORDS)
    def correct(word):candiates=known([word]) or known(edits1(word)) or deits2(word) or [word]return max(candiates,key=lambda w: NWORDS[w])

     

测试效果:

a=correct("appla")
print a

输入appla

整体代码:

# -*- coding: UTF-8 -*-
import re,collections
# 把单词抽取出来,转化成小写,并且去除特殊符号
def words(text): return re.findall('[a-z]+',text.lower())
def train(features):model=collections.defaultdict(lambda :1)for f in features:model[f]+=1return model
NWORDS=train(words(open("big.txt").read()))alphabet="abcdefghijklmnopqrstuvwxyz"
#返回所有与单词距离为1 的集合
def edits1(word):n=len(word)return set([word[0:i]+word[i+1:] for i in range(n)]+[word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)]+[word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet]+[word[0:i] + c + word[i:] for i in range(n+1) for c in alphabet])
#返回所有距离为2的集合
#只返回正确的单词
def deits2(word):return set(e2 for e1 in edits1(word) for e2 in edits1(e1) if e2 in NWORDS)
def known(words): return set(w for w in words if w in NWORDS)
def correct(word):candiates=known([word]) or known(edits1(word)) or deits2(word) or [word]return max(candiates,key=lambda w: NWORDS[w])
a=correct("appla")
print a

 

这篇关于python实现拼写检查器(唐宇迪机器学习实战视频)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1042271

相关文章

Qt实现对Word网页的读取功能

《Qt实现对Word网页的读取功能》文章介绍了几种在Qt中实现Word文档(.docx/.doc)读写功能的方法,包括基于QAxObject的COM接口调用、DOCX模板替换及跨平台解决方案,重点讨论... 目录1. 核心实现方式2. 基于QAxObject的COM接口调用(Windows专用)2.1 环境

MySQL查看表的历史SQL的几种实现方法

《MySQL查看表的历史SQL的几种实现方法》:本文主要介绍多种查看MySQL表历史SQL的方法,包括通用查询日志、慢查询日志、performance_schema、binlog、第三方工具等,并... 目录mysql 查看某张表的历史SQL1.查看MySQL通用查询日志(需提前开启)2.查看慢查询日志3.

Java实现字符串大小写转换的常用方法

《Java实现字符串大小写转换的常用方法》在Java中,字符串大小写转换是文本处理的核心操作之一,Java提供了多种灵活的方式来实现大小写转换,适用于不同场景和需求,本文将全面解析大小写转换的各种方法... 目录前言核心转换方法1.String类的基础方法2. 考虑区域设置的转换3. 字符级别的转换高级转换

使用Python将PDF表格自动提取并写入Word文档表格

《使用Python将PDF表格自动提取并写入Word文档表格》在实际办公与数据处理场景中,PDF文件里的表格往往无法直接复制到Word中,本文将介绍如何使用Python从PDF文件中提取表格数据,并将... 目录引言1. 加载 PDF 文件并准备 Word 文档2. 提取 PDF 表格并创建 Word 表格

使用Python实现局域网远程监控电脑屏幕的方法

《使用Python实现局域网远程监控电脑屏幕的方法》文章介绍了两种使用Python在局域网内实现远程监控电脑屏幕的方法,方法一使用mss和socket,方法二使用PyAutoGUI和Flask,每种方... 目录方法一:使用mss和socket实现屏幕共享服务端(被监控端)客户端(监控端)方法二:使用PyA

Python列表的创建与删除的操作指南

《Python列表的创建与删除的操作指南》列表(list)是Python中最常用、最灵活的内置数据结构之一,它支持动态扩容、混合类型、嵌套结构,几乎无处不在,但你真的会创建和删除列表吗,本文给大家介绍... 目录一、前言二、列表的创建方式1. 字面量语法(最常用)2. 使用list()构造器3. 列表推导式

Python使用Matplotlib和Seaborn绘制常用图表的技巧

《Python使用Matplotlib和Seaborn绘制常用图表的技巧》Python作为数据科学领域的明星语言,拥有强大且丰富的可视化库,其中最著名的莫过于Matplotlib和Seaborn,本篇... 目录1. 引言:数据可视化的力量2. 前置知识与环境准备2.1. 必备知识2.2. 安装所需库2.3

MyBatis-Plus逻辑删除实现过程

《MyBatis-Plus逻辑删除实现过程》本文介绍了MyBatis-Plus如何实现逻辑删除功能,包括自动填充字段、配置与实现步骤、常见应用场景,并展示了如何使用remove方法进行逻辑删除,逻辑删... 目录1. 逻辑删除的必要性编程1.1 逻辑删除的定义1.2 逻辑删php除的优点1.3 适用场景2.

Python数据验证神器Pydantic库的使用和实践中的避坑指南

《Python数据验证神器Pydantic库的使用和实践中的避坑指南》Pydantic是一个用于数据验证和设置的库,可以显著简化API接口开发,文章通过一个实际案例,展示了Pydantic如何在生产环... 目录1️⃣ 崩溃时刻:当你的API接口又双叒崩了!2️⃣ 神兵天降:3行代码解决验证难题3️⃣ 深度

C#借助Spire.XLS for .NET实现在Excel中添加文档属性

《C#借助Spire.XLSfor.NET实现在Excel中添加文档属性》在日常的数据处理和项目管理中,Excel文档扮演着举足轻重的角色,本文将深入探讨如何在C#中借助强大的第三方库Spire.... 目录为什么需要程序化添加Excel文档属性使用Spire.XLS for .NET库实现文档属性管理Sp