NLP-Good Turning平滑

2023-10-23 13:30

文章标签 good nlp 平滑 turning

本文主要是介绍NLP-Good Turning平滑，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

目录

1.遇见的问题

2.Good Turning平滑

3.实验数据

1.遇见的问题

这个平滑方法在语言模型里面应用较多。由于我们的词典库中，单词量非常大，语料中基本上不会完全出现所有的词，因此，如何预测出现新词的概率？

2.Good Turning平滑

首先定义一个N(c)：出现c次的单词的个数

比如N(1)=4，意思就是，出现1次的单词的个数为4。

那么对于没有出现过的单词，它们下次出现的概率，是所有出现次数为1的单词的数量，除以出现的单词总数。即P = N(1) / N

以此类推，对于出现过的单词，由于没出现的单词占据了一些概率，因此计算方式也发生了变化：

如下图所示：

3.实验数据

根据实际的实验数据，生成了如下表格：

每一列分别是：单词出现次数，对应次数的单词出现的数量，通过Good Turning计算的出现的概率，实际测试出现的概率。

可以看出，该平滑方法预测的概率相当准确。缺点是我们计算的时候会依赖于下一个数据，而下一个数据可能没有，可以使用机器学习拟合曲线，补充数据。

这篇关于NLP-Good Turning平滑的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/268149。 23002807@qq.com

相关文章

Python实现NLP的完整流程介绍

Python实现NLP的完整流程介绍

《Python实现NLP的完整流程介绍》这篇文章主要为大家详细介绍了Python实现NLP的完整流程,文中的示例代码讲解详细,具有一定的借鉴价值,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 编程安装和导入必要的库2. 文本数据准备3. 文本预处理3.1 小写化3.2 分词（Tokenizatio

阅读更多...

Golang支持平滑升级的HTTP服务

Golang支持平滑升级的HTTP服务

前段时间用Golang在做一个HTTP的接口，因编译型语言的特性，修改了代码需要重新编译可执行文件，关闭正在运行的老程序，并启动新程序。对于访问量较大的面向用户的产品，关闭、重启的过程中势必会出现无法访问的情况，从而影响用户体验。使用Golang的系统包开发HTTP服务，是无法支持平滑升级（优雅重启）的，本文将探讨如何解决该问题。一、平滑升级（优雅重启）的一般思路一般情况下，要实现平滑

阅读更多...

Golang服务平滑重启

Golang服务平滑重启

与重载配置相同的是我们也需要通过信号来通知server重启，但关键在于平滑重启，如果只是简单的重启，只需要kill掉，然后再拉起即可。平滑重启意味着server升级的时候可以不用停止业务。我们先来看下Github上有没有相应的库解决这个问题，然后找到了如下三个库： facebookgo/grace - Graceful restart & zero downtime deploy for G

阅读更多...

【UVA】1619-Feel Good（数据结构-栈）

【UVA】1619-Feel Good（数据结构-栈）

既然所有数都是大于等于0的，那么在一个区间最小值一定的情况下，这个区间越长越好（当然有特殊情况）对一个数a[i],left[i]代表左边第一个比它小的,right[i]代表右边第一个比它小的如何构造left[i]呢？，从左往右构造一个单调递增的栈（一定是单调的！）当a[i]比栈顶元素小的时候，栈顶元素出栈，（否则的话入栈，left[i]就是栈顶元素的位置，right数组同理可得

阅读更多...

【python 走进NLP】两两求相似度，得到一条文本和其他文本最大的相似度

【python 走进NLP】两两求相似度，得到一条文本和其他文本最大的相似度

应用场景：一个数据框里面文本，两两求相似度，得到一条文本和其他文本最大的相似度。 content source_id0 丰华股份军阀割据发生的故事大概多少w 11 丰华股份军阀割据发生的故事大概多少 22 丰华股份军阀割据发生的故事大概多少 33 丰华股份军阀割据发生的故事大概多少

阅读更多...

【Python 走进NLP】NLP词频统计和处理停用词，可视化

【Python 走进NLP】NLP词频统计和处理停用词，可视化

# coding=utf-8import requestsimport sysreload(sys)sys.setdefaultencoding('utf-8')from lxml import etreeimport timetime1=time.time()import bs4import nltkfrom bs4 import BeautifulSoupfrom

阅读更多...

【java 走进NLP】simhash 算法计算两篇文章相似度

【java 走进NLP】simhash 算法计算两篇文章相似度

python 计算两篇文章的相似度算法simhash见： https://blog.csdn.net/u013421629/article/details/85052915 对长文本是比较合适的（超过500字以上）下面贴上java 版本实现： pom.xml 加入依赖 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</a

阅读更多...

【python 走进NLP】simhash 算法计算两篇文章相似度

【python 走进NLP】simhash 算法计算两篇文章相似度

互联网网页存在大量的重复内容网页，无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪，还是社交媒体等文本去重和聚类，都需要对网页或者文本进行去重和过滤。最简单的文本相似性计算方法可以利用空间向量模型，计算分词后的文本的特征向量的相似性，这种方法存在效率的严重弊端，无法针对海量的文本进行两两的相似性判断。模仿生物学指纹的特点，对每个文本构造一个指纹，来作为该文本的标识，从形式上来

阅读更多...

【python 走进NLP】文本相似度各种距离计算

【python 走进NLP】文本相似度各种距离计算

计算文本相似度有什么用？ 1、反垃圾文本的捞取 “诚聘淘宝兼职”、“诚聘打字员”…这样的小广告满天飞，作为网站或者APP的运营者，不可能手动将所有的广告文本放入屏蔽名单里，挑几个典型广告文本，与它满足一定相似度就进行屏蔽。 2、推荐系统在微博和各大BBS上，每一篇文章/帖子的下面都有一个推荐阅读，那就是根据一定算法计算出来的相似文章。 3、冗余过滤我们每天接触过量的信息，信息之间存在大量

阅读更多...

【python 走进NLP】句子相似度计算--余弦相似度

【python 走进NLP】句子相似度计算--余弦相似度

余弦相似度，又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值，绘制到向量空间中，如最常见的二维空间。 github 参考链接：https://github.com/ZhanPwBibiBibi/CHlikelihood # -*- coding: utf-8 -*-import jiebaimport numpy as npimpor

阅读更多...