nlp10专题

NLP10:基于SiameseNetwork的文本相似度计算

公众号:数据挖掘与机器学习笔记 一、文本相似度简介 在上一篇文章中,简要介绍了孪生网络(siamese network)的基本原理及应用实战,这里再使用孪生网络来进行文本相似度计算。 文本的相似性计算是“文本匹配”的一种特殊情况。一般来说,文本相似度计算任务的输入,是两篇文档,比如下表的前两个句子;输出是两篇文档的相似程度,通常用[0,1]区间内的小数来表示。 文本相似度计算在许

NLP10_逻辑回归

逻辑回归是经典的baseline 要想通过线性回归来表示概率,那概率必须是(0,1)范围,但是显然等式右边是负无穷到正无穷的范围 逻辑函数 使用逻辑函数作为激活函数 通过sigmoid函数,把条件概率的值限定在0-1的范围 原始条件概率的范围是不符合概率的定义的,所以要经过逻辑函数,也就是这里用的sigmoid函数,将其概率的范围修改为0-1,满足了概率的定义 通过训练已有的数据,

【NLP10-fasttext工具】

了解fasttext工具的作用 了解fasttext工具的优势及其原因 掌握fasttext的安装方法 1、认识fasttext工具 1.1、作用: 进行文本分类 训练词向量 1.2、工具包优势 正如它的名字,在保持较高精度的情况下,快速的进行训练和预测是fasttext的最大优势。 1.3、fasttext优势的原因 fasttext工具包中内涵的fasttext模型具有十分