hanlp源码解析word2vec词向量算法

2023-10-14 18:30

本文主要是介绍hanlp源码解析word2vec词向量算法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

欢迎关注鄙人公众号,技术干货随时看!
在这里插入图片描述

one-hot表示法

词向量就是把一个词用向量的形式表示,以前的经典表示法是one-hot,这种表示法向量的维度是词汇量的大小。它的处理方式简单粗暴,一般就是统计词库包含的所有V个词,然后将这V个词固定好顺序,然后每个词就可以用一个V维的稀疏向量来表示,向量中只有在该词出现的位置的元素才为1,其它元素全为0。比如下面这几个词,第一个元素为1的表示中国,第六个元素为1的表示美国,第五个元素为1的表示日本。

中国[1,0,0,0,0,0,0,0,0,……,0,0,0,0,0,0,0]

美国[0,0,0,0,0,1,0,0,0,……,0,0,0,0,0,0,0]

日本[0,0,0,0,1,0,0,0,0,……,0,0,0,0,0,0,0]

按照目前汉语的词汇量20万左右,那么一个词就是20万维度的向量来表示,这对内存和计算效率都是灾难性的,优点是非常简单,只需过扫描一遍语料库好即可。

word2vec

google开源的word2vec得到的词的向量形式则可以自由控制维度,一般是100左右。google开源的是用c语言开发的,hanlp的作者移植了这套c代码并合并到了word2vec中。据说,每个线程每秒训练的词语稳定在180-190K,比原版C程序要快2.5倍左右;训练速度比C程序要快的原因是,原版C程序读取单词后需要去char数组里遍历查找id;而我的Java实现直接读取缓存文件中的id,当然开始训练前要先进行词->id的转换并输出到缓存文件,这个过程大约多花一两分钟时间,相较于训练时间,无疑是值得的。这样改进之后还可以直接读取类似text8那样的变态语料,一举多得。效率与c语言版的没有差别。

下面开始正式讨论hanlp中word2vec的源码。关计word2vec中用到的神经网络的模型和算法,这里不再赘述,请参考作者的文章http://www.hankcs.com/nlp/word2vec.html
 
 语料库

训库词向量当然需要一个相对完整的语料库,目有可以采用人民日报、Sighan05分词语料 http://sighan.cs.uchicago.edu/bakeoff2005/,一般情况下首先对语料库分词,这里不再讨论分词,为了讨论源码的方更的,我们采用的语料库如下(生产环境语料库越大越向量模型越准确):

帕勒莫 VS 梅西纳 已经 无关紧要 初盘 显示 格局 
雷吉纳 VS 尤文图斯 初盘 显示 客队 强大 关系到 客队 夺冠 问题 尤文图斯 任胆 
特雷维索 VS 乌迪内斯 乌迪内斯 客场 连续 拿下 状态 开出 平手 想必 乌鸡 势头 就此 中断 足彩 王智 德甲 解盘 
科隆 VS 比勒菲尔德 初盘 高开 意图 明显 庄家 筹码 上盘 嫌疑 极大 科隆 有望 不败 
拜仁 慕尼黑 VS 多特蒙德 多特蒙德 客场 至多 连赢 极限 盘也 有意 冷落 主队 
汉堡 VS 不莱梅 半球盘 本赛季 尚无 平局 记录 适合 选择 
杜伊斯堡 VS 美因兹 初盘 极为 不符 庄家 利用 主队 已经 降级 题材 美因兹 嫌疑 
沙尔克 VS 斯图加特 初盘 主队 水位 偏高 目前 斯图加特 客场 路有 反弹 迹象 排除 客队 可能 

训练完成的词向量文件如下所示:第一行是词向量的条数和维度。

15 20
VS 0.020013 0.022097 -0.019151 -0.016390 0.006833 0.015105 0.004704 0.001057 -0.018018 0.011092 -0.021782 0.006248 -0.003757 -0.004786 -0.016579 -0.009411 0.012897 0.015127 0.014845 0.007987
初盘 0.007693 -0.018967 -0.020466 0.024825 0.019040 0.015461 -0.003025 0.020149 -0.002462 0.003626 -0.000768 -0.014950 0.006504 -0.006674 -0.019058 0.023742 0.021883 -0.005529 -0.001090 0.002513
客队 -0.018188 -0.020036 0.022774 0.000315 -0.012912 -0.015211 -0.015382 0.008485 0.001007 0.006655 -0.021068 -0.019039 -0.000650 0.005718 0.012749 -0.015850 0.020398 0.004635 0.005598 -0.003042
客场 0.014932 -0.011439 -0.010487 0.010792 -0.003766 0.005154 0.009023 -0.020443 -0.009915 0.014568 0.021159 0.019660 -0.015234 -0.010538 -0.004546 0.010007 -0.018942 0.014989 0.013939 -0.007995
主队 -0.007750 -0.011236 0.021236 0.019609 -0.005778 0.021135 0.024224 0.009164 0.024857 -0.015614 -0.007675 -0.010631 -0.014663 0.014050 0.008034 0.002098 -0.011031 0.007467 0.015391 0.000876
已经 0.011419 -0.024740 0.021474 0.002454 -0.009068 -0.010289 -0.003746 -0.014546 -0.021767 -0.014196 0.021319 -0.008875 -0.013376 0.011613 -0.008489 0.023771 -0.007968 -0.022923 0.013644 -0.000344
显示 -0.017444 0.004879 0.007210 -0.002407 0.009122 -0.019788 0.004405 0.009083 -0.015045 0.000710 -0.000304 -0.011996 -0.014163 -0.023469 0.000114 0.000764 0.000049 -0.019669 -0.024809 -0.023733
尤文图斯 -0.021628 -0.002735 0.006956 0.005921 -0.015912 0.024990 -0.010057 -0.006368 -0.007022 0.023663 -0.018819 0.005805 -0.006677 0.015939 0.000203 0.021348 -0.014096 -0.013026 -0.020961 -0.018334
乌迪内斯 -0.015997 -0.015574 0.012221 -0.009335 0.013400 0.018450 0.006779 0.014753 0.012378 0.011703 -0.017754 -0.017165 -0.018283 -0.000660 0.020653 -0.013683 -0.015302 -0.020982 0.016530 -0.020895
科隆 -0.002896 0.010894 -0.023091 -0.022393 0.007214 0.017623 0.021321 0.010728 0.015811 -0.015638 -0.018202 0.019874 -0.013824 0.008767 0.002870 0.008952 -0.005911 0.000994 -0.008430 -0.005633
庄家 -0.022181 -0.016407 0.017515 0.005170 -0.011805 -0.007914 0.012580 -0.017677 -0.011669 0.023722 0.021310 -0.019916 0.004310 -0.011295 0.000681 0.015143 0.024270 0.009833 0.020564 0.015712
嫌疑 -0.001188 0.022385 0.012687 0.023688 -0.008521 0.023697 0.021633 -0.007123 -0.022107 0.024156 0.004487 -0.010408 -0.003606 -0.003700 -0.019260 -0.007152 -0.002211 -0.024650 -0.017598 -0.006039
多特蒙德 -0.004566 0.008701 0.004184 -0.002898 0.014885 0.007425 0.002952 0.018191 -0.005542 -0.007308 -0.002137 -0.013698 -0.015125 0.001091 0.021833 -0.006802 -0.000246 -0.020732 0.018738 -0.007649
美因兹 0.014931 -0.012285 -0.004318 0.000548 0.018110 -0.000446 0.022263 -0.003785 0.010456 -0.000800 -0.019446 0.021221 0.005188 -0.015099 0.015043 -0.020609 -0.021879 0.016274 -0.017079 -0.013266
斯图加特 0.017639 0.016427 0.003426 0.022617 0.024283 0.020275 0.008824 -0.021752 0.011444 -0.024461 -0.006432 0.007560 0.004904 -0.007624 0.014690 -0.023040 -0.007056 -0.006559 -0.008281 0.015354

模型训练第一步:加载语料库,统计词频,(只保留词频大于等于2的词)

 /*** 此函数功能完成词频统计* 每个词的相关信息存储在VocabWord中,word是对应的词,cn是在语料库中出现的次数,codelen是huffman编码的长度,code是huffman编码,point是对应的前置结点** @throws IOException*/public void learnVocab() throws IOException{vocab = new VocabWord[vocabMaxSize];vocabIndexMap = new TreeMap<String, Integer>();//此处作者是用TreeMap和数组相结合的形式来存储的,vocabIndexMap的key是word,value是对应vocab中的下标vocabSize = 0;final File trainFile = new File(config.getInputFile());BufferedReader raf = null;FileInputStream fileInputStream = null;cache = null;vocabSize = 0;TrainingCallback callback = config.getCallback();try{fileInputStream = new FileInputStream(trainFile);raf = new BufferedReader(new InputStreamReader(fileInputStream, encoding));cacheFile = File.createTempFile(String.format("corpus_%d", System.currentTimeMillis()), ".bin");cache = new DataOutputStream(new FileOutputStream(cacheFile));while (true){String word = readWord(raf);//读取一个词if (word == null && eoc) break;trainWords++;if (trainWords % 100000 == 0)//这段代码是打印进度的,不用管{if (callback == null){System.err.printf("=======%c%.2f%% %dK", 13,(1.f - fileInputStream.available() / (float) trainFile.length()) * 100.f,trainWords / 1000);System.err.flush();}else{callback.corpusLoading((1.f - fileInputStream.available() / (float) trainFile.length()) * 100.f);}}int idx = searchVocab(word);//查询下vocabIndexMap中有没有出现过,出现过就词步加1,没有出现过就加到map里面if (idx == -1){idx = addWordToVocab(word);vocab[idx].cn = 1;} else {vocab[idx].cn++;}if (vocabSize > VOCAB_MAX_SIZE * 0.7)//这段代码是当此词汇非常大时,移除低词频的词{reduceVocab();idx = searchVocab(word);}cache.writeInt(idx);}}finally{Utility.closeQuietly(fileInputStream);Utility.closeQuietly(raf);Utility.closeQuietly(cache);System.err.println();}if (callback == null){System.err.printf("%c100%% %dK", 13, trainWords / 1000);System.err.flush();}else{callback.corpusLoading(100);callback.corpusLoaded(vocabSize, trainWords, trainWords);}}

模型训练第二步:对词频排序,从大到小,实现原理很简单就是实现comparable接口

@Overridepublic int compareTo(VocabWord that){return that.cn - this.cn;}

模型训练第三步:构建huffman树

 void createBinaryTree(){int[] point = new int[VocabWord.MAX_CODE_LENGTH];char[] code = new char[VocabWord.MAX_CODE_LENGTH];int[] count = new int[vocabSize * 2 + 1];char[] binary = new char[vocabSize * 2 + 1];//存储huffman编码int[] parentNode = new int[vocabSize * 2 + 1];//一组数组存储huffman树for (int i = 0; i < vocabSize; i++)count[i] = vocab[i].cn;for (int i = vocabSize; i < vocabSize * 2; i++)count[i] = Integer.MAX_VALUE;int pos1 = vocabSize - 1;int pos2 = vocabSize;// Following algorithm constructs the Huffman tree by adding one node at a timeint min1i, min2i;for (int i = 0; i < vocabSize - 1; i++){// First, find two smallest nodes 'min1, min2'if (pos1 >= 0){if (count[pos1] < count[pos2]){min1i = pos1;pos1--;}else{min1i = pos2;pos2++;}}else{min1i = pos2;pos2++;}if (pos1 >= 0){if (count[pos1] < count[pos2]){min2i = pos1;pos1--;}else{min2i = pos2;pos2++;}}else{min2i = pos2;pos2++;}count[vocabSize + i] = count[min1i] + count[min2i];parentNode[min1i] = vocabSize + i;parentNode[min2i] = vocabSize + i;binary[min2i] = 1;}System.out.println(Arrays.toString(count));System.out.println(Arrays.toString(parentNode));System.out.println(Arrays.toString(binary));// Now assign binary code to each vocabulary wordfor (int j = 0; j < vocabSize; j++){int k = j;int i = 0;while (true){code[i] = binary[k];point[i] = k;i++;k = parentNode[k];if (k == vocabSize * 2 - 2) break;}vocab[j].codelen = i;vocab[j].point[0] = vocabSize - 2;for (k = 0; k < i; k++){vocab[j].code[i - k - 1] = code[k];vocab[j].point[i - k] = point[k] - vocabSize;}}System.out.println(Arrays.toString(vocab));}

这段代码看起来有点晕,因为词汇量很大,我画了张图,最终构建的huffman如下所示,下面所有的模型训练都是基于这张huffman图

这里写图片描述

最终的词汇表如下所示:

这里写图片描述

cbow模型训练:
待续!

这篇关于hanlp源码解析word2vec词向量算法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/212330

相关文章

Linux中shell解析脚本的通配符、元字符、转义符说明

《Linux中shell解析脚本的通配符、元字符、转义符说明》:本文主要介绍shell通配符、元字符、转义符以及shell解析脚本的过程,通配符用于路径扩展,元字符用于多命令分割,转义符用于将特殊... 目录一、linux shell通配符(wildcard)二、shell元字符(特殊字符 Meta)三、s

Python中的随机森林算法与实战

《Python中的随机森林算法与实战》本文详细介绍了随机森林算法,包括其原理、实现步骤、分类和回归案例,并讨论了其优点和缺点,通过面向对象编程实现了一个简单的随机森林模型,并应用于鸢尾花分类和波士顿房... 目录1、随机森林算法概述2、随机森林的原理3、实现步骤4、分类案例:使用随机森林预测鸢尾花品种4.1

使用Python实现批量访问URL并解析XML响应功能

《使用Python实现批量访问URL并解析XML响应功能》在现代Web开发和数据抓取中,批量访问URL并解析响应内容是一个常见的需求,本文将详细介绍如何使用Python实现批量访问URL并解析XML响... 目录引言1. 背景与需求2. 工具方法实现2.1 单URL访问与解析代码实现代码说明2.2 示例调用

SSID究竟是什么? WiFi网络名称及工作方式解析

《SSID究竟是什么?WiFi网络名称及工作方式解析》SID可以看作是无线网络的名称,类似于有线网络中的网络名称或者路由器的名称,在无线网络中,设备通过SSID来识别和连接到特定的无线网络... 当提到 Wi-Fi 网络时,就避不开「SSID」这个术语。简单来说,SSID 就是 Wi-Fi 网络的名称。比如

SpringCloud配置动态更新原理解析

《SpringCloud配置动态更新原理解析》在微服务架构的浩瀚星海中,服务配置的动态更新如同魔法一般,能够让应用在不重启的情况下,实时响应配置的变更,SpringCloud作为微服务架构中的佼佼者,... 目录一、SpringBoot、Cloud配置的读取二、SpringCloud配置动态刷新三、更新@R

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

Java汇编源码如何查看环境搭建

《Java汇编源码如何查看环境搭建》:本文主要介绍如何在IntelliJIDEA开发环境中搭建字节码和汇编环境,以便更好地进行代码调优和JVM学习,首先,介绍了如何配置IntelliJIDEA以方... 目录一、简介二、在IDEA开发环境中搭建汇编环境2.1 在IDEA中搭建字节码查看环境2.1.1 搭建步

在C#中合并和解析相对路径方式

《在C#中合并和解析相对路径方式》Path类提供了几个用于操作文件路径的静态方法,其中包括Combine方法和GetFullPath方法,Combine方法将两个路径合并在一起,但不会解析包含相对元素... 目录C#合并和解析相对路径System.IO.Path类幸运的是总结C#合并和解析相对路径对于 C

Java解析JSON的六种方案

《Java解析JSON的六种方案》这篇文章介绍了6种JSON解析方案,包括Jackson、Gson、FastJSON、JsonPath、、手动解析,分别阐述了它们的功能特点、代码示例、高级功能、优缺点... 目录前言1. 使用 Jackson:业界标配功能特点代码示例高级功能优缺点2. 使用 Gson:轻量

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines