N-Gram原码分析

2024-03-14 21:58
文章标签 分析 gram 原码

本文主要是介绍N-Gram原码分析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

N表示词的长度,Gram表示按长度N切分原词得到的词段

1.N最小取值规则,如果原词的长度大于5,则最小值为3,如果原词的长度等于5,则最小值为2,否则最小值为1.

2.N最大值取值规则,如果原词长度大于5,则最大值为4,原词长度等于5,则最大值为3,否则最大值为2.

原码如下:

  //获取最小值private static int getMin(int l) {if (l > 5) {return 3;}if (l == 5) {return 2;}return 1;}//获取最大值private static int getMax(int l) {if (l > 5) {return 4;}if (l == 5) {return 3;}return 2;}

  例如:"中国人民在会堂",原词长度为7,最小值为3,最大值为4

3.获取grams,原码如下:

      

//ng为原词长度最小值与最大值之间的值for (int ng = getMin(lengthWord); ng <= getMax(lengthWord); ng++) {key = "gram" + ng; // form key//获取gramsgrams = formGrams(word, ng); // form word into ngrams (allow dups too)if (grams.length == 0) {continue; // hmm}if (bStart > 0) { // should we boost prefixes?add(query, "start" + ng, grams[0], bStart); // matches start of word}if (bEnd > 0) { // should we boost suffixesadd(query, "end" + ng, grams[grams.length - 1], bEnd); // matches end of word}for (int i = 0; i < grams.length; i++) {add(query, key, grams[i]);}}

    

    

 //此方法分割原词,组成gramprivate static String[] formGrams(String text, int ng) {//原词长度int len = text.length();//字符串数组(长度为原词长度减去N的长度再加1),ng为最小值到最大值之间的数String[] res = new String[len - ng + 1];for (int i = 0; i < len - ng + 1; i++) {//截取原词()res[i] = text.substring(i, i + ng);}return res;}

      将"中国人民大会堂"进行切分,分割出来的grams为[中国人, 国人民, 人民大, 民大会, 大会堂]

      [中国人民, 国人民大, 人民大会, 民大会堂],将"华贸中心"进行切分,分割出来的grams为

      [华, 贸, 中, 心],[华贸, 贸中, 中心]

这篇关于N-Gram原码分析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/809836

相关文章

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

Redis主从/哨兵机制原理分析

《Redis主从/哨兵机制原理分析》本文介绍了Redis的主从复制和哨兵机制,主从复制实现了数据的热备份和负载均衡,而哨兵机制可以监控Redis集群,实现自动故障转移,哨兵机制通过监控、下线、选举和故... 目录一、主从复制1.1 什么是主从复制1.2 主从复制的作用1.3 主从复制原理1.3.1 全量复制

Redis主从复制的原理分析

《Redis主从复制的原理分析》Redis主从复制通过将数据镜像到多个从节点,实现高可用性和扩展性,主从复制包括初次全量同步和增量同步两个阶段,为优化复制性能,可以采用AOF持久化、调整复制超时时间、... 目录Redis主从复制的原理主从复制概述配置主从复制数据同步过程复制一致性与延迟故障转移机制监控与维

Redis连接失败:客户端IP不在白名单中的问题分析与解决方案

《Redis连接失败:客户端IP不在白名单中的问题分析与解决方案》在现代分布式系统中,Redis作为一种高性能的内存数据库,被广泛应用于缓存、消息队列、会话存储等场景,然而,在实际使用过程中,我们可能... 目录一、问题背景二、错误分析1. 错误信息解读2. 根本原因三、解决方案1. 将客户端IP添加到Re

Redis主从复制实现原理分析

《Redis主从复制实现原理分析》Redis主从复制通过Sync和CommandPropagate阶段实现数据同步,2.8版本后引入Psync指令,根据复制偏移量进行全量或部分同步,优化了数据传输效率... 目录Redis主DodMIK从复制实现原理实现原理Psync: 2.8版本后总结Redis主从复制实

锐捷和腾达哪个好? 两个品牌路由器对比分析

《锐捷和腾达哪个好?两个品牌路由器对比分析》在选择路由器时,Tenda和锐捷都是备受关注的品牌,各自有独特的产品特点和市场定位,选择哪个品牌的路由器更合适,实际上取决于你的具体需求和使用场景,我们从... 在选购路由器时,锐捷和腾达都是市场上备受关注的品牌,但它们的定位和特点却有所不同。锐捷更偏向企业级和专

Spring中Bean有关NullPointerException异常的原因分析

《Spring中Bean有关NullPointerException异常的原因分析》在Spring中使用@Autowired注解注入的bean不能在静态上下文中访问,否则会导致NullPointerE... 目录Spring中Bean有关NullPointerException异常的原因问题描述解决方案总结

python中的与时间相关的模块应用场景分析

《python中的与时间相关的模块应用场景分析》本文介绍了Python中与时间相关的几个重要模块:`time`、`datetime`、`calendar`、`timeit`、`pytz`和`dateu... 目录1. time 模块2. datetime 模块3. calendar 模块4. timeit