心法利器[99] | 无监督字面相似度cqr/ctr源码

2023-12-31 14:59

本文主要是介绍心法利器[99] | 无监督字面相似度cqr/ctr源码,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

心法利器

本栏目主要和大家一起讨论近期自己学习的心得和体会,与大家一起成长。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。

2022年新一版的文章合集已经发布,累计已经60w字了,获取方式看这里:CS的陋室60w字原创算法经验分享-2022版。(2023在路上了!)

往期回顾

  • 心法利器[89] | 实用文本生成中的解码方法

  • 心法利器[90-95] | 谈校招:合集

  • 心法利器[96] | 写了个向量检索的baseline

  • 心法利器[97] | 判断问题是否真的需要大模型来解决

  • 心法利器[98] | 除了训练,大模型还有很多重要工作

很早之前,我曾经分享过一套字面相似度的方案:心法利器[18] | cqr&ctr:文本匹配的破城长矛,这套方案其实在我的日常中是经常被用到的,效果也还凑合,相比于经典的BM25,这种可归一化的计算一定程度缓解了因为长度导致的计算准确性问题,这次我也写了一套代码,方便大家快速使用。

先回顾

快速起见,我直接给出加权的计算方法。

给定query,有对应的权重和title,以及对应权重,现在计算cqr和ctr:

有关词权重的计算,我之前是已经有写文章,给出一个baseline很高的方案,并附带源码了:心法利器[33] | 快速的关键词抽取baseline,这里就不赘述了,当然了,简单起见,其实直接用idf就可以,例如jieba的源码内就有一份用人民日报训练的idf词典数据(idf.txt)。

有关这块的优缺点,为方便大家做方案权衡选择,可以参考下:

首先说优点:

  • 能够体现字面的相似度,在一些领域下体验比较好。

  • 性能耗时比语义相似度模型好很多。

  • 无监督甚至不用训练,词权重的话用语料就可以训练了。

  • 效果稳定可追踪,也方便快速增加一些策略,灵活性高。

  • 准确率其实挺高的。

当然,还是有缺点的。

  • 文本层面的匹配无法体现语义,同义词、统一表达之类的无法体现,导致召回率会比较低。

  • 对切词敏感,类似“充不进去电”和“充电”就完全匹配不上。

这类型的方法,非常适合前期在时间不足时做的baseline,毕竟前期开荒时间上很紧张,各个功能和基础工作需要花很多时间,且数据资源不够,别说训练集了,测试集都很难,此时模型很难做起来。先上cqrctr计算把baseline做好,然后进行深度学习实验,用加权的方式进行融合,然后加入模型中作为特征(在一些场景,尽量还是不要扔掉字面的特征的),整个流程十分顺滑,冷启动速度也比较快。

代码

终于到了代码环节,我这里直接上代码了,正式代码其实也没几行。

import jieba
import numpy as npclass TokenDistance():def __init__(self, idf_path):idf_dict = {}tmp_idx_list = []with open(idf_path, encoding="utf8") as f:for line in f:ll = line.strip().split(" ")idf_dict[ll[0]] = float(ll[1])tmp_idx_list.append(float(ll[1]))self._idf_dict = idf_dictself._median_idf = np.median(tmp_idx_list)def predict_jaccard(self, q1, q2):# jaccard距离,根据idf加权if len(q1) < 1 or len(q2) < 1:return 0q1 = set(list(jieba.cut(q1)))q2 = set(list(jieba.cut(q2)))print(q1.intersection(q2))print(q1.union(q2))numerator = sum([self._idf_dict.get(word, self._median_idf) for word in q1.intersection(q2)])denominator  = sum([self._idf_dict.get(word, self._median_idf) for word in q1.union(q2)])return numerator / denominatordef predict_left(self, q1, q2):# 单向相似度,分母为q1,根据idf加权if len(q1) < 1 or len(q2) < 1:return 0q1 = set(list(jieba.cut(q1)))q2 = set(list(jieba.cut(q2)))numerator = sum([self._idf_dict.get(word, self._median_idf) for word in q1.intersection(q2)])denominator  = sum([self._idf_dict.get(word, self._median_idf) for word in q1])return numerator / denominatordef predict_cqrctr(self, q1, q2):# cqr*ctrif len(q1) < 1 or len(q2) < 1:return 0cqr = self.predict_left(q1, q2)ctr = self.predict_left(q2, q1)return cqr * ctrif __name__ == "__main__":import sysq1 = sys.argv[1]q2 = sys.argv[2]token_distance = TokenDistance("./data/idf.txt")print(q1, q2)print(token_distance.predict_jaccard(q1, q2))print(token_distance.predict_left(q1, q2))print(token_distance.predict_cqrctr(q1, q2))

说明:

  • 此处的加权,用的jieba的idf.txt,直接加载成dict就能查了。

  • 对于未登录词,词权重词典里没有的,一般用整个词典的中位数来计算。

  • 这里附上jaccard距离,和ctr、cqr不同的是,他的分母用的是q1和q2的并集,而不只是q1或者q2本身。

  • 因为cqr和ctr本质上只是分母的选择不同,所以我写成一个函数,要把谁做分母,就把谁放q1的位置就行。

  • cqrctr的计算,其实就是把两者相乘,这个是比较简单的。

后记

真不要小看每一个方法,很多时候这些看起来没什么技术含量的方法,其实会有奇效,而且在现阶段,可能反而是经验的体现,从现在的新人来看,往往对前沿的知识有比较好的了解,然而在实际应用中,会出现很多问题,导致新方法并不那么适合。最近是又重新用起来了这个方案,发现还挺适合,所以记录下来,希望对大家有帮助吧。

ac31582183c5dff390580cd1009f803d.png

这篇关于心法利器[99] | 无监督字面相似度cqr/ctr源码的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/556374

相关文章

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

工厂ERP管理系统实现源码(JAVA)

工厂进销存管理系统是一个集采购管理、仓库管理、生产管理和销售管理于一体的综合解决方案。该系统旨在帮助企业优化流程、提高效率、降低成本,并实时掌握各环节的运营状况。 在采购管理方面,系统能够处理采购订单、供应商管理和采购入库等流程,确保采购过程的透明和高效。仓库管理方面,实现库存的精准管理,包括入库、出库、盘点等操作,确保库存数据的准确性和实时性。 生产管理模块则涵盖了生产计划制定、物料需求计划、

键盘快捷键:提高工作效率与电脑操作的利器

键盘快捷键:提高工作效率与电脑操作的利器 在数字化时代,键盘快捷键成为了提高工作效率和优化电脑操作的重要工具。无论是日常办公、图像编辑、编程开发,还是游戏娱乐,掌握键盘快捷键都能带来极大的便利。本文将详细介绍键盘快捷键的概念、重要性、以及在不同应用场景中的具体应用。 什么是键盘快捷键? 键盘快捷键,也称为热键或快捷键,是指通过按下键盘上的一组键来完成特定命令或操作的方式。这些快捷键通常涉及同

Spring 源码解读:自定义实现Bean定义的注册与解析

引言 在Spring框架中,Bean的注册与解析是整个依赖注入流程的核心步骤。通过Bean定义,Spring容器知道如何创建、配置和管理每个Bean实例。本篇文章将通过实现一个简化版的Bean定义注册与解析机制,帮助你理解Spring框架背后的设计逻辑。我们还将对比Spring中的BeanDefinition和BeanDefinitionRegistry,以全面掌握Bean注册和解析的核心原理。

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

kubelet组件的启动流程源码分析

概述 摘要: 本文将总结kubelet的作用以及原理,在有一定基础认识的前提下,通过阅读kubelet源码,对kubelet组件的启动流程进行分析。 正文 kubelet的作用 这里对kubelet的作用做一个简单总结。 节点管理 节点的注册 节点状态更新 容器管理(pod生命周期管理) 监听apiserver的容器事件 容器的创建、删除(CRI) 容器的网络的创建与删除

red5-server源码

red5-server源码:https://github.com/Red5/red5-server

TL-Tomcat中长连接的底层源码原理实现

长连接:浏览器告诉tomcat不要将请求关掉。  如果不是长连接,tomcat响应后会告诉浏览器把这个连接关掉。    tomcat中有一个缓冲区  如果发送大批量数据后 又不处理  那么会堆积缓冲区 后面的请求会越来越慢。