文本检索粗读

2024-04-14 10:36
文章标签 粗读 文本检索

本文主要是介绍文本检索粗读,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一.前情提要

1.本文理论为主,并且仅为个人理解,能力一般,不喜勿喷

2.本文理论知识较为散碎

3.如有需要,以下是原文,更为完备

Neural Corpus Indexer 文档检索【论文精读·47】_哔哩哔哩_bilibili

二.正文

(本文争议较大,因为作者在实验的时候把测试集和训练集搞混了一部分造成实验数据精度很高)

1.通过端到端的神经网络,把训练和检索放到一起,能有效提高召回率。本文提出NCI的方法,这是一种基于sequence到sequence的网络,能直接针对特定文档返回ID

2.检索常用具体方法

①将查询和文档组成一对,再去计算相关性(最大的缺点就是价格昂贵),在你搜索某个单词,比如torch的时候,torch,这个单词是一串数字,它会遍历整个文件,找到符合条件的返回出来的就是torch,而不是数字

②有一种方法是基于语义的,会把document query映射为一个向量,这是一个embedding层

③本项目使用two tower来进行学习,如下图

(该图最上方长方形框是对query和document都抽象出一个特点

(但是这仍然具有缺点,缺点是单一向量的话,它会出现相错误的结果,比如苹果14和苹果13在搜索上是一样的)

④使用了ANN搜索,若为复杂搜索则不适用

具体算法简化如下:

将文本和ID对成一对,让神经网络记忆。并且query和doc会关联

⑤整体流程

                                                                        正上方该框代表组合后进入encoder

⑥层次来源

先整体k-mens聚类分为1,2,3,然后再提取关键特征,如图所示,11 12前面那个1就是关键特征,简而言之,就是先大分类,再不断小分类(并且因为是随机采样,所以多样性会好一点)

原本的输入如上图,但是作者认为持续性不够,所以自己人为添加了位置信息,比如原来是3 4 5 添加为13 14 15,并且他改变了共享权重,使之不一样,并且使用了额外编码器,来解决这一问题。(r0,r1等为输入)

⑧具体公式如下图

这篇关于文本检索粗读的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/902788

相关文章

【论文阅读|cryoET】本周粗读汇总

论文1:CryoDRGN-ET:深度重建生成网络以可视化细胞内动态生物分子 Abstract 虽然冷冻电子断层扫描可以以分子分辨率揭示结构,但图像处理算法仍然是解决原位生物分子结构异质性的瓶颈。本文介绍CryoDRGN-ET用于cryoET断层图的异质重建。CryoDRGN-ET直接从子断层扫描倾斜系列图像中学习三维密度图的深度生成模型,并且可以捕获成分和构象不同的状态。 通过原位恢复肺炎支原

机器学习-11-基于多模态特征融合的图像文本检索

总结 本系列是机器学习课程的系列课程,主要介绍机器学习中图像文本检索技术。此技术把自然语言处理和图像处理进行了融合。 参考 2024年(第12届)“泰迪杯”数据挖掘挑战赛 图像特征提取(VGG和Resnet特征提取卷积过程详解) 2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛——B 题:基于多模态特征融合的图像文本检索完整思路与源代码分享 【2024泰迪杯】B 题:基于多模态特征

论文:Term-Weighting Approaches in Automatic Text Retrieval翻译笔记(自动文本检索中的术语加权方法)

文章目录 论文标题:自动文本检索中的术语加权方法摘要1. 自动文本分析2. 词权重规范3. 术语加权实验4 推荐4.1 查询向量4.2 文档向量 论文标题:自动文本检索中的术语加权方法 论文链接:https://www.cs.colostate.edu/~howe/cs640/papers/salton_termWeighting.pdf 在自动文本检索中,术语加权

【2024第十二届“泰迪杯”数据挖掘挑战赛】B题基于多模态特征融合的图像文本检索—解题全流程(持续更新)

2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛B题 解题全流程(持续更新) -----基于多模态特征融合的图像文本检索 一、写在前面: ​ 本题的全部资料打包为“全家桶”, “全家桶”包含:数据、代码、模型、结果csv、教程、详细实验过程PPT、教学视频、论文借鉴大纲构思达到“以赛促学”的目的,从0到1,从环境配置开始,到模型构建、数据准备、模型训练、模型recall_TOP1、5、1

【大模型系列】根据文本检索目标(DINO/DINOv2/GroundingDINO)

文章目录 1 DINO(ICCV2021, Meta)1.1 数据增强1.2 损失函数 2 DINOv2(CVPR2023, Meta)2.1 数据采集方式2.2 训练方法 3 Grounding DINO3.1 Grounding DINO设计思路3.2 网络结构3.2.1 Feature Extraction and Enhancer3.2.2 Language-Guided Query

粗读Paint Transformer: Feed Forward Neural Painting with Stroke Prediction

作者本人在知乎写了更详细的文章,本博客只是提炼要点并作为个人笔记,想了解更详细的内容还是要看论文和作者的博客:[ICCV 2021 Oral] Paint Transformer - 基于笔触预测的快速油画渲染算法         本文思路是模拟笔画,从粗的笔画不断变细,达到绘制一副油画的效果。这种方法既可以保证生成图像与原图像相似,但同时保留油画的特点和质感。之前,网易实验室已

推荐系统论文粗读记录【三】

1.【FNN】《Deep Learning over Multi-field Categorical Data: A Case Study on User Response Prediction》 作者: Weinan Zhang and Tianming Du and Jun Wang 发布时间: 2016-01 来源: arXiv:1601.02376 引用数: 367 地址: https:

推荐系统论文粗读记录【一】

1.【FM】《Factorization Machines》 作者: Rendle, Steffen 发布时间: 2010-12 来源: 2010 IEEE International Conference on Data Mining 引用数: 2062 地址: https://doi.org/10.1109/ICDM.2010.127 笔记: FM将SVM模型的优势和因式分解模型结合。FM模

推荐系统论文粗读记录【二】

1.【MMoE】《Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts》 作者: Ma, Jiaqi and Zhao, Zhe and Yi, Xinyang and Chen, Jilin and Hong, Lichan and Chi, Ed H. 发布时间: 2018-

粗读PraNet: Parallel Reverse AttentionNetwork for Polyp Segmentation

本文架构如上图,十分简单明了。         通过RA模块,将深层的特征图做sigmoid处理,使其接近但不是二值图像,然后转变灰度,并将处理后的特征图直接与浅一层的特征图相乘。         这样做是因为模型在经过基层处理和深度监督后,已经基本能学会大致分割出病灶了,此时特征图中病灶为白,背景为黑。翻转灰度后,病灶为黑,背景为白。两种特征图相乘,要么是病灶分割得太小,