Intend Classification Engine

2024-02-17 11:38

本文主要是介绍Intend Classification Engine,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Data & Code

数据下载:
链接: https://pan.baidu.com/s/19WEMuPRQVP4yRMO6xJeLPg 提取码: uehm 复制这段内容后打开百度网盘手机App,操作更方便哦

写在前面,文中可能提及evaluationtestvalidation,这里的evaluationtest是同一个意思都是测试集,validation是验证集,在ICEv4的baseline中是没有validation的只有test。也就是直接训练完模型后看模型在test上的表现(test是有标签的)。

文件结构:

.
├── train_test_data
├── newest_train_with_norm
├── newest_validation_with_norm
├── DNN_multi_gpu_v4.py
├── label_dict.json
├──LoadData_TfidfFeature.py

其中DNN_multi_gpu_v4.py是主函数,使用的train和test数据分别在newest_train_with_normnewest_validation_with_norm中。在主函数中使用了LoadData_TfidfFeature.py将一个query各个词的tfidf填充到355001大小的vector中输入给DNN模型。

newest_train_with_norm中数据有trainSmall0.txt ~ trainSmall447.txt共448个文件,每个文件有15000个样本(除了最后一个文件trainSmall447.txt有4595样本),每个样本是一行。文件太多共30多G,我这里就放了一个文件。

newest_validation_with_norm数据是有标签的,预测完数据后自动调用函数输出top1 accuracy。label_dict.json为标签的词典。

ICEv4数据介绍

ICEv4是0.47的baseline,使用的数据如下所示。

trainSmall0.txt第一行举例:
2043802 12124:1,10857:2,10163:2,10018:2 15:0.05182752845352 26:0.0544780513904204 72:0.0583115046118085 ...

文件使用\t作为分割,第一列2043802为行的id,第二列12124:1,10857:2,10163:2,10018:212124为标签,后面带:2的都是标签的父节点或者爷爷节点等。第三列15:0.05182752845352 26:0.0544780513904204 72:0.0583115046118085中第一对数字15为token的id,第二个数字0.05182752845352为该token在当前query的tfidf值。后面的数字对也是这样的意思。

我使用的数据

train_test_data中是我目前使用的所有的数据包括训练数据和测试数据。

step2.trainMerge_multi_label_high_quality_repeat_resort_docid.txt第一行举例:
5784078 12699 rfid:0.24798 implant:0.16931 obamacare:0.25705 ...

和ICEv4不同之处就是我把query的数字对的第一个数字换成了真实的token。同样都是以\t分隔,第一列是样本的唯一id。第二列是样本的label,有的数据有多个label。第三列就是各个token和token对应的tfidf。

我的实验

DNN的baseline是0.47~0.48左右,我用bert做了几个实验,其中set1就是部分训练数据,set1+set2是所有训练数据,WordPiece是官方的bert分词,Term feature是用空格分词(30w词表)。bert做的几个实验如下所示:
在这里插入图片描述

  • 实验8在Bert之后加入LSTM效果变差了。实验9是先在bert后每个位置乘上了相应的tfidf值,再用LSTM效果相对与exp8低了0.1%

这篇关于Intend Classification Engine的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/717642

相关文章

MongoDB学习—(1)安装时出现The default storage engine 'wiredTiger' is not available问题解决

MongoDB是NoSql类型的一种基于分布式文件存储的数据库,其存储方式与关系型数据库不同。其详细解释可见于[百科]。安装文件可从官网下载,官网:http://mongodb.org 我将下载的解压文件放到D盘的mongodb文件夹下,

Google Earth Engine——高程数据入门和山体阴影和坡度的使用

目录 山体阴影和坡度 对图像应用计算 应用空间减速器 高程数据 通过从“重置”按钮下拉菜单中选择“清除脚本”来清除脚本。搜索“elevation”并单击 SRTM Digital Elevation Data 30m 结果以显示数据集描述。单击导入,将变量移动到脚本顶部的导入部分。将默认变量名称“image”重命名为“srtm”。使用脚本将图像对象添加到地图: Map

试用 Houdini Engine Python API

介绍 hapi 这个python包 是HoudiniEngine的一层python封装。 使用python的优势是灵活性,因为C代码总需要编译,使得迭代较慢。 Tips: hapi中的内容总可以查阅HoudiniEngine的文档,因为概念和函数是相同的。 使用环境 1. Houdini编辑器内:Python Shell 在其中可以 import hapi: 2. Houd

翻译Houdini官方对UE4新版插件的介绍:Houdini Engine for Unreal - V2

原视频:Houdini For Unreal - YouTube 目录 介绍0. 总览1. 简介HoudiniEngine2. UE4的HoudiniEngine - 第二版为什么要做“第二版” ?What's new? - 核心What's new? - 输出(1)What's new? - 输出(2)What's new? - 输入What's new? - 参数What's new?

Convolutional Neural Networks for Sentence Classification论文解读

基本信息 作者Yoon Kimdoi发表时间2014期刊EMNLP网址https://doi.org/10.48550/arXiv.1408.5882 研究背景 1. What’s known 既往研究已证实 CV领域著名的CNN。 2. What’s new 创新点 将CNN应用于NLP,打破了传统NLP任务主要依赖循环神经网络(RNN)及其变体的局面。 用预训练的词向量(如word2v

Google Earth Engine——导入无云 Sentinel-2 图像和NDVI计算

目录 搜索和导入无云 Sentinel-2 图像 Sentinel-2 的背景 打开 GEE 界面 定义您感兴趣的领域 查询 Sentinel-2 图像的存档 过滤图像集合 将图像添加到地图视图 定义真彩色可视化参数 探索影像 定义假色可视化参数 从波段组合中导出指数 NDVI 锻炼 本实验的目的是介绍 Google Earth Engine 处理环境。在本练习

unreal engine 5.4.4 runtime 使用PCG

Unreal PCG Runtime runtime环境下控制PCG PCG Graph 这里简单的在landscape上Spawn Static Mesh 和 Spawn Actor GraphSetting 自定义的参数,方便修改 场景 这里新建了一个蓝图Actor PCG_Ctrl, 用来runtime的时候控制PCG生成 Construct 获取场景中的PCG

liferay集成jQuery Validation Engine 表单验证及ajax的运用

jQuery Validation Engine是一款基于Jquery的js表单验证插件。相对于之前的传统表单验证工具,其优点是自定义验证内容更广泛以及与AJAX的方便整合。适用于日常的 E-mail、电话号码、网址等验证等及 Ajax 验证,除自身拥有丰富的验证规则外,还可以添加自定义的验证规则。兼容 IE 6+, Chrome,Firefox,,Safari, Opera 10+ 个人感觉

android-Intent,Injector,Template,Adapter,Validation,Gesture,Game,Game Engine,Bluetooth...

Intent Intent PhotoPicker 图片选择 & 图片预览https://github.com/donglua/PhotoPicker Injector AndroidAnnotations Fast Android Development. Easy maintainance. https://github.com/excilys/androidannotations

NLP-预训练模型-2017:ULMFiT(Universal LM Fine-tuning for Text Classification)【使用AWD-LSTM;模型没有创新;使用多个训练小技巧】

迁移学习在计算机视觉有很大的影响,但现在的NLP中的方法仍然需要特定任务的修改和 从头开始的训练。我们提出通用语言模型微调,一种可以应用NLP任何任务中的迁移学习方法。我们模型在分类任务中都表现得良好,并且在小数据集上的表现优异。 一、ULMFiT (Universal Language Model Fine- tuning)组成步骤: a) General-domain LM pretr