达观杯--风险事件实验记录

2023-10-08 00:30

本文主要是介绍达观杯--风险事件实验记录,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

达观杯–风险事件实验记录

官方代码

#!/usr/bin/env python
# coding: utf-8import pandas as pd
from sklearn.model_selection import train_test_splitimport sys
sys.path.append("./")# ### 加载数据集,并切分train/dev# In[2]:# 加载数据
df_train = pd.read_csv("./datasets/phase_1/splits/fold_0/train.txt")
df_train.columns = ["id", "text", "label"]
df_val = pd.read_csv("./datasets/phase_1/splits/fold_0/dev.txt")
df_val.columns = ["id", "text", "label"]
df_test = pd.read_csv("./datasets/phase_1/splits/fold_0/test.txt")
df_test.columns = ["id", "text", ]# 构建词表
charset = set()
for text in df_train['text']:for char in text.split(" "):charset.add(char)
id2char = ['OOV', ',', '。', '!', '?'] + list(charset)
char2id = {id2char[i]: i for i in range(len(id2char))}# 标签集
id2label = list(df_train['label'].unique())
label2id = {id2label[i]: i for i in range(len(id2label))}# ### 定义模型# In[3]:# 定义模型from tensorflow.keras.layers import *
from tensorflow.keras.models import *
MAX_LEN = 128
input_layer = Input(shape=(MAX_LEN,))
layer = Embedding(input_dim=len(id2char), output_dim=256)(input_layer)
layer = Bidirectional(LSTM(256, return_sequences=True))(layer)
layer = Flatten()(layer)
output_layer = Dense(len(id2label), activation='softmax')(layer)
model = Model(inputs=input_layer, outputs=output_layer)
model.summary()
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as npX_train, X_val, X_test = [], [], []
y_train = np.zeros((len(df_train), len(id2label)), dtype=np.int8)
y_val = np.zeros((len(df_val), len(id2label)), dtype=np.int8)for i in range(len(df_train)):X_train.append([char2id[char] for char in df_train.loc[i, 'text'].split(" ")])y_train[i][label2id[df_train.loc[i, 'label']]] = 1
for i in range(len(df_val)):X_val.append([char2id[char] if char in char2id else 0 for char in df_val.loc[i, 'text'].split(" ")])y_val[i][label2id[df_val.loc[i, 'label']]] = 1
for i in range(len(df_test)):X_test.append([char2id[char] if char in char2id else 0 for char in df_test.loc[i, 'text'].split(" ")])X_train = pad_sequences(X_train, maxlen=MAX_LEN, padding='post', truncating='post')
X_val = pad_sequences(X_val, maxlen=MAX_LEN, padding='post', truncating='post')
X_test = pad_sequences(X_test, maxlen=MAX_LEN, padding='post', truncating='post')# ### 模型训练# In[5]:model.fit(x=X_train, y=y_train, validation_data=(X_val, y_val), epochs=5, batch_size=32)# In[19]:y_val_pred = model.predict(X_val).argmax(axis=-1)
print(y_val_pred[: 20])
y_val = []
for i in range(len(df_val)):y_val.append(label2id[df_val.loc[i, 'label']])
y_val = [int(w) for w in y_val]
print(y_val[: 20])from sklearn.metrics import classification_report
results = {}
classification_report_dict = classification_report(y_val_pred, y_val, output_dict=True)
for key0, val0 in classification_report_dict.items():if isinstance(val0, dict):for key1, val1 in val0.items():results[key0 + "__" + key1] = val1else:results[key0] = val0import json
print(json.dumps(results, indent=2, ensure_ascii=False))y_pred = model.predict(X_test).argmax(axis=-1)
pred_labels = [id2label[i] for i in y_pred]
pd.DataFrame({"id": df_test['id'], "label": pred_labels}).to_csv("submission.csv", index=False)

baseline f1-score
0.36730954652

StratifiedKFold 有放回交叉验证
20210901

dev macro-F101234avg
随机word2vec bilstm max-pool0.50197401053979820.53050473620153840.487120907159471260.487120907159471260.488103991753090660.501351448
随机word2vec textcnn max-pool0.4395620552615170.46484840733822890.442616125512826750.44570939244035070.4341243103527730.4453720582
随机word2vec bigru max-pool0.483426250238874640.50540704541556760.49331289220803780.52012172149033460.495564517284430630.499566485

submit 随机word2vec bilstm max-pool -> 0.56353646

20210902

dev macro-F101234avg
word2vec 128dim bilstm max-pool0.47087440684654240.478453412735319940.49494684981443540.474457750601617770.49207268228230060.48216102
word2vec 256dim bilstm max-pool0.50002424767355020.50747857754001520.488983134653656340.481419644085862740.50119122073624880.495819365

20210902

dev macro-F101234avg
word2vec bilstm dr_pool0.495509199632063360.49591742291327990.49756356181477690.49015137962620050.53642224670996690.503112762
word2vec bilstm slf_attn_pool0.5386909292600010.53488264227098110.53442791393901430.52971579211678130.50876949075931670.529297354
word2vec bilstm avg_pool0.50002424767355020.50747857754001520.488983134653656340.481419644085862740.50119122073624880.495819365
word2vec bilstm max_pool0.53783731233296860.54301060486485180.53966150432342090.53740386741775140.53642224670996690.538867107

有点过拟合

20210907

dev macro-F101234avg
bert-base-chinese+random0.50870.47650.49420.51020.49360.49664
bert-base-chinese+w2v0.51520.48650.50790.50370.5080.50426
chinese-bert-wwm-ext+random0.52810.48540.5120.50860.51590.51
chinese-bert-wwm-ext+w2v0.510.48690.50640.5050.50540.50274
chinese-roberta-wwm-ext+random0.5050.47990.50290.50730.49540.4981
chinese-roberta-wwm-ext+w2v0.50570.47860.49930.49170.49030.49312

20210908

dev macro-F101234avg
chinese-roberta-wwm-ext+counts0.53290.51010.51410.54120.52590.52484
chinese-roberta-wwm-ext + dict_vocab2freq0.52460.50720.50910.51390.51030.51302
chinese-roberta-wwm-ext + dict_vocab2freq_wiki_zh0.51550.50490.50750.52930.50910.51326
chinese-bert-wwm-ext + counts0.53520.514xx0.53040.50280.5206
chinese-bert-wwm-ext_dict + vocab2freq_08190.5254xxxx0.51510.51860.5197
chinese-bert-wwm-ext + dict_vocab2freq_wiki_zh0.52170.5105xx0.52740.52560.5213


*20210910
NEZHA 脱敏+counts

dev macro-F101234avg
NEZHA-Base + counts0.51910.50780.51780.51690.54690.5217
NEZHA-Base-WWM + counts0.54940.52580.50910.53250.52530.52948


Roberta 脱敏 + 预训练 + counts

dev macro-F101234avg
chinese-roberta-wwm-ext + pretrain + counts0.54270.52030.52370.5270.52860.52846

这篇关于达观杯--风险事件实验记录的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/161476

相关文章

禁止平板,iPad长按弹出默认菜单事件

通过监控按下抬起时间差来禁止弹出事件,把以下代码写在要禁止的页面的页面加载事件里面即可     var date;document.addEventListener('touchstart', event => {date = new Date().getTime();});document.addEventListener('touchend', event => {if (new

Node.js学习记录(二)

目录 一、express 1、初识express 2、安装express 3、创建并启动web服务器 4、监听 GET&POST 请求、响应内容给客户端 5、获取URL中携带的查询参数 6、获取URL中动态参数 7、静态资源托管 二、工具nodemon 三、express路由 1、express中路由 2、路由的匹配 3、路由模块化 4、路由模块添加前缀 四、中间件

记录每次更新到仓库 —— Git 学习笔记 10

记录每次更新到仓库 文章目录 文件的状态三个区域检查当前文件状态跟踪新文件取消跟踪(un-tracking)文件重新跟踪(re-tracking)文件暂存已修改文件忽略某些文件查看已暂存和未暂存的修改提交更新跳过暂存区删除文件移动文件参考资料 咱们接着很多天以前的 取得Git仓库 这篇文章继续说。 文件的状态 不管是通过哪种方法,现在我们已经有了一个仓库,并从这个仓

STM32(十一):ADC数模转换器实验

AD单通道: 1.RCC开启GPIO和ADC时钟。配置ADCCLK分频器。 2.配置GPIO,把GPIO配置成模拟输入的模式。 3.配置多路开关,把左面通道接入到右面规则组列表里。 4.配置ADC转换器, 包括AD转换器和AD数据寄存器。单次转换,连续转换;扫描、非扫描;有几个通道,触发源是什么,数据对齐是左对齐还是右对齐。 5.ADC_CMD 开启ADC。 void RCC_AD

学习记录:js算法(二十八):删除排序链表中的重复元素、删除排序链表中的重复元素II

文章目录 删除排序链表中的重复元素我的思路解法一:循环解法二:递归 网上思路 删除排序链表中的重复元素 II我的思路网上思路 总结 删除排序链表中的重复元素 给定一个已排序的链表的头 head , 删除所有重复的元素,使每个元素只出现一次 。返回 已排序的链表 。 图一 图二 示例 1:(图一)输入:head = [1,1,2]输出:[1,2]示例 2:(图

FreeRTOS内部机制学习03(事件组内部机制)

文章目录 事件组使用的场景事件组的核心以及Set事件API做的事情事件组的特殊之处事件组为什么不关闭中断xEventGroupSetBitsFromISR内部是怎么做的? 事件组使用的场景 学校组织秋游,组长在等待: 张三:我到了 李四:我到了 王五:我到了 组长说:好,大家都到齐了,出发! 秋游回来第二天就要提交一篇心得报告,组长在焦急等待:张三、李四、王五谁先写好就交谁的

HNU-2023电路与电子学-实验3

写在前面: 一、实验目的 1.了解简易模型机的内部结构和工作原理。 2.分析模型机的功能,设计 8 重 3-1 多路复用器。 3.分析模型机的功能,设计 8 重 2-1 多路复用器。 4.分析模型机的工作原理,设计模型机控制信号产生逻辑。 二、实验内容 1.用 VERILOG 语言设计模型机的 8 重 3-1 多路复用器; 2.用 VERILOG 语言设计模型机的 8 重 2-1 多

【经验交流】修复系统事件查看器启动不能时出现的4201错误

方法1,取得『%SystemRoot%\LogFiles』文件夹和『%SystemRoot%\System32\wbem』文件夹的权限(包括这两个文件夹的所有子文件夹的权限),简单点说,就是使你当前的帐户拥有这两个文件夹以及它们的子文件夹的绝对控制权限。这是最简单的方法,不少老外说,这样一弄,倒是解决了问题。不过对我的系统,没用; 方法2,以不带网络的安全模式启动,运行命令行,输入“ne

BT天堂网站挂马事件后续:“大灰狼”远控木马分析及幕后真凶调查

9月初安全团队披露bt天堂网站挂马事件,该网站被利用IE神洞CVE-2014-6332挂马,如果用户没有打补丁或开启安全软件防护,电脑会自动下载执行大灰狼远控木马程序。 鉴于bt天堂电影下载网站访问量巨大,此次挂马事件受害者甚众,安全团队专门针对该木马进行严密监控,并对其幕后真凶进行了深入调查。 一、“大灰狼”的伪装 以下是10月30日一天内大灰狼远控的木马样本截图,可以看到该木马变种数量不

perl的学习记录——仿真regression

1 记录的背景 之前只知道有这个强大语言的存在,但一直侥幸自己应该不会用到它,所以一直没有开始学习。然而人生这么长,怎就确定自己不会用到呢? 这次要搭建一个可以自动跑完所有case并且打印每个case的pass信息到指定的文件中。从而减轻手动跑仿真,手动查看log信息的重复无效低质量的操作。下面简单记录下自己的思路并贴出自己的代码,方便自己以后使用和修正。 2 思路整理 作为一个IC d