本文主要是介绍【数据应用案例】知乎瓦力机器人识别“阴阳怪气”回复,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
案例来源:@AI科技评论
案例地址:https://mp.weixin.qq.com/s/eVbRkwQu0BQKTblKMZAsfA
1. 目标:知乎中有“你可真是棒棒的”、“你开心就好”等评论,识别并过滤这些评论有助于提高社区讨论质量
2. 数据获取:
1)根据“举报”和“踩”,得到“阴阳怪气”样本
2)通过同义词替换,扩大样本量
3)根据提取的阴阳怪气样本,随机构造评论做数据增强,提高模型泛化能力
3. 特征工程
1)文本特征:加入阴阳怪气词库后,进行分词,保留标点、表情
2)数值特征:句子长度,句号数量,感叹号数量
3)embedding特征:利用知乎全量文本数据训练word2vec模型,
4. 分类器:
1)采用CNN做分类器,原因是可以捕获字词的位置关系
2)对评论上文和评论本身分别训练CNN模型,训练各自参数
3)然后评论上文的卷积输出进行 dot-attention 目的是获取评论上文与评论不同的权重
4)最后将特征数据全连接层以 softmax 方式进行分类
5. 效果示例
6. 缺陷:
1)样本不足
2)出现过拟合,如“哈哈哈”容易错分为阴阳怪气样本
7. 改进点
1)通过主动学习(Active Learning)提高标注样本量
2)加入语义分析信息
3)背景知识:对于体育、明星等领域单独建模
这篇关于【数据应用案例】知乎瓦力机器人识别“阴阳怪气”回复的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!