苏神博客阅读记录

本文主要是介绍苏神博客阅读记录，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

20220504

GAU-α：尝鲜体验快好省的下一代Attention

FLASH：可能是近来最有意思的高效Transformer设计

对attention的一个革新。标准的transformer是attention层和FFN层交替，FLASH这篇提出来利用GAU代替attention+FFN，命名为FLASH-Quad，然后采用分块混合注意力，提出了线性复杂度的FLASH.

20220505

GPLinker：基于GlobalPointer的事件联合抽取

事件联合抽取模型，第一次接触事件抽取，有点类似于NER。未接触过实际任务，理解不深，其中完全子图搜索应用新颖。

明日阅读：

GPLinker：基于GlobalPointer的实体关系联合抽取

Efficient GlobalPointer：少点参数，多点效果

20220506

Efficient GlobalPointer：少点参数，多点效果

这篇厉害了（因为思路刚好可以用于最近的模型），GlobalPointner的改进，把原来NER的打分函数根据识别和分类两部分进行修改，极大减少了参数量，并且效果算有所提升（在简单任务略微降低，复杂任务极大提升）。最近试试在我们的数据上Efficient GlobalPointner是不是会更好。

GPLinker：基于GlobalPointer的实体关系联合抽取

这篇很多部分没看懂，一方面是概率图模型不理解，一方面对比的TPLinker不理解。明天继续扩展看相关的来理解GPLinker。

明日阅读：

基于DGCNN和概率图的轻量级信息抽取模型

20220507

今天工作太忙了，没来得及看，明天继续上边计划。

20220509

基于DGCNN和概率图的轻量级信息抽取模型

这是一篇考古论文，2019年bert刚提出来没多久，模型没有用bert，还在研究各种字词位置编码，看的原因是想深入了解概率图模型。没想到惊喜很多：第一个是作者放弃当时常规的命名实体识别和关系抽取模型，自己设计了概率图模型的抽签结构；第二个是很多比赛技巧，比如远程监督的先验特征（把训练集里的所有三元组取出来构建成三元组知识库直接匹配）比如知识蒸馏（用训练出来的模型对质量不好的训练集进行改进）。后边这俩技巧其实在日常开发中也用处广泛。

明日阅读：

TPLinker

20220516

在bert4keras中使用混合精度和XLA加速训练

几个参数就可以加速训练，很方便实用。

TPLinker读了但是忘记记录了，没有印象了。。。下次再读一次吧。

这篇关于苏神博客阅读记录的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！