要分专题

BERT or Transformer中，MHSA中为什么要分多个Head？

之前面试被问过的一道题，这里整理一下~ 结论：模型的表达学习能力增强了输入到MHSA中的数据的shape应该为B × L × Embedding，B是Batch，L是序列长度而在MHSA中，数据的shape会被拆分为多个Head，所以shape会进一步变为： B × L × Head × Little_Embedding 以Transformer为例，原始论文中Embedding为

Redis 为什么要分16个库

目录一. 前言二. 16 个数据库的由来三. 正解 Redis 数据库概念四. 集群环境下的 Redis 实例五. 总结一. 前言在实际的项目中，Redis 常被用作缓存、分布式锁、消息队列等的解决方案。但是在搭建好Redis 服务后，Redis 默认创建了16个数据库（db0 - db15），而在 Redis 集群下只有一个 db0 数据库。如下图所示

创业泡沫的军功章，高薪低能的程序员要分走一半

今年 9 月阿里校招规模缩减，薪水也较往年有所下降。甚至还出现了不仅仅是产品、运营这样的非技术岗位受到了波及，就连核心开发岗位也未能幸免。甚至出现了给了 Offer 再拒绝学生的情况，让应届生们体验了一把「拥抱变化」。程序员云集的社区，如 v2ex、知乎立刻出现了对阿里巴巴的声讨。程序员们纷纷表示阿里巴巴在这件事情上的表现真是烂到极点，然后又惯例把阿里巴巴的 HR 制度批判一番，最