cs224n专题

CS224N连载系列_word2vec作业的解析（2）

所有的语言模型的发展都离不开最基础的模型，统计语言模型是最重要的一环，word2vec也是如此，统计语言模型是用来计算一个句子的概率的概率模型，通常是基于一个语料库来构建，那什么叫一个句子的概率呢？ 1、softmax softmax 函数通常处理机器学习分类问题的输出层的激活函数，它的输入是一个实数向量，输出向量的长度是与输入向量相同，但所有的取值范围是（0，1），且所有元素的和为1，输出向

CS224N第二课作业--word2vec与skipgram

文章目录 CS224N: 作业2 word2vec (49 Points)1. Math: 理解 word2vec计算 J n a i v e − s o f t m a x ( v c , o , U ) J_{naive-softmax}(v_c, o, U) Jnaive−softmax(vc,o,U) 关于 v c v_c vc 的偏导数计算 J n a i v e −

2021斯坦福CS224N课程笔记~4

4. 依存解析 Dependency Parsing 参考文档： https://zhuanlan.zhihu.com/p/420736640 https://www.showmeai.tech/article-detail/237 https://zhuanlan.zhihu.com/p/147321515 https://zhuanlan.zhihu.com/p/49992664 htt

【2019斯坦福CS224N笔记】（4）反向传播

csdn：https://blog.csdn.net/abcgkj github：https://github.com/aimi-cn/AILearners 上节课我们主要讲述了神经网络的一些基础知识和命名实体识别。但到目前为止，我们还没有对训练过程中的参数做出过多的描述。那么我们是如何对参进行更新的呢？这就是本文的主题——反向传播。那么什么是反向传播呢？维基百科上是这样定义的：反

CS224n | (2) Word Vectors and Word Senses

原文地址 cs224n系列博客笔记主要基于cs224n-2019，后续也会新增 CS224n-2020 里的更新部分：CS224n-2020 并未更新 Note 部分，但课程的部分课件进行了教学顺序上的调整与修改(Suggested Readings 也相应变动)，需要注意的是三个 Guest Lecture 都是全新的。本文为 Lecture 02 Word Vectors and Wor

斯坦福CS224n课程笔记1-introduction and Word vectors 2019

Human language and word meaning 语言是一个低带宽的信息传输方式，相比于5G，这决定了语言的熵会很高。 How do we have usable meaning in a computer? one-hot的字词表示：词语维度是很高的，而且有很多衍生的词语，接近于无限的维度。词语之间没有相似度，即one-hot向量是正交的，相似词语和不相似词语之间都是正交

CS224n笔记12 语音识别的end-to-end模型

本文转自：http://www.hankcs.com/nlp/cs224n-end-to-end-asr.html 　　这次斯坦福请到了深度学习教父Hinton的弟子Navdeep来讲语音识别，他正在英伟达工作，怪不得N卡在深度学习中的地位如此之高。而他本人也在用Dell的搭载了N卡的XPS跑Ubuntu，一改以往“讲台必定信仰灯”的局面。 Automatic Speech Recognitio

斯坦福大学NLP课程CS224N课第一次作业第三部分（上）

斯坦福大学NLP课程CS224N课第一次作业第三部分（上） CS224N课程还是有点难度的，第一次作业就需要手写word2vec了，不过如果知道wordvec的原理的话，写起来还是比较简单的，主要工作其实都在求导上，我们下面从Word2vec的原理层一点点的解开word2vec的神秘面纱。 1. word2vec原理可能很多人都用过word2vec的包，但是还不知道原理，可能有的人觉得没有

【2019斯坦福CS224N笔记】（6）RNN和与语言模型

csdn：https://blog.csdn.net/abcgkj github：https://github.com/aimi-cn/AILearners 一、传统的语言模型 1.什么是语言模型语言建模是一项基准测试任务，它帮助我们衡量我们在理解语言方面的进展。语言建模是许多NLP任务的子组件，特别是那些涉及生成文本或估计文本概率的任务：预测输入、语音识别、手写识别、拼写/语法修正

cs224n Lecture 3: GloVe skipgram cbow lsa 等方法对比 / 词向量评估 /超参数调节总结

生成词向量的方法以前大致有两种方法： ①是Matrix Factorization Method，主要代表是SVD Based的LSA等方法，核心是对共现矩阵（co-occurence）进行SVD（奇异值）分解，得到词向量。 ②是Iteration Based Method（Shallow window-based），主要代表是上节课讲到的Skip-Gram和CBOW。核心是概率，通过设置

【NLP CS224N笔记】Lecture 2 - Word Vectors2 and Word Senses

本次梳理基于Datawhale 第12期组队学习 -CS224n-预训练模块详细课程内容参考(2019)斯坦福CS224n深度学习自然语言处理课程 1. 写在前面自然语言处理( NLP )是信息时代最重要的技术之一，也是人工智能的重要组成部分。NLP的应用无处不在，因为人们几乎用语言交流一切：网络搜索、广告、电子邮件、客户服务、语言翻译、医疗报告等。近年来，深度学习方法在许多不同的NLP任

【CS224n】笔记45 Word Window分类与神经网络和反向传播

这节课介绍了根据上下文预测单词分类的问题，推导了对权值矩阵和词向量的梯度，初步展示了深度学习与传统机器学习方法不一样的风格。笔记概要 1、分类的一些主要符号 2、主要思想 2.1、机器学习角度的分类 2.2、基于softmax分类器的定义 2.3、softmax分类器损失函数定义 2.4、需要更新的参数 2.5、参数过多导致的过拟合&&正则化解决方式 2.6、softmax分类器损失函数

CS224N学习笔记(十七）Multitask learning

Multitask指多任务学习，大致意思是一个NLP的模型可以完成多种任务。一、单任务学习的局限和特点由于{dataset，task，model，metric}等的发展，近年来single-task取得了很好的效果当训练集足够大，能够很容易局部最优对于通常更常用的AI，需要针对single-model的持续的学习(continus-learning)，即很多时候不需要从头开始，顺着上次的结

CS224N学习笔记(十六）Coreference Resolution

1.What is Coreference Resolution? Coreference Resolution 共指消解，一种语言中的语法现象，表示句子中多个指示（mention）指代同一个世界中的实体的情况，比如在下面的英文中，红色都指代奥巴马，黄色都指代希拉里，这种现象称为共指（coreference）。 Applications 共指能够影响对句子的理解，因此在很多地方都有应用：