本文主要是介绍论文阅读:《Convolutional Neural Networks for Sentence Classification》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
重磅专栏推荐:
《大模型AIGC》
《课程大纲》
《知识星球》
本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域,包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用,以及与之相关的人工智能生成内容(AIGC)技术。通过深入的技术解析和实践经验分享,旨在帮助读者更好地理解和应用这些领域的最新进展
论文地址:http://xueshu.baidu.com/s?wd=paperuri%3A%287ea81182039becbb82a22aaae8099c15%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fde.arxiv.org%2Fpdf%2F1408.5882&ie=utf-8&sc_us=17214068522800736720
摘要
我们报告了一系列卷积神经网络(CNN)的实验,这些卷积神经网络是在预先训练过的词语向量的基础上进行训练以进行句子级别的分类任务。 我们展示了一个简单的CNN,带有超级参数调整和静态向量,可以在多个基准测试中取得优异的结果。 通过微调学习特定于任务的矢量可提高性能。 我们另外建议对体系结构进行简单的修改,以允许使用任务特定和静态向量。 本文讨论的CNN模型改进了7项任务中的4项任务的现有技术水平,其中包括情感分析和问题分类。
介绍
近年来,深度学习模型在计算机视觉(Krizhevsky等,2012)和语音识别(Graves等,2013)方面取得了显着成果。 在自然语言处理中,大部分深度学习方法的工作涉及通过神经语言模型学习单词向量表示(Bengio et al。,2003; Yih et al。,2011; Mikolov et al。,2013 )并在学习的单词向量上进行分类以进行分类(Collobert et al。,2011)。 其中单词从稀疏1-V编码(这里V是词汇量大小)通过隐藏层投影到较低维矢量空间上的单词向量实质上是特征提取器,它们对单词的语义特征进行维度编码。 在这样的密集表示中,语义上接近的词在低维矢量空间中同样接近欧几里得或余弦距离。
卷积神经网络(CNN)利用具有应用于局部特征的卷积滤波器的层(LeCun等,1998)。 最初发明用于计算机视觉的CNN模型随后被证明对NLP有效,并在语义分析(Yih等,2014),搜索查询检索(Shen等,2014),句子建模(Kalch - 布伦纳等人,2014年)以及其他传统的NLP任务(Collobert等,2011)。
在目前的工作中,我们训练一个简单的CNN,在从无监督的神经语言模型中得到的单词向量的顶部有一层卷积。 这些载体由Mikolov等人对1000亿字的Google新闻进行了培训,并且是公开可用的。我们最初将单词向量保持为静态,并且只学习模型的其他参数。 尽管对超参数进行了微调,但这个简单模型在多个基准测试中取得了优异的结果,表明预先训练好的向量是可用于各种分类任务的“通用”特征提取器。 通过微调学习任务特定的向量可以进一步改进。 我们最后描述了对架构的简单修改,以允许通过具有多个通道来使用预先训练的和任务特定的载体。
我们的工作在哲学上与Razavian等人的工作相似,这表明对于图像分类,从预先训练的深度学习模型获得的特征提取器在各种任务中表现良好 - 包括与原始任务非常不同的任务提取器接受了训练。
模型
图1所示的模型架构是Collobert等人CNN架构的一个细微变体。
图1:示例句子的两个通道的模型体系结构。
设 x i ∈ R k xi∈R_k xi∈Rk为句子中第i个单词对应的k维单词向量。 长度为n的句子(必要时填充)表示为
其中⊕是连接运算符。 一般来说,让 x i : i + j x_ {i:i + j}
这篇关于论文阅读:《Convolutional Neural Networks for Sentence Classification》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!