本文主要是介绍情感分析语料,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
因为项目要求,主要先收集英文的语料库来进行模型的训练。
一、英文
1.(可下载) 康奈尔大学(Cornell)提供的影评数据集 - http://www.cs.cornell.edu/people/pabo/movie-review-data/
由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句子各5,331 句,标注了主客观标签的句子各5,000 句.目前影评库被广泛应用于各种粒度的,如词语、句子和篇章级情感分析研究中.
2. 伊利诺伊大学芝加哥分校(UIC)的Hu 和Liu 提供的产品领域的评论语料:主要包括从亚马逊和Cnet 下载的五种电子产品的网络评论(包括两个品牌的数码相机,手机,MP3 和DVD 播放器).其中他们将这些语料按句
子为单元详细标注了评价对象,情感句的极性及强度等信息.因此,该语料适合于评价对象抽取和句子级主客观
识别,以及情感分类方法的研究.此外,Liu 还贡献了比较句研究[74]方面的语料.
3. (可下载)Janyce Wiebe 等人所开发的MPQA(Multiple-Perspective QA)库:包含535 篇不同视角的新闻评论,它是一个进行了深度标注的语料库.其中标注者为每个子句手工标注出一些情感信息,如观点持有者,评价对象,主观表达式以及其极性与强度.文献[75]描述了整个的标注流程.MPQA 语料适合于新闻评论领域任务的研究.
4. 麻省理工学院(MIT)的Barzilay 等人构建的多角度餐馆评论语料:共4,488 篇,每篇语料分别按照五个角度(饭菜,环境,服务,价钱,整体体验)分别标注上1~5 个等级.这组语料为单文档的基于产品属性的情感文摘提供
了研究平台.
5. Hownet - http://www.keenage.com/html/e_index.html
6. 多域情感数据集包含从亚马逊网站获得的来自4种产品类型(域)的产品评论:厨房,书籍,DVD和电子产品。每个域名都有几千条评论,但确切数量因域而异 - http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html
- huge ngrams dataset from google storage.googleapis.com/books/ngrams/books/datasetsv2.html
- http://www.sananalytics.com/lab/twitter-sentiment/
- http://inclass.kaggle.com/c/si650winter11/data
- http://nlp.stanford.edu/sentiment/treebank.html
- or you can look into this global ML dataset repository: https://archive.ics.uci.edu/ml
二、中文:
1. 酒店评论语料
- http://www.datatang.com/data/11936
谭松波整理的一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动采集,并经过整理而成。
2. 豆瓣网影评情感测试语料
- http://www.datatang.com/data/13539
来自豆瓣网对电影《ICE AGE3》的评论,评分标准均按照5 stars评分在网页中有标注。语料至527页。每页20条短评。共计11323条评论。
3. 酒店、电脑与书籍的评论语料
- http://www.datatang.com/data/11937
数据量不太大,也有一些重复的数据。
4. 评论网页数据集
- http://www.datatang.com/data/12044
数据量不小,包括的电影和评论都不少这篇关于情感分析语料的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!