本文主要是介绍CNS级别文章标题画一个词云,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
作业4-1:https://mp.weixin.qq.com/s/GHaulIJt5ebvu_x3_x6ptQ
相关代码仍然参考:Word-cloud
TCGA-2018 文章
2018的TCGA的泛癌项目论文全部发表在Cell及其子刊上,文本文件如下:
词云代码:
library("tm")
library("SnowballC")
library("wordcloud")
library("RColorBrewer")##文本挖掘
#加载文本
#导入文本文件
text<-readLines(file.choose())
filePath<-"D:/生信学习/作业4-1/2020nature.txt"
text<-readLines(filePath)
#将数据加载为语料库
#docs<-Corpus(VectorSource(text)) #VectorSource()函数创建字符向量语料库
docs<-VCorpus(VectorSource(text))
#检查文档内容
inspect(docs)#文字转换
#使用tm_map()函数执行转换以替换文本中的特殊字符等
toSpace<-content_transformer(function(x,pattern)gsub(pattern,"",x))#gsub函数:R语言字符串替换函数
docs<-tm_map(docs,toSpace,"/")
docs<-tm_map(docs,toSpace,"@")
docs<-tm_map(docs,toSpace,"\\|")#清理文本
docs<-tm_map(docs,content_transformer(tolower)) #将文本转换成小写
docs<-tm_map(docs,removeNumbers) #移除数字
#docs<-tm_map(docs,removeWords,stopwords("pdf")) #移除停用词
docs<-tm_map(docs,removeWords,c("and","the"))#移除该文本停用词
docs<-tm_map(docs,removePunctuation) #移除标点符号
docs<-tm_map(docs,stripWhitespace) #消除额外空白空间
#docs<-tm_map(docs,stemDocument) #词干提取##构建term-document矩阵
dtm<-TermDocumentMatrix(docs) #TermDocumentMatrix函数来自text mining包
m<-as.matrix(dtm)
v<-sort(rowSums(m),decreasing=TRUE)
d<-data.frame(word=names(v),freq=v)
head(d,10)##生成词云
set.seed(1234)
wordcloud(words=d$word,freq=d$freq,min.freq=1,max.words=200,random.order=FALSE,rot.per=0.35,colors=brewer.pal(8,"Dark2"))
结果如图:
TCGA-2020 文章
2020的Nature及其子刊的22篇全基因组的泛癌分析(Pan-Cancer Analysis of Whole Genomes) ,文本文件为:
代码和上面大致一样,结果如下:
这篇关于CNS级别文章标题画一个词云的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!