CNS级别文章标题画一个词云

2023-10-25 15:50
文章标签 文章 级别 标题 词云 cns

本文主要是介绍CNS级别文章标题画一个词云,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

作业4-1:https://mp.weixin.qq.com/s/GHaulIJt5ebvu_x3_x6ptQ
相关代码仍然参考:Word-cloud

TCGA-2018 文章

2018的TCGA的泛癌项目论文全部发表在Cell及其子刊上,文本文件如下:
在这里插入图片描述
词云代码:

library("tm")
library("SnowballC")
library("wordcloud")
library("RColorBrewer")##文本挖掘
#加载文本
#导入文本文件
text<-readLines(file.choose())
filePath<-"D:/生信学习/作业4-1/2020nature.txt"
text<-readLines(filePath)
#将数据加载为语料库
#docs<-Corpus(VectorSource(text)) #VectorSource()函数创建字符向量语料库
docs<-VCorpus(VectorSource(text))
#检查文档内容
inspect(docs)#文字转换
#使用tm_map()函数执行转换以替换文本中的特殊字符等
toSpace<-content_transformer(function(x,pattern)gsub(pattern,"",x))#gsub函数:R语言字符串替换函数
docs<-tm_map(docs,toSpace,"/")
docs<-tm_map(docs,toSpace,"@")
docs<-tm_map(docs,toSpace,"\\|")#清理文本
docs<-tm_map(docs,content_transformer(tolower)) #将文本转换成小写
docs<-tm_map(docs,removeNumbers) #移除数字
#docs<-tm_map(docs,removeWords,stopwords("pdf")) #移除停用词
docs<-tm_map(docs,removeWords,c("and","the"))#移除该文本停用词
docs<-tm_map(docs,removePunctuation) #移除标点符号
docs<-tm_map(docs,stripWhitespace) #消除额外空白空间
#docs<-tm_map(docs,stemDocument) #词干提取##构建term-document矩阵
dtm<-TermDocumentMatrix(docs) #TermDocumentMatrix函数来自text mining包
m<-as.matrix(dtm)
v<-sort(rowSums(m),decreasing=TRUE)
d<-data.frame(word=names(v),freq=v)
head(d,10)##生成词云
set.seed(1234)
wordcloud(words=d$word,freq=d$freq,min.freq=1,max.words=200,random.order=FALSE,rot.per=0.35,colors=brewer.pal(8,"Dark2"))

结果如图:
在这里插入图片描述

TCGA-2020 文章

2020的Nature及其子刊的22篇全基因组的泛癌分析(Pan-Cancer Analysis of Whole Genomes) ,文本文件为:
在这里插入图片描述
代码和上面大致一样,结果如下:
在这里插入图片描述

这篇关于CNS级别文章标题画一个词云的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/283584

相关文章

java计算机毕设课设—停车管理信息系统(附源码、文章、相关截图、部署视频)

这是什么系统? 资源获取方式在最下方 java计算机毕设课设—停车管理信息系统(附源码、文章、相关截图、部署视频) 停车管理信息系统是为了提升停车场的运营效率和管理水平而设计的综合性平台。系统涵盖用户信息管理、车位管理、收费管理、违规车辆处理等多个功能模块,旨在实现对停车场资源的高效配置和实时监控。此外,系统还提供了资讯管理和统计查询功能,帮助管理者及时发布信息并进行数据分析,为停车场的科学

文章解读与仿真程序复现思路——电力自动化设备EI\CSCD\北大核心《考虑燃料电池和电解槽虚拟惯量支撑的电力系统优化调度方法》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源程序擅长文章解读,论文与完整源程序,等方面的知识,电网论文源程序关注python

【Linux】萌新看过来!一篇文章带你走进Linux世界

🚀个人主页:奋斗的小羊 🚀所属专栏:Linux 很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~ 目录 前言💥1、初识Linux💥1.1 什么是操作系统?💥1.2 各种操作系统对比💥1.3 现代Linux应用💥1.4 Linux常用版本 💥2、Linux 和 Windows 目录结构对比💥2.1 文件系统组织方式💥2.2

多线程的系列文章

Java多线程学习(一)Java多线程入门 Java多线程学习(二)synchronized关键字(1)   Java多线程学习(二)synchronized关键字(2) Java多线程学习(三)volatile关键字 Java多线程学习(四)等待/通知(wait/notify)机制 Java多线程学习(五)线程间通信知识点补充 Java多线程学习(六)Lock锁的使用 Java多

缓存的常见问题 以及解决博客文章

1.jedispool 连 redis 高并发卡死  (子非鱼yy) https://blog.csdn.net/ztx114/article/details/78291734 2. Redis安装及主从配置 https://blog.csdn.net/ztx114/article/details/78320193 3.Spring中使用RedisTemplate操作Redis(sprin

java计算机毕设课设—企业员工信息管理系统(附源码、文章、相关截图、部署视频)

这是什么系统? 获取资料方式在最下方 java计算机毕设课设—企业员工信息管理系统(附源码、文章、相关截图、部署视频) 企业员工信息管理系统旨在为公司提供高效的员工信息管理解决方案。该系统的核心功能涵盖密码修改、员工管理、部门管理、出勤管理、工资管理、请假审核等方面,帮助企业优化人力资源管理流程。系统结构如下: (1)前端(员工端): 1.密码修改:员工可以修改自己的密码,提升账户的安全

android的工程和代码的命名规范(第一篇文章,勿喷)

1。首先我们从编译代码的工具说起吧:工程中的注释一般都是中文写的(毕竟大家都是中国人,还是习惯于中文)这样就设计到乱码的问题了;对于这类问题,我们一般最好的处理方法就是将工程设置成 UTF-8 的格式;下面就说说怎么将工作空间或者是工程设置成UTF-8 的格式吧(当然我这里面说的是eclips

C#/.NET/.NET Core推荐学习路线文档文章

前言 专门为C#/.NET/.NET Core推荐学习路线&文档&文章提供的一个Issues,各位小伙伴可以把自己觉得不错的学习路线、文档、文章相关地址分享出来🤞。 https://github.com/YSGStudyHards/DotNetGuide/issues/10 🏷️C#/.NET/.NET Core优质学习资料 📚.NET 入门教程 📚

【项目二】C++高性能服务器开发——日志系统(日志器,日志级别,日志事件)

知识点备忘录 其实也没啥 操作记录 在乌邦图上写的,先是模仿sylar创建了目录 进入sylar文件夹,有今天写的log.h头文件 其中log_test.cpp是为了测试log.h能否正常运行建的,只是个测试文件 log.h写了三个类,日志级别,日志事件,日志器 log.h头文件如下: #ifndef __SYLAR_LOG_H_#define __SYLAR_LOG_H_#incl

【java 走进NLP】simhash 算法计算两篇文章相似度

python 计算两篇文章的相似度算法simhash见: https://blog.csdn.net/u013421629/article/details/85052915 对长文本 是比较合适的(超过500字以上) 下面贴上java 版本实现: pom.xml 加入依赖 <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</a