Ubuntu下python的BeautifulSoup和rsa安装方法---信息检索project2部分：微博爬取所需python包

本文主要是介绍Ubuntu下python的BeautifulSoup和rsa安装方法---信息检索project2部分：微博爬取所需python包，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

最近因为《信息检索》第二个project，需要爬取微博数据，然后再处理。师兄给了代码，让慢慢爬，但是在ubuntu下，少了很多python软件包。需要安装。

1.首先运行时，说少了python，BeautifulSoup包，用来解析html文件神奇，这么重要的包怎么能缺少呢，百度ubuntu python BeautifulSoup后，看博客后找到方法：

先安装easy_install工具：

再用easy_install安装：

easy_install BeautifulSoup

若是还没有安装easy_install,在ubuntu下，会自动提示按怎样的命令去安装。

2.继续运行，说是缺少rsa包，想到是师兄在pdf文档里提到用pip安装一些通过pip按张rsa。运行:

pip install -r requirements.txt
#不行，需要在root权限，换
sudo pip install -r requirements.txt

安装成功，执行源代码，可行。

3.另外的话，缺少display的话，用来展示验证码的。通过以下命令安装：

sudo apt-get install imagemagick

若是不能安装display的话，注释掉weibo/crawler/toolkit/accountlib.py第178行变量proc和第182行proc.kill()

#proc = subprocess.Popen(['display', filename])		#第178行
self.loginpostdata['pcid'] = pcid
self.loginpostdata['door'] = raw_input(u'请输入验证码：')
os.remove(filename)
#proc.kill()										#第182行

但与之相对的，在运行时，需要在文件夹里打开抓取的验证码图片，在终端手动输入验证码。

有一点挺疑惑的是，队友直接没有安装display，直接使用
python main.py display
连验证码都没有输入，直接能够进入爬取部分，而且能够爬取出数据，吓尿。

4.有的时候在抓取文件，但是没有下载，坑爹，没想到这问题，还没解析代码就那么运行着，还以为已经在抓取呢。在自己的笔记本centos6.5下抓取的时候甚是麻烦而且没成功。换了实验室里ubuntu14.04.1LTS版本，改好了一下参数终于在怕去数据了，下一步要分析数据，进行后续任务了。

5.爬取微博的时候，速度可能有些慢，平均下来爬18页/min,要看网速了。不过可以改crawler/config.py参数，

begin_time="2012-11-1 00:00:00"
end_time="2014-11-1 00:00:00"

把用户数据降将为一年，但是相应的，在后续分析用户数据时，少了的话，当然也是有一定的影响了。而已经爬取的部分不会再爬取。

转载请认证：http://blog.csdn.net/u010454729/article/details/40656087

这篇关于Ubuntu下python的BeautifulSoup和rsa安装方法---信息检索project2部分：微博爬取所需python包的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

Ubuntu下python的BeautifulSoup和rsa安装方法---信息检索project2部分：微博爬取所需python包

相关文章

PHP轻松处理千万行数据的方法详解

Python的Darts库实现时间序列预测

Python正则表达式匹配和替换的操作指南

Python使用FastAPI实现大文件分片上传与断点续传功能

通过Docker容器部署Python环境的全流程

Python一次性将指定版本所有包上传PyPI镜像解决方案

Python实现Excel批量样式修改器(附完整代码)

python获取指定名字的程序的文件路径的两种方法

JavaScript中的高级调试方法全攻略指南

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解