中科之旅------python爬虫

本文主要是介绍中科之旅------python爬虫，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

先装requests库

1.点击下面的链接直接下载安装包

https://github.com/kennethreitz/requests/zipball/master

2.下载下来之后解压，放到一个目录下，比如d:\request

现在的目录结构大致是这样：

D:
　　　　----request
　　　　　　----setup.py
　　　　　　----REDEME.md
　　　　　　----requirements.txt

　　　　　　----.....（等等文件）

3.运行cmd，进入d:\request目录（先输入d:，再输入cd req）

4.运行语句

python setup.py install

5.检查是否安装成功

在cmd里输入 python

然后输入import requests

然后打开vs2017搞第一个爬虫

代码如下：

import requests #导入requests库

r = requests.get('https://www.baidu.com') #像目标url地址发送get请求，返回一个response对象
print(r.text) #r.text是http response的网页HTML

得到结果

然后这样我怎么从中获取我想要的数据呢，得接下来继续搞

安装beautifulsoup4-4.4.1

差不多类似

python setup.py build
python setup.py install

结果发现不行，于是就没辙了，先用git bash输入

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py

然后下载了

然后打开cmd输入

然后就ok了

但是其实pip没装好

还得把C:\Users\lenovo\AppData\Local\Programs\Python\Python37\Scripts这个是pip.exe所在的文件路径加到环境变量中

真是一堆坑，要不是配置环境麻烦当年我就搞起java了

然后回头

这个破程序总算执行成功了。。。。。。

import requests #导入requests库
from bs4 import BeautifulSoup #导入BeautifulSoup 模块

r = requests.get('https://www.baidu.com') #像目标url地址发送get请求，返回一个response对象
print(r.text) #r.text是http response的网页HTML
all_a = BeautifulSoup(r.text, 'lxml').find_all('a', class_='cV68d') #获取网页中的class为cV68d的所有a标签

这篇关于中科之旅------python爬虫的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！