本文主要是介绍中科之旅------python爬虫,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
先装requests库
1.点击下面的链接直接下载安装包
https://github.com/kennethreitz/requests/zipball/master
2.下载下来之后解压,放到一个目录下,比如d:\request
现在的目录结构大致是这样:
D:
----request
----setup.py
----REDEME.md
----requirements.txt
----.....(等等文件)
3.运行cmd,进入d:\request目录(先输入d:,再输入cd req)
4.运行语句
python setup.py install
5.检查是否安装成功
在cmd里输入 python
然后输入import requests
然后打开vs2017搞第一个爬虫
代码如下:
import requests #导入requests库
r = requests.get('https://www.baidu.com') #像目标url地址发送get请求,返回一个response对象
print(r.text) #r.text是http response的网页HTML
得到结果
然后这样我怎么从中获取我想要的数据呢,得接下来继续搞
安装beautifulsoup4-4.4.1
差不多类似
python setup.py build
python setup.py install
结果发现不行,于是就没辙了,先用git bash输入
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
然后下载了
然后打开cmd输入
然后就ok了
但是其实pip没装好
还得把C:\Users\lenovo\AppData\Local\Programs\Python\Python37\Scripts这个是pip.exe所在的文件路径加到环境变量中
真是一堆坑,要不是配置环境麻烦当年我就搞起java了
然后回头
这个破程序总算执行成功了。。。。。。
import requests #导入requests库
from bs4 import BeautifulSoup #导入BeautifulSoup 模块
r = requests.get('https://www.baidu.com') #像目标url地址发送get请求,返回一个response对象
print(r.text) #r.text是http response的网页HTML
all_a = BeautifulSoup(r.text, 'lxml').find_all('a', class_='cV68d') #获取网页中的class为cV68d的所有a标签
这篇关于中科之旅------python爬虫的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!