2020-11-06 Python----------爬取豆瓣预备知识(urllib库request,beautifulsoup)

本文主要是介绍2020-11-06 Python----------爬取豆瓣预备知识(urllib库request,beautifulsoup),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Python爬取豆瓣

Python编码规范

一般第一句加

# -*- coding: utf-8 -*-

# coding=utf-8

加入main函数用于测试函数

# -*- coding: utf-8 -*-
def main():print("hello")if __name__ == "_main_":   #主程序入口main()
#两个下划线name再两个下划线
#test1文件夹下t1py文件定义了一个函数,在其他文件夹下的文件调用函数
#引入自定义的模块
from test1 import t1

引入系统模块直接import

开始爬

import urllib.request# 获取一个get请求
response = urllib.request.urlopen("http://www.baidu.com")
print(response.read().decode('utf-8'))  # 对获取到的网页源码解码
print(response.getheaders())
print(response.getheaders())  #获取响应头信息
print(response.getheader("Server"))  #获取响应头信息里的server信息,去掉s
# 获取一个post请求
import urllib.request
import urllib.parsedata = bytes(urllib.parse.urlencode({"hello": "world"}), encoding="utf-8")  # data是提交post表单附加的数据,helloworld处可以放置用户名密码
response = urllib.request.urlopen("http://httpbin.org/post", data=data)  # post请求需要接受二进制文件的参数
print(response.read().decode("utf-8"))
# 超时处理,timeout是控制响应时间,否则报错
try:response = urllib.request.urlopen("http://www.baidu.com", timeout=0.01)print(response.read().decode('utf-8'))  # 对获取到的网页源码解码
except urllib.error.URLError as e:print("time  out!")
#反爬虫的伪装,伪装成浏览器
import urllib.request, urllib.errorurl = "https://www.douban.com"
headers = {"User-Agent": "Mozilla/5.0(Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"}
req = urllib.request.Request(url=url,headers=headers)
response = urllib.request.urlopen(req)
print(response.read().decode("utf-8"))
#返回418代表伪装失败
#得到一个指定URL的网页内容
def askURL(url):head={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"}#用户代理表示告诉豆瓣服务器我们不是爬虫,我们是浏览器request = urllib.request(url,headers=head)    #发起请求try:response = urllib.request.urlopen(request)   #获得回应print(response.read().decode('utf-8'))  # 对获取到的网页源码解码except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)return html
#Beautifulsoup功能,获取页面的标签和里面的内容,还可以获取页面整体的信息from bs4 import BeautifulSoupfile = open("./index.html", "rb")
html = file.read()
bs = BeautifulSoup(html, "html.parser")
print(bs.title)   #有标签  <title>只有百度一下你就知道<title>
print(bs.title.string)  #无标签 只有百度一下你就知道
print(type(bs.title.string))  #NavigableString类型
#还可以bs.a.attrs拿到一个标签里所有的属性,返回字典形式
print(bs.name)  #文档 打印结果[document]
print(bs)  #整个文档
print(type(bs)) #BeautifulSoup类型
print(bs.a.string)
print(type(bs.a.string)) #特殊的NavigableString类型,输出内容不包含注释
# 文档搜索
import refrom bs4 import BeautifulSoupfile = open("./index.html", "rb")
html = file.read()
bs = BeautifulSoup(html, "html.parser")# (1)find_all
# 字符串过滤:会查找与字符串完全匹配的内容
t_list = bs.find_all("a")
print(t_list)
# 正则表达式搜索:使用search()方法来匹配内容
t_list = bs.find_all(re.compile("a"))  # 编译正则表达式# 方法:传入一个函数(方法),根据函数的要求来搜索
def name_is_exists(tag):return tag.has_attr("name")t_list = bs.find_all(name_is_exists)
for item in t_list:print(item)
# (2)kwargs   给参数而不是规则
# t_list = bs.find_all(id="head")
t_list = bs.find_all(class_=True)  # class是系统关键字要加_
t_list = bs.find_all(href="http://news.baidu.com")
for item in t_list:print(item)# (3)text参数
t_list = bs.find_all(text="hao123")
t_list = bs.find_all(text=["hao123", "地图", "贴吧"])
for item in t_list:print(item)
# (4)limit参数
t_list = bs.find_all("a", limit=3)  # 取前三个标签a,限制数
for item in t_list:print(item)# css选择器t_list=bs.select('title')  #用标签查找t_list=bs.select(".mnav")  #按类名查找,css用。表示类名t_list=bs.select("#u1")  #按id查找 css用#表示idt_list = bs.select("a[class='bri']")  # 通过属性来查找t_list = bs.select("head > title")   # 通过子标签来查找
for item in t_list:print(item)t_list = bs.select(".mnav ~ .bri")   #查找.mnav的兄弟标签.bri
print(t_list[0].get_text())

总的代码(还没存数据只是能爬html)

import bs4   #网页解析,获取数据
import re    #正则表达式,进行文字匹配
import urllib.request,urllib.error  #制定URL,获取网页数据
# import xlwt  #进行Excel操作
import sqlite3  #进行SQLite3数据库操作#爬取网页def main():baseurl="https://movie.douban.com/top250?start="#1.爬取网页dataList = getData(baseurl)savapath = ".\\豆瓣电影Top250.xls"def getData(baseurl):dataList=[]for i in range(0,10):url = baseurl + str(i*25)   #str从给定对象创建一个新的字符串对象 ,然后连接字符串html = askURL(url)
# 2.逐一解析数据return dataList
# 3.保存数据#savaDate(savepath)# askURL("https://movie.douban.com/top250")#得到一个指定URL的网页内容
def askURL(url):head={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36"}#用户代理表示告诉豆瓣服务器我们不是爬虫,我们是浏览器request = urllib.request.Request(url,headers=head)    #发起请求try:response = urllib.request.urlopen(request)   #获得回应html = response.read().decode('utf-8') # 对获取到的网页源码解码print(html)except urllib.error.URLError as e:if hasattr(e,"code"):print(e.code)if hasattr(e,"reason"):print(e.reason)return html#保存数据
def savaDate(savepath):print("save......")if __name__ == '__main__':main()

按照老师敲得一步一步来的,但是还是有好多错误,落个定义啥的,最后解决完error,执行居然是空的,原来是没定义main执行的入口,最后加上终于好了。

if __name__ == '__main__':main()

这篇关于2020-11-06 Python----------爬取豆瓣预备知识(urllib库request,beautifulsoup)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/941252

相关文章

[职场] 公务员的利弊分析 #知识分享#经验分享#其他

公务员的利弊分析     公务员作为一种稳定的职业选择,一直备受人们的关注。然而,就像任何其他职业一样,公务员职位也有其利与弊。本文将对公务员的利弊进行分析,帮助读者更好地了解这一职业的特点。 利: 1. 稳定的职业:公务员职位通常具有较高的稳定性,一旦进入公务员队伍,往往可以享受到稳定的工作环境和薪资待遇。这对于那些追求稳定的人来说,是一个很大的优势。 2. 薪资福利优厚:公务员的薪资和

Python 字符串占位

在Python中,可以使用字符串的格式化方法来实现字符串的占位。常见的方法有百分号操作符 % 以及 str.format() 方法 百分号操作符 % name = "张三"age = 20message = "我叫%s,今年%d岁。" % (name, age)print(message) # 我叫张三,今年20岁。 str.format() 方法 name = "张三"age

一道经典Python程序样例带你飞速掌握Python的字典和列表

Python中的列表(list)和字典(dict)是两种常用的数据结构,它们在数据组织和存储方面有很大的不同。 列表(List) 列表是Python中的一种有序集合,可以随时添加和删除其中的元素。列表中的元素可以是任何数据类型,包括数字、字符串、其他列表等。列表使用方括号[]表示,元素之间用逗号,分隔。 定义和使用 # 定义一个列表 fruits = ['apple', 'banana

Python应用开发——30天学习Streamlit Python包进行APP的构建(9)

st.area_chart 显示区域图。 这是围绕 st.altair_chart 的语法糖。主要区别在于该命令使用数据自身的列和指数来计算图表的 Altair 规格。因此,在许多 "只需绘制此图 "的情况下,该命令更易于使用,但可定制性较差。 如果 st.area_chart 无法正确猜测数据规格,请尝试使用 st.altair_chart 指定所需的图表。 Function signa

python实现最简单循环神经网络(RNNs)

Recurrent Neural Networks(RNNs) 的模型: 上图中红色部分是输入向量。文本、单词、数据都是输入,在网络里都以向量的形式进行表示。 绿色部分是隐藏向量。是加工处理过程。 蓝色部分是输出向量。 python代码表示如下: rnn = RNN()y = rnn.step(x) # x为输入向量,y为输出向量 RNNs神经网络由神经元组成, python

python 喷泉码

因为要完成毕业设计,毕业设计做的是数据分发与传输的东西。在网络中数据容易丢失,所以我用fountain code做所发送数据包的数据恢复。fountain code属于有限域编码的一部分,有很广泛的应用。 我们日常生活中使用的二维码,就用到foutain code做数据恢复。你遮住二维码的四分之一,用手机的相机也照样能识别。你遮住的四分之一就相当于丢失的数据包。 为了实现并理解foutain

python 点滴学

1 python 里面tuple是无法改变的 tuple = (1,),计算tuple里面只有一个元素,也要加上逗号 2  1 毕业论文改 2 leetcode第一题做出来

06-6.2.1 邻接矩阵法

👋 Hi, I’m @Beast Cheng 👀 I’m interested in photography, hiking, landscape… 🌱 I’m currently learning python, javascript, kotlin… 📫 How to reach me --> 458290771@qq.com 喜欢《数据结构》部分笔记的小伙伴可以订阅专栏,今后还会

Python爬虫-贝壳新房

前言 本文是该专栏的第32篇,后面会持续分享python爬虫干货知识,记得关注。 本文以某房网为例,如下图所示,采集对应城市的新房房源数据。具体实现思路和详细逻辑,笔者将在正文结合完整代码进行详细介绍。接下来,跟着笔者直接往下看正文详细内容。(附带完整代码) 正文 地址:aHR0cHM6Ly93aC5mYW5nLmtlLmNvbS9sb3VwYW4v 目标:采集对应城市的

python 在pycharm下能导入外面的模块,到terminal下就不能导入

项目结构如下,在ic2ctw.py 中导入util,在pycharm下不报错,但是到terminal下运行报错  File "deal_data/ic2ctw.py", line 3, in <module>     import util 解决方案: 暂时方案:在终端下:export PYTHONPATH=/Users/fujingling/PycharmProjects/PSENe