爬虫入门--爬取电影TOP250-附源码解析

2023-12-20 15:44

本文主要是介绍爬虫入门--爬取电影TOP250-附源码解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

爬取电影TOP250

  • 1 知识小课堂
    • 1.1 什么是爬虫
    • 1.2 爬虫能做什么
  • 2 代码解析
    • 2.1 运行环境
    • 2.2 过程解析
      • 2.2.1 第一步:引入两个模块
      • 2.2.2 找到网址
      • 2.2.3 拉去页面全内容
    • 2.2.4
    • 2.3 完整代码

1 知识小课堂

1.1 什么是爬虫

在这里插入图片描述

爬虫,也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛。网络爬虫按照系统结构和实现细节,大体可以分为以下几种:

  1. 通用网络爬虫:这是一种基本的爬虫程序,通过请求URL地址,根据响应的内容进行解析和采集数据。例如,如果响应内容是HTML,它会分析DOM结构,进行DOM解析或者正则匹配;如果响应内容是XML/JSON数据,它会将数据转换为数据对象,然后对数据进行解析。
  2. 聚焦网络爬虫:这是一种针对特定主题和领域的爬虫程序,它只爬取和主题或领域相关的网页。例如,它可以爬取所有的新闻网站,或者所有的电商网站。
  3. 增量式网络爬虫:这种爬虫程序会定期爬取互联网上的新内容,而不是重新爬取所有的网页。
  4. 深层网络爬虫:这种爬虫程序会爬取互联网上隐藏较深的网页,例如需要登录、填写表单等才能访问的网页。

爬虫的主要作用是利用程序批量爬取网页上的公开信息,也就是前端显示的数据信息。因为这些信息是完全公开的,所以是合法的。其实就像浏览器一样,浏览器解析响应内容并渲染为页面,而爬虫解析响应内容采集想要的数据进行存储。

1.2 爬虫能做什么

爬虫能做的事情非常多,以下是详细介绍:
在这里插入图片描述

  1. 收集数据:爬虫程序可以用于收集大量数据。由于爬虫程序可以快速地爬取大量网页,因此可以用于收集各种类型的数据,例如新闻、社交媒体、产品价格、股票价格等等。这些数据可以用于各种分析,例如市场调研、商业分析、竞争分析等等。
  2. 调研:爬虫程序也可以用于调研。例如,可以爬取某个公司的网站,收集其产品信息、销售情况、客户反馈等等,以便更好地了解该公司的运营情况。此外,爬虫程序还可以用于监测网站的内容变化,以便及时了解该网站的最新动态。
  3. 刷流量和秒杀:爬虫程序还可以用于刷流量和秒杀。例如,可以在电商网站上爬取大量的商品信息,然后利用爬虫程序模拟用户的购买行为,从而增加该网站的流量和销售额。此外,爬虫程序还可以用于抢购限时优惠商品,例如秒杀活动等等。
  4. 自动化测试:爬虫程序也可以用于自动化测试。例如,可以利用爬虫程序模拟用户的操作行为,对网站进行各种测试,例如登录测试、表单提交测试、页面跳转测试等等。这样可以大大提高测试的效率和准确性。
  5. 搜索引擎优化:爬虫程序还可以用于搜索引擎优化。例如,可以利用爬虫程序收集竞争对手的网站信息,分析其关键词使用情况、页面结构等等,从而优化自己的网站,提高在搜索引擎中的排名。

总之,爬虫程序是一个非常强大的工具,可以用于各种领域和用途。但是需要注意的是,在使用爬虫程序时需要遵守网站的规则和法律法规,不得侵犯他人的权益和隐私。

2 代码解析

这里使用Python做爬虫,具体代码解析如下:

2.1 运行环境

  1. PyCharm
  2. Python3.10

2.2 过程解析

2.2.1 第一步:引入两个模块

requestsre

  • request 模块
    requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,它是python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib更简洁也更强大。
  • re 模块
    Python的re模块是Python内置的正则表达式处理模块,首先需要导入该模块,然后使用re模块中的函数和方法来进行正则表达式的匹配和处理。它提供了对正则表达式的支持,使得我们可以使用正则表达式来匹配和处理字符串。
    下面是一些常用的re模块函数和方法:

compile():该函数用于编译正则表达式,返回一个Pattern对象。

import re  
pattern = re.compile(r'\d+')

match():该方法用于从字符串的开头开始匹配正则表达式,如果匹配成功,返回一个匹配对象,否则返回None。

import re  
pattern = re.compile(r'\d+')  
match = pattern.match('123abc')  
if match:  print(match.group())  # 输出: 123

search():该方法用于在字符串中搜索正则表达式,如果匹配成功,返回一个匹配对象,否则返回None。它会从字符串的开头开始搜索。

import re  
pattern = re.compile(r'\d+')  
match = pattern.search('abc123def')  
if match:  print(match.group())  # 输出: 123

findall():该方法用于在字符串中查找所有与正则表达式匹配的子串,并返回一个包含所有匹配结果的列表。

import re  
pattern = re.compile(r'\d+')  
matches = pattern.findall('abc123def456ghi')  
print(matches)  # 输出: ['123', '456']

除了以上几个常用的函数和方法外,re模块还提供了其他一些功能,如替换、分割字符串等。具体可以参考Python官方文档或相关教程来了解更多内容。

2.2.2 找到网址

https://movie.douban.com/top250
在这里插入图片描述

2.2.3 拉去页面全内容

import requests
import re
url = 'https://movie.douban.com/top250'
response = requests.get(url)
print(response.text)

在这里插入图片描述
发现没反应,也没报错,这是为什么呢?因为网站有反扒机制,没有获取到网址,被浏览器拦截掉了。那该怎么办呢?小问题,骗过浏览器就行了。
加上一个headers,这行是通用的,可保存留着以后用。

headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'
}

整合到上面代码再请求一次。

import requests
import re
headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'
}
url = 'https://movie.douban.com/top250'
response = requests.get(url, headers=headers)
print(response.text)

运行之后,能发现网站页面全部拉去下来了,但是咱们不需要这么多信息,这就需要用到re库来筛选咱们需要的内容。
在这里插入图片描述

2.2.4

2.3 完整代码

import requests
import re
'''爬取豆瓣电影top20'''
def top250_crawer(url, sum):headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'}response = requests.get(url, headers=headers)# print(response.text)title = re.findall('<span class="title">(.*?)</span>', response.text, re.S)new_title = []for t in title:if '&nbsp;/&nbsp' not in t:new_title.append(t)data = re.findall('<br>(.*?)</p>', response.text, re.S)time = []country = []for str1 in data:str1 = str1.replace(' ', '')str1 = str1.replace('\n', '')time_data = str1.split('&nbsp;/&nbsp;')[0]country_data = str1.split('&nbsp;/&nbsp;')[1]time.append(time_data)country.append(country_data)for j in range(len(country)):sum += 1print(str(sum) + '.' + new_title[j] + ',' + country[j] + ',' + time[j])url = 'https://movie.douban.com/top250'
sum = 0
'遍历10页数据,250条结果'
for a in range(10):if sum == 0:top250_crawer(url, sum)sum += 25else:page = '?start=' + str(sum) + '&filter='new_url = url + pagetop250_crawer(new_url, sum)sum += 25

请添加图片描述

这篇关于爬虫入门--爬取电影TOP250-附源码解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/516566

相关文章

网页解析 lxml 库--实战

lxml库使用流程 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 XPath表达式提供了良好的支 持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 pip install lxml lxm| 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面来介绍一下 lxml 库

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

JAVA智听未来一站式有声阅读平台听书系统小程序源码

智听未来,一站式有声阅读平台听书系统 🌟&nbsp;开篇:遇见未来,从“智听”开始 在这个快节奏的时代,你是否渴望在忙碌的间隙,找到一片属于自己的宁静角落?是否梦想着能随时随地,沉浸在知识的海洋,或是故事的奇幻世界里?今天,就让我带你一起探索“智听未来”——这一站式有声阅读平台听书系统,它正悄悄改变着我们的阅读方式,让未来触手可及! 📚&nbsp;第一站:海量资源,应有尽有 走进“智听

【C++】_list常用方法解析及模拟实现

相信自己的力量,只要对自己始终保持信心,尽自己最大努力去完成任何事,就算事情最终结果是失败了,努力了也不留遗憾。💓💓💓 目录   ✨说在前面 🍋知识点一:什么是list? •🌰1.list的定义 •🌰2.list的基本特性 •🌰3.常用接口介绍 🍋知识点二:list常用接口 •🌰1.默认成员函数 🔥构造函数(⭐) 🔥析构函数 •🌰2.list对象

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

Java ArrayList扩容机制 (源码解读)

结论:初始长度为10,若所需长度小于1.5倍原长度,则按照1.5倍扩容。若不够用则按照所需长度扩容。 一. 明确类内部重要变量含义         1:数组默认长度         2:这是一个共享的空数组实例,用于明确创建长度为0时的ArrayList ,比如通过 new ArrayList<>(0),ArrayList 内部的数组 elementData 会指向这个 EMPTY_EL

如何在Visual Studio中调试.NET源码

今天偶然在看别人代码时,发现在他的代码里使用了Any判断List<T>是否为空。 我一般的做法是先判断是否为null,再判断Count。 看了一下Count的源码如下: 1 [__DynamicallyInvokable]2 public int Count3 {4 [__DynamicallyInvokable]5 get

poj 2104 and hdu 2665 划分树模板入门题

题意: 给一个数组n(1e5)个数,给一个范围(fr, to, k),求这个范围中第k大的数。 解析: 划分树入门。 bing神的模板。 坑爹的地方是把-l 看成了-1........ 一直re。 代码: poj 2104: #include <iostream>#include <cstdio>#include <cstdlib>#include <al