爬取豆瓣书评

2023-12-04 07:40

文章标签 爬取书评豆瓣

本文主要是介绍爬取豆瓣书评，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

在爬取过程中运行程序出现了以下错误，回到原网页查看发现评论中出现表情导致出错，百度后可以加入以下语句解决此问题

 Traceback (most recent call last):File "C:\Users\萌萌哒炸鸡腿\Desktop\python\豆瓣书评.py", line 29, in <module>print(x,')',comment)
UnicodeEncodeError: 'UCS-2' codec can't encode characters in position 5-5: Non-BMP character not supported in Tk

import sys
non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)
x = 'This works! \U0001F44D'
print(x.translate(non_bmp_map))

code：

import re
import requests
from bs4 import BeautifulSoupimport sys
non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)LIST = []
urls = []
url = 'https://book.douban.com/subject/26829016/comments/hot?p='
for i in range(1,25):urls.append(url + str(i))
for u in urls:response = requests.get(u)html = response.textsoup = BeautifulSoup(html,'lxml')List = soup.find_all('span',class_ = "short")for i in List:LIST.append(i.text)print(len(LIST))
x = 1
for comment in LIST:print('(',x,')',comment.translate(non_bmp_map))x += 1''' 
import sys
non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)
x = 'This works! \U0001F44D'
print(x.translate(non_bmp_map))
'''

错误解决参考博客

这篇关于爬取豆瓣书评的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

http://www.chinasem.cn/article/452669。 23002807@qq.com

相关文章

Python：豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣，数据处理过程，数据分析，可视化，以及完整PPT报告】

Python：豆瓣电影商业数据分析-爬取全数据【附带爬虫豆瓣，数据处理过程，数据分析，可视化，以及完整PPT报告】

**爬取豆瓣电影信息，分析近年电影行业的发展情况** 本文是完整的数据分析展现，代码有完整版，包含豆瓣电影爬取的具体方式【附带爬虫豆瓣，数据处理过程，数据分析，可视化，以及完整PPT报告】最近MBA在学习《商业数据分析》，大实训作业给了数据要进行数据分析，所以先拿豆瓣电影练练手，网络上爬取豆瓣电影TOP250较多，但对于豆瓣电影全数据的爬取教程很少，所以我自己做一版。目

阅读更多...

0基础学习爬虫系列：网页内容爬取

0基础学习爬虫系列：网页内容爬取

1.背景今天我们来实现，监控网站最新数据爬虫。在信息爆炸的年代，能够有一个爬虫帮你，将你感兴趣的最新消息推送给你，能够帮你节约非常多时间，同时确保不会miss重要信息。爬虫应用场景：应用场景主要功能数据来源示例使用目的搜索引擎优化 (SEO)分析关键词密度、外部链接质量等网站元数据、链接提升网站在搜索引擎中的排名市场研究收集竞品信息、价格比较电商网站、行业报告制定更有效的市场策略舆情

阅读更多...

python网络爬虫（五）——爬取天气预报

python网络爬虫（五）——爬取天气预报

1.注册高德天气key 点击高德天气，然后按照开发者文档完成key注册；作为爬虫练习项目之一。从高德地图json数据接口获取天气，可以获取某省的所有城市天气，高德地图的这个接口还能获取县城的天气。其天气查询API服务地址为https://restapi.amap.com/v3/weather/weatherInfo?parameters，若要获取某城市的天气推荐 2.安装MongoDB

阅读更多...

【python】—— Python爬虫实战：爬取珠海市2011-2023年天气数据并保存为CSV文件

【python】—— Python爬虫实战：爬取珠海市2011-2023年天气数据并保存为CSV文件

目录目标准备工作爬取数据的开始时间和结束时间爬取数据并解析将数据转换为DataFrame并保存为CSV文件本文将介绍如何使用Python编写一个简单的爬虫程序，以爬取珠海市2011年至2023年的天气数据，并将这些数据保存为CSV文件。我们将涉及到以下知识点：使用requests库发送HTTP请求使用lxml库解析HTML文档使用dateti

阅读更多...

爬虫二：获取豆瓣电影Top250（Requests+XPath+CSV）

爬虫二：获取豆瓣电影Top250（Requests+XPath+CSV）

描述：在上一篇获取豆瓣图书Top250的基础上，获取豆瓣电影Top250的数据并将结果写入CSV文件中。代码： # -*- coding: UTF-8 -*-import requestsfrom lxml import etreeimport timeimport csv# 从网页上获取电影数据moviedata = []count = 0for i in range(1

阅读更多...

爬虫一：获取豆瓣图书Top250（Requests+XPath）

爬虫一：获取豆瓣图书Top250（Requests+XPath）

目的：获取豆瓣图书Top250的所有书目信息。豆瓣网址：https://book.douban.com/top250 代码： import requestsfrom lxml import etreeimport timefor i in range(10):url = 'https://book.douban.com/top250?start=' + str(25*i)data

阅读更多...

scrapy 设置爬取深度（七）

scrapy 设置爬取深度（七）

通过在settings.py中设置DEPTH_LIMIT的值可以限制爬取深度，这个深度是与start_urls中定义url的相对值。也就是相对url的深度。例如定义url为：http://www.domz.com/game/,DEPTH_LIMIT=1那么限制爬取的只能是此url下一级的网页。深度大于设置值的将被ignore。如图：

阅读更多...

scrapy自动多网页爬取CrawlSpider类（五）

scrapy自动多网页爬取CrawlSpider类（五）

一.目的。自动多网页爬取，这里引出CrawlSpider类，使用更简单方式实现自动爬取。二.热身。 1.CrawlSpider （1）概念与作用：它是Spider的派生类，首先在说下Spider，它是所有爬虫的基类，对于它的设计原则是只爬取start_url列表中的网页，而从爬取的网页中获取link并继续爬取的工作CrawlSpider类更适合。 ࿰

阅读更多...

Scrapy ——自动多网页爬取（抓取某人博客所有文章）（四）

Scrapy ——自动多网页爬取（抓取某人博客所有文章）（四）

首先创建project: [python] view plain copy 转存失败重新上传取消<

阅读更多...

python爬取网页接口数据，以yearning为例

python爬取网页接口数据，以yearning为例

模拟登陆获取token，传token到对应的接口获取数据，下载到csv里面 import getpassimport osimport requestsimport timeimport csvfrom datetime import datetimeclass Yearning:def __init__(self):self.session = requests.Session()

阅读更多...