爬取网络小说内容

2024-01-28 05:20
文章标签 内容 爬取 网络小说

本文主要是介绍爬取网络小说内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

相关网址:玄幻:我!天命大反派_001_年轻大人,顾长歌(求评价,求鲜花)_免费小说阅读_飞卢小说网

相关代码

# @Time: 2024/1/27 16:26
# @Author: 马龙强
# @File: 爬取飞卢小说内容.py
# @software: PyCharm
"""
网址:https://b.faloo.com/724903_1.html
数据:小说内容 / 章节名字
分析数据内容vip内容 获取小说图片 通过文字识别获取内容"""
"""
代码实现步骤
"""
import requests
import re
import parsel
#请求 小说目录页
link = 'https://b.faloo.com/724903.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
#获取每章的数据内容
html_data = requests.get(url=link,headers=headers).text
selector_1 = parsel.Selector(html_data)
#小说名字
name = selector_1.css('#novelName::text').get()
#小说章节url
href = selector_1.css('.DivTd3 a::attr(href)').getall()
# print(href)
for index in href:#模拟浏览器headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'}#请求链接url = 'https:' + index#发送请求response = requests.get(url=url,headers=headers)# print(response)# print(response.text)#获取数据#解析数据"""1.  re正则title = re.findall('<h1>玄幻:我!天命大反派   (.*?)</h1>',response.text)[0]2.  css选择器selector = parsel.Selector(response.text)title = selector.css('.c_l_title h1::text').get()3.  xpath节点提取title = selector.xpath('//*[@class="c_l_title"]/h1/text()').get()get 提取第一个标签数据   返回字符串getall 获取所有 多个 返回列表"""#把response.text 转成可解析对象selector = parsel.Selector(response.text)#提取标题title = selector.css('.c_l_title h1::text').get().split('  ')[-1]#提取小说内容# content = selector.css('.noveContent p::text').get()#   str.join()  #把列表合并成可解析对象#提取小说内容 把列表合并成字符串content = '\n'.join(selector.css('.noveContent p::text').getall())#提取小说内容"""保存数据,小说内容保存本地文件 txttitle + '.txt' 文件名,文件格式a 追加保存"""with open(name + '.txt',mode='a',encoding='utf-8') as f:#写入数据f.write(title)f.write('\n')f.write(content)f.write('\n')print(title)

爬取结果

这篇关于爬取网络小说内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/652582

相关文章

两个月冲刺软考——访问位与修改位的题型(淘汰哪一页);内聚的类型;关于码制的知识点;地址映射的相关内容

1.访问位与修改位的题型(淘汰哪一页) 访问位:为1时表示在内存期间被访问过,为0时表示未被访问;修改位:为1时表示该页面自从被装入内存后被修改过,为0时表示未修改过。 置换页面时,最先置换访问位和修改位为00的,其次是01(没被访问但被修改过)的,之后是10(被访问了但没被修改过),最后是11。 2.内聚的类型 功能内聚:完成一个单一功能,各个部分协同工作,缺一不可。 顺序内聚:

STL经典案例(四)——实验室预约综合管理系统(项目涉及知识点很全面,内容有点多,耐心看完会有收获的!)

项目干货满满,内容有点过多,看起来可能会有点卡。系统提示读完超过俩小时,建议分多篇发布,我觉得分篇就不完整了,失去了这个项目的灵魂 一、需求分析 高校实验室预约管理系统包括三种不同身份:管理员、实验室教师、学生 管理员:给学生和实验室教师创建账号并分发 实验室教师:审核学生的预约申请 学生:申请使用实验室 高校实验室包括:超景深实验室(可容纳10人)、大数据实验室(可容纳20人)、物联网实验

【python计算机视觉编程——8.图像内容分类】

python计算机视觉编程——8.图像内容分类 8.图像内容分类8.1 K邻近分类法(KNN)8.1.1 一个简单的二维示例8.1.2 用稠密SIFT作为图像特征8.1.3 图像分类:手势识别 8.2贝叶斯分类器用PCA降维 8.3 支持向量机8.3.2 再论手势识别 8.4 光学字符识别8.4.2 选取特征8.4.3 多类支持向量机8.4.4 提取单元格并识别字符8.4.5 图像校正

JS中【记忆函数】内容详解与应用

在 JavaScript 中,记忆函数(Memoization)是一种优化技术,旨在通过存储函数的调用结果,避免重复计算以提高性能。它非常适用于纯函数(同样的输入总是产生同样的输出),特别是在需要大量重复计算的场景中。为了彻底理解 JavaScript 中的记忆函数,本文将从其原理、实现方式、应用场景及优化方法等多个方面详细讨论。 一、记忆函数的基本原理 记忆化是一种缓存策略,主要用于函数式编

如何在Excel中根据单元格内容作MSnbsp;…

上篇文章,我们介绍了INDEX+SMALL+IF+ROW的数组公式组合,也就是说只要在IF中通过条件的构造,基本上就可以想提取什么条件的数据都可以,数据查询肯定得心应手。 但是,我们一起强调函数公式不是万能的,尤其是数组公式在海量数据面前,既是软肋也是硬伤,而且构造这个函数组合还需要你要具备或者能理解简单数组公式逻辑,对于在函数公式方面没有深究的人,自然是一头雾水。当然,就像“数据透视表”一样,

python读取pdf内容写入到Excel表格中

要从每个 PDF 文件中提取全文内容,并将这些内容粘贴到一个新的或现有的表格中,你可以使用 Python 的库来完成这一任务。以下是一个简化的步骤和示例代码,展示如何实现这个过程。 步骤概述 读取文件夹中的所有 PDF 文件。提取每个 PDF 文件的全文内容。创建一个新的 Excel 表格或使用现有的表格。将提取的内容粘贴到表格中,每个 PDF 的内容放在一个垂直单元格中。保存表格文件。 所

Java利用正则表达式获取指定两个字符串之间的内容

package com.starit.analyse.util;import java.text.SimpleDateFormat;import java.util.ArrayList;import java.util.List;import java.util.regex.Matcher;import java.util.regex.Pattern;public class DealSt

0基础学习爬虫系列:网页内容爬取

1.背景 今天我们来实现,监控网站最新数据爬虫。 在信息爆炸的年代,能够有一个爬虫帮你,将你感兴趣的最新消息推送给你,能够帮你节约非常多时间,同时确保不会miss重要信息。 爬虫应用场景: 应用场景主要功能数据来源示例使用目的搜索引擎优化 (SEO)分析关键词密度、外部链接质量等网站元数据、链接提升网站在搜索引擎中的排名市场研究收集竞品信息、价格比较电商网站、行业报告制定更有效的市场策略舆情