爬取网络小说内容

2024-01-28 05:20
文章标签 内容 爬取 网络小说

本文主要是介绍爬取网络小说内容,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

相关网址:玄幻:我!天命大反派_001_年轻大人,顾长歌(求评价,求鲜花)_免费小说阅读_飞卢小说网

相关代码

# @Time: 2024/1/27 16:26
# @Author: 马龙强
# @File: 爬取飞卢小说内容.py
# @software: PyCharm
"""
网址:https://b.faloo.com/724903_1.html
数据:小说内容 / 章节名字
分析数据内容vip内容 获取小说图片 通过文字识别获取内容"""
"""
代码实现步骤
"""
import requests
import re
import parsel
#请求 小说目录页
link = 'https://b.faloo.com/724903.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
#获取每章的数据内容
html_data = requests.get(url=link,headers=headers).text
selector_1 = parsel.Selector(html_data)
#小说名字
name = selector_1.css('#novelName::text').get()
#小说章节url
href = selector_1.css('.DivTd3 a::attr(href)').getall()
# print(href)
for index in href:#模拟浏览器headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'}#请求链接url = 'https:' + index#发送请求response = requests.get(url=url,headers=headers)# print(response)# print(response.text)#获取数据#解析数据"""1.  re正则title = re.findall('<h1>玄幻:我!天命大反派   (.*?)</h1>',response.text)[0]2.  css选择器selector = parsel.Selector(response.text)title = selector.css('.c_l_title h1::text').get()3.  xpath节点提取title = selector.xpath('//*[@class="c_l_title"]/h1/text()').get()get 提取第一个标签数据   返回字符串getall 获取所有 多个 返回列表"""#把response.text 转成可解析对象selector = parsel.Selector(response.text)#提取标题title = selector.css('.c_l_title h1::text').get().split('  ')[-1]#提取小说内容# content = selector.css('.noveContent p::text').get()#   str.join()  #把列表合并成可解析对象#提取小说内容 把列表合并成字符串content = '\n'.join(selector.css('.noveContent p::text').getall())#提取小说内容"""保存数据,小说内容保存本地文件 txttitle + '.txt' 文件名,文件格式a 追加保存"""with open(name + '.txt',mode='a',encoding='utf-8') as f:#写入数据f.write(title)f.write('\n')f.write(content)f.write('\n')print(title)

爬取结果

这篇关于爬取网络小说内容的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/652582

相关文章

Java实现删除文件中的指定内容

《Java实现删除文件中的指定内容》在日常开发中,经常需要对文本文件进行批量处理,其中,删除文件中指定内容是最常见的需求之一,下面我们就来看看如何使用java实现删除文件中的指定内容吧... 目录1. 项目背景详细介绍2. 项目需求详细介绍2.1 功能需求2.2 非功能需求3. 相关技术详细介绍3.1 Ja

Python实现自动化Word文档样式复制与内容生成

《Python实现自动化Word文档样式复制与内容生成》在办公自动化领域,高效处理Word文档的样式和内容复制是一个常见需求,本文将展示如何利用Python的python-docx库实现... 目录一、为什么需要自动化 Word 文档处理二、核心功能实现:样式与表格的深度复制1. 表格复制(含样式与内容)2

Java如何将文件内容转换为MD5哈希值

《Java如何将文件内容转换为MD5哈希值》:本文主要介绍Java如何将文件内容转换为MD5哈希值的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录Java文件内容转换为MD5哈希值一个完整的Java示例代码代码解释注意事项总结Java文件内容转换为MD5

使用Python自动化生成PPT并结合LLM生成内容的代码解析

《使用Python自动化生成PPT并结合LLM生成内容的代码解析》PowerPoint是常用的文档工具,但手动设计和排版耗时耗力,本文将展示如何通过Python自动化提取PPT样式并生成新PPT,同时... 目录核心代码解析1. 提取 PPT 样式到 jsON关键步骤:代码片段:2. 应用 JSON 样式到

全解析CSS Grid 的 auto-fill 和 auto-fit 内容自适应

《全解析CSSGrid的auto-fill和auto-fit内容自适应》:本文主要介绍了全解析CSSGrid的auto-fill和auto-fit内容自适应的相关资料,详细内容请阅读本文,希望能对你有所帮助... css  Grid 的 auto-fill 和 auto-fit/* 父元素 */.gri

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调

一文详解如何在Python中从字符串中提取部分内容

《一文详解如何在Python中从字符串中提取部分内容》:本文主要介绍如何在Python中从字符串中提取部分内容的相关资料,包括使用正则表达式、Pyparsing库、AST(抽象语法树)、字符串操作... 目录前言解决方案方法一:使用正则表达式方法二:使用 Pyparsing方法三:使用 AST方法四:使用字

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

使用Python实现获取网页指定内容

《使用Python实现获取网页指定内容》在当今互联网时代,网页数据抓取是一项非常重要的技能,本文将带你从零开始学习如何使用Python获取网页中的指定内容,希望对大家有所帮助... 目录引言1. 网页抓取的基本概念2. python中的网页抓取库3. 安装必要的库4. 发送HTTP请求并获取网页内容5. 解

Python实现常用文本内容提取

《Python实现常用文本内容提取》在日常工作和学习中,我们经常需要从PDF、Word文档中提取文本,本文将介绍如何使用Python编写一个文本内容提取工具,有需要的小伙伴可以参考下... 目录一、引言二、文本内容提取的原理三、文本内容提取的设计四、文本内容提取的实现五、完整代码示例一、引言在日常工作和学