python为在线漫画网站自制非官方API(未完待续)

2024-08-27 05:48

本文主要是介绍python为在线漫画网站自制非官方API(未完待续),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

接下来将记录我一步一步写一个非官方API的过程,因为一些条件的约束,最后的成品可能很粗暴简陋

现在介绍要准备的所有工具:

系统:ubuntu 14.04

语言:python 2.7

需要自行安装的库:flask,BeautifulSoup4,requests,selenium,pinyin,phantomjs-1.9.8

服务器:Sina App Engine

因为成本原因我选择了Sina App Engine,因为免费,但是免费也带来了一定的麻烦就是功能不全,虽然Sina App Engine允许安装python的第三方库,但是对于javascript解释器我很无奈,如果可以我很希望Sina App Engine有nodejs的运行环境,这样就会方便很多。

当然我写的只是简单实现,并没有考虑到效率和优化

下面是几个重要的文档:

http://beautifulsoup.readthedocs.org/zh_CN/latest/

http://cn.python-requests.org/zh_CN/latest/

http://dormousehole.readthedocs.org/en/latest/

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

https://github.com/cleverdeng/pinyin.py

(一定要多看文档,一定要多看文档,一定要多看文档,重要的事要说三遍,因为我经常不看文档)

下面是搜索漫画API开始:

分析:

我选择的网站是:http://cnc.dm5.com(对于网站我只想说非常抱歉)
为什么选择这个网站,因为是我最常逛的在线漫画网站,仅此而已
接下来我们看一下它的搜索页面,当你在首页输入书名,点击搜索以后,URL会跳转
举个例子:
搜索“一拳超人”
结果页面如下:
http://www.dm5.com/search?title=一拳超人&language=1

这样我们就知道搜索结果页面,你可以手动将 一拳超人 改成你喜欢的漫画名,看到会不会跳转到那本漫画的搜索结果页上
但是结果页上内容太多了,并不只有我要的那本漫画,于是我又做了一件事,将中文改成pinyin

http://www.dm5.com/search?title=yiquanchaoren&language=1

结果页面上只有我需要的漫画,现在发现了拼音搜索会更精确
当我们知道这样就可以进入搜索页,那我们就可以分析这个页面,找到我们需要的信息
那么我们需要什么呢?
任何浏览器的F12都是强大的,在这个页面上按下F12,就是新世界的大门,哈哈哈......
定位元素,发现需要的信息是在 class="ssnrk" 中(友情提示,F12下的源码是解析JS以后的,想知道现实情况最后先输出在一个文件上看看)
#coding:utf-8
import requestswfile = open('url.html','w')
r = requests.get('http://cnc.dm5.com/search?title=yiquanchaoren').contentwfile.write(r)
这是最简单的测试方法,将源码写进一个文件中,然后去文件中找有没有 class="ssnrk" ,如果存在以后就以文件的元素结构分析(以后的每一个页面最好都做一下这步)
现在发现文件中也有这个元素,OK,我们需要什么呢?漫画名和它的地址,当然你要图片也可以
我们发现class="ssnrk"元素下<div class="ssnr_yt"><dl><a href="/manhua-yiquanchaoren/" title="一拳超人"><img height="127" width="95" src="http://mhfm5.tel.cdndm5.com/11/10684/20150430155820_130x174_13.jpg" /></a></dl>里面包含了我们要的一切,名称,链接,图片
那么我们怎么得到这些有效信息呢?

#coding:UTF-8
import urllib2
from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import requests
import re
import json#搜索结果页面URL
url='http://cnc.dm5.com/search?title=guanlangaoshou'
r = requests.get(url).content
soup = BeautifulSoup(r)#找出所有class="ssnr_yt"元素,然后循环找出下面的a元素,放进找一个list中
ssjg_list=[]
for line in soup.find_all(class_="ssnr_yt"):ssjg_list.append(line.find('a'))#循环将所有图片,URL,名称放进字典中
z_url="http://cnc.dm5.com"
#总的字典
json_ss = {}
#结果数量
json_ss['num']=len(ssjg_list)
#计数器
j_s=0
for line in ssjg_list:j_s=j_s+1#单个字典json_s={}soup_a = BeautifulSoup(str(line))json_s['title']=soup_a.a.get('title')#找出a元素title属性的值json_s['url']=z_url+soup_a.a.get('href')#找出a元素hresf属性的值json_s['img']=soup_a.a.img.get('src')#找出a元素下img元素src属性的值json_ss[j_s]=json_s#以json形式输出
print json.dumps(json_ss,ensure_ascii=False,indent=2)

为什么这里搜索内容变成guanlangaoshou呢?因为有些漫画真的有多个结果,比如这个guanlangaoshou ,就有四个下面是得到的结果:
{"3": {"url": "http://cnc.dm5.com/manhua-guanlangaoshou/", "img": "http://mhfm9.tel.cdndm5.com/1/860/860_c.jpg", "title": "灌篮高手"}, "1": {"url": "http://cnc.dm5.com/manhua-guanlangaoshoujuchangban/", "img": "http://mhfm5.tel.cdndm5.com/1/380/380_c.jpg", "title": "灌篮高手剧场版"}, "2": {"url": "http://cnc.dm5.com/manhua-guanlangaoshoushirihou/", "img": "http://mhfm8.tel.cdndm5.com/7/6270/6270_c.jpg", "title": "灌篮高手十日后"}, "num": 4, "4": {"url": "http://cnc.dm5.com/manhua-guanlangaoshouquanguodasaipian-quancai/", "img": "http://mhfm1.tel.cdndm5.com/8/7312/20150526100857_130x174_12.jpg", "title": "灌篮高手全国大赛篇(全彩)"}
}

 现在写的都是小零件和一步一步测试,等到最后会组装起来搜索结果先告一段落,现在已搜索到的结果为前提,进行下一步,找出这本漫画所有的章节的URL:这次以 yiquanchaoren 为例:URL:http://cnc.dm5.com/manhua-yiquanchaoren/这是漫画的章节页,目前是74话(挺少的,看着不过瘾)继续使用F12这个武器,会发现章节的URL都在class=nr6 lan2下的a中: 
#coding:UTF-8
import urllib2
from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import requests
import re
import jsonurl='http://cnc.dm5.com/manhua-yiquanchaoren/'
r = requests.get(url).content
soup = BeautifulSoup(r)
#找出所有class="nr6 lan2"下所有a
class_a = soup.find_all(class_="nr6 lan2")
s = BeautifulSoup(str(class_a)).find_all('a')
#这个list用来存放所有章节URL
url_list=[]
z_url = 'http://cnc.dm5.com'
#循环所有a,获取URL
for line in s:bs_a = BeautifulSoup(str(line))#这个判断是用来去除不需要的URL,它们是已http://开头,正确的URL是/开头if not bs_a.a.get('href').split('/')[0]:w_url = z_url+bs_a.a.get('href')url_list.append(z_url+bs_a.a.get('href'))
#去重排序URL
print sorted(list(set(url_list)),key=str.lower)

这样就得到了所有章节的URL,现在这里先放一下,我们点击进入一个章节,看一会儿漫画,诶,居然有广告,开始找出需要的漫画url,按下F12,我们可以马上找到,真的找到了吗?
之前说过浏览器下的源码是经过js解析以后的完整源代码,而python不具备js的解析,很简单的实验,之前也提到过,将获取的源码写入一个文件中
#coding:utf-8
import requestswfile = open('url.html','w')
r = requests.get('http://cnc.dm5.com/m208526/').contentwfile.write(r)
在这个url.html中搜索id="cp_img",原本下面应该有的img元素不见了,整个id下面竟然没有子节点,再往下看,会找到关于img的js函数,现在可以确定,图片是由js控制的,python不能解析的话,只能依赖别的工具selenium,phantomjs-1.9.8,好复杂的说
话不多说,直接上代码
#coding:UTF-8
import urllib2
from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import requests
import re
import json
from selenium import webdriver  
import sys#这两个url,待会儿再解释
#url="http://cnc.dm5.com/m208526-p1"
url="http://cnc.dm5.com/m208526/#ipg1"
#一个是windows下的路径,一个是ubuntu下的路径,根据自己的安装路径
#driver = webdriver.PhantomJS(executable_path='C:\\YXJR_ZJL\\RuanJian\\phantomjs-2.0.0-windows\\bin\\phantomjs') 
driver = webdriver.PhantomJS(executable_path='/home/zjl//phantomjs-1.9.8/bin/phantomjs')
driver.get(url)
#根据xpath找到id="cp_image"的img元素,获取src属性值
r= driver.find_element_by_xpath("//img[@id='cp_image']").get_attribute('src')
#下载图片,保存本地
with open(r'yy11.jpg','wb') as f:f.write(requests.get(r).content)

 上面是两个url均有效,当你点击下一页的时候url后面会出现一个页数的参数,默认第一页是没有的就算加上参数也不影响将图片保存本地看一下,会发现一个问题,为什么下载的图片和现实看到的图片不一样呢?下载下来的图片是提示要从正确的网站进入,难道是传说中的防盗链?于是我把代码改了一下: 
#coding:UTF-8
import urllib2
from bs4 import BeautifulSoup
from bs4 import UnicodeDammit
import requests
import re
import json
from selenium import webdriver  
import sys#这两个url,待会儿再解释
#url="http://cnc.dm5.com/m208526-p1"
url="http://cnc.dm5.com/m208526/#ipg1"
#一个是windows下的路径,一个是ubuntu下的路径,根据自己的安装路径
#driver = webdriver.PhantomJS(executable_path='C:\\YXJR_ZJL\\RuanJian\\phantomjs-2.0.0-windows\\bin\\phantomjs') 
driver = webdriver.PhantomJS(executable_path='/home/zjl//phantomjs-1.9.8/bin/phantomjs')
driver.get(url)
#根据xpath找到id="cp_image"的img元素,获取src属性值
r= driver.find_element_by_xpath("//img[@id='cp_image']").get_attribute('src')
#获取图片的头地址
rr = r.split('//')[1].split('/')[0]
#自定义头信息
headers = {'Host':rr,
'Referer':url,
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:38.0) Gecko/20100101 Firefox/38.0'}
imgUrl = r
#下载图片
with open(r'yy11.jpg','wb') as f:#访问时发送自定义的头信息f.write(requests.get(imgUrl,headers=headers).content)
现在发现ok了,下载的图片正常显示
到这里,用上面所有的知识已经可以写一个漫画下载器了,可以去网站下载漫画看了,哈哈哈......

今天先到这里,下次继续










这篇关于python为在线漫画网站自制非官方API(未完待续)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1110805

相关文章

Python脚本实现自动删除C盘临时文件夹

《Python脚本实现自动删除C盘临时文件夹》在日常使用电脑的过程中,临时文件夹往往会积累大量的无用数据,占用宝贵的磁盘空间,下面我们就来看看Python如何通过脚本实现自动删除C盘临时文件夹吧... 目录一、准备工作二、python脚本编写三、脚本解析四、运行脚本五、案例演示六、注意事项七、总结在日常使用

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

python管理工具之conda安装部署及使用详解

《python管理工具之conda安装部署及使用详解》这篇文章详细介绍了如何安装和使用conda来管理Python环境,它涵盖了从安装部署、镜像源配置到具体的conda使用方法,包括创建、激活、安装包... 目录pytpshheraerUhon管理工具:conda部署+使用一、安装部署1、 下载2、 安装3

Python进阶之Excel基本操作介绍

《Python进阶之Excel基本操作介绍》在现实中,很多工作都需要与数据打交道,Excel作为常用的数据处理工具,一直备受人们的青睐,本文主要为大家介绍了一些Python中Excel的基本操作,希望... 目录概述写入使用 xlwt使用 XlsxWriter读取修改概述在现实中,很多工作都需要与数据打交

使用Python实现在Word中添加或删除超链接

《使用Python实现在Word中添加或删除超链接》在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能,本文将为大家介绍一下Python如何实现在Word中添加或... 在Word文档中,超链接是一种将文本或图像连接到其他文档、网页或同一文档中不同部分的功能。通过添加超

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

利用Python编写一个简单的聊天机器人

《利用Python编写一个简单的聊天机器人》这篇文章主要为大家详细介绍了如何利用Python编写一个简单的聊天机器人,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 使用 python 编写一个简单的聊天机器人可以从最基础的逻辑开始,然后逐步加入更复杂的功能。这里我们将先实现一个简单的

基于Python开发电脑定时关机工具

《基于Python开发电脑定时关机工具》这篇文章主要为大家详细介绍了如何基于Python开发一个电脑定时关机工具,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 简介2. 运行效果3. 相关源码1. 简介这个程序就像一个“忠实的管家”,帮你按时关掉电脑,而且全程不需要你多做

Python实现高效地读写大型文件

《Python实现高效地读写大型文件》Python如何读写的是大型文件,有没有什么方法来提高效率呢,这篇文章就来和大家聊聊如何在Python中高效地读写大型文件,需要的可以了解下... 目录一、逐行读取大型文件二、分块读取大型文件三、使用 mmap 模块进行内存映射文件操作(适用于大文件)四、使用 pand

python实现pdf转word和excel的示例代码

《python实现pdf转word和excel的示例代码》本文主要介绍了python实现pdf转word和excel的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价... 目录一、引言二、python编程1,PDF转Word2,PDF转Excel三、前端页面效果展示总结一