记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中...

本文主要是介绍记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中...,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 猫眼票房排行榜页面显示如下:

注意右边的票房数据显示,爬下来的数据是这样显示的:

网页源代码中是这样显示的:

 

 

这是因为网页中使用了某种字体的缘故,分析源代码可知:

 

亲测可行:

  代码中获取的是国内票房榜,稍加修改也可适用于最受期待榜和北美票房榜

 

解决思路如下:

1.获取网页数据后,查找字体信息,获取到字体链接,下载字体保存到本地

2.使用fontTools读取字体中的字符集,并构造字典(依据基准字体)

3.根据字典,替换网页中的相关数据信息。

 

 注意:如果使用BeautifulSoup一定要先使用字典替换字符集,再解析。直接解析BeautifulSoup会将无法识别的字符置为空。

 

#!/usr/bin/env python
# -*- coding: utf-8 -*-
""" 
@Project:pachong
@author:sandu
@Email: sandu12345@msn.cn
@Software: PyCharm
@file: test_maoyan.py 
@time: 2019-01-08 0008 上午 10:05 
"""import csv
import json
import os
import re
from hashlib import md5import pymongo
import requests
from fontTools.ttLib import TTFont
from requests.exceptions import RequestExceptionimport woff2otfMONGO_URL = 'localhost'
MONGO_DB = 'maoyan'
MONGO_TABLE = 'maoyan_beimei'client = pymongo.MongoClient(MONGO_URL, connect=False)
db = client[MONGO_DB]# 获取单页数据
def get_one_page(url):try:response = requests.get(url)if response.status_code == 200:return response.textreturn Noneexcept RequestException:return None# 解析单页数据,获取所需的数据
# '.*?board-index.*?>(\d+).*?' 获取顺序号
# '.*?data-src="(.*?)".*?'    获取图片链接
# '.*?name.*?title.*?>(.*?)</a>.*?'  获取电影名称
# '.*?star">(.*?)</p>.*?',re.S 获取演员名单(有换行,需要加上re.S,否则获取不到数据)
# '.*?releasetime">(.*?)</p>.*?' 获取上映时间
# '.*?integer">(.*?)</i>.*?' 获取主分
# '.*?fraction">(.*?)</i>.*?'获取辅分# '.*?realtime.*?stonefont">(.*?)</span></span>(.*?)</p>.*?' 实时票房
# '.*?total-boxoffice.*?stonefont">(.*?)</span></span>(.*?)</p>.*?' 总票房
# 综合下来,加上最外层的dddef parse_one_page(html):pattern = re.compile('<dd>.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name.*?title.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>.*?realtime.*?stonefont">(.*?)</span></span>(.*?)</p>.*?total-boxoffice.*?stonefont">(.*?)</span></span>(.*?)</p>.*?</dd>',re.S)items = re.findall(pattern, html)for item in items:yield {'index': item[0],'img': item[1],'name': item[2].strip(),  # 去除前后空格换行符等'star': item[3].strip()[3:],  # 去除前后空格换行符等,切片截取指定的范围'time': item[4][5:],'实时票房': item[5] + item[6].strip(),'总票房': item[7] + item[8].strip(),}#  保存至文件
def save_to_file(content):# 注意:把json数据保存到文件中显示出中文with open('beimei.text', 'a', encoding='utf-8') as f:f.write(json.dumps(content, ensure_ascii=False) + '\n')# 保存到数据库中
def save_to_mongo(result):if db[MONGO_TABLE].insert(result):print('Successfully Saved to Mongo', result)return Truereturn False# 请求图片url,获取图片二进制数据
def download_image(url):try:response = requests.get(url)if response.status_code == 200:save_image(response.content)  # response.contenter二进制数据 response.text文本数据return Noneexcept RequestException:print('请求图片出错')return None# 数据存储到csv
def write_to_file3(item):with open('beimei.csv', 'a', encoding='utf_8_sig', newline='') as f:# 'a'为追加模式(添加)# utf_8_sig格式导出csv不乱码fieldnames = ['index', 'img', 'name', 'star', 'time', '实时票房', '总票房']w = csv.DictWriter(f, fieldnames=fieldnames)w.writerow(item)# 解析字体
def get_font_regx(html):p = re.compile(r"url\('(.*?)'\)\sformat\('woff'\);")  # 查找网页上的字体链接uni_font_url = re.findall(p, html)url = 'http:%s' % uni_font_url[0]resp = requests.get(url)with open('maoyan.woff', 'wb') as fontfile:for chunk in resp.iter_content(chunk_size=1024):if chunk:fontfile.write(chunk)  # 将字体下载到本地woff2otf.convert('maoyan.woff', 'maoyan.otf')baseFont = TTFont('base.otf')  # base.otf是某一次访问获取的字体文件,然后人工识别内容,作为与后面获取字体的比对标本,从而让电脑自动获得后面获取字体的实际内容。maoyanFont = TTFont('maoyan.otf')uniList = maoyanFont['cmap'].tables[0].ttFont.getGlyphOrder()  # 解析otf字体后获得的数据numList = []  # 解析otf字体数据转换成数字baseNumList = ['.', '3', '5', '1', '2', '7', '0', '6', '9', '8', '4']baseUniCode = ['x', 'uniE78E', 'uniF176', 'uniEFE6', 'uniF074', 'uniE9C8', 'uniE912', 'uniEA71', 'uniE74E','uniE4B8', 'uniEE71']for i in range(1, 12):maoyanGlyph = maoyanFont['glyf'][uniList[i]]for j in range(11):baseGlyph = baseFont['glyf'][baseUniCode[j]]if maoyanGlyph == baseGlyph:numList.append(baseNumList[j])breakuniList[1] = 'uni0078'new_dict = dict(zip(uniList[2:], numList[1:]))  # 实时获取字体映射关系html = html.replace('&#x', 'uni')for key in new_dict.keys():initstr = key.lower() + ';'html = html.replace(initstr, new_dict[key])return htmldef save_image(content):file_path = '{0}/{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')if not os.path.exists(file_path):with open(file_path, 'wb') as f:f.write(content)def main(offset):url = 'https://maoyan.com/board/2?offset=' + str(offset)  # 针对分页html = get_one_page(url)html = get_font_regx(html)for item in parse_one_page(html):print(item)save_to_file(item)  # 保存至文件write_to_file3(item)  # 写入到csv文件中,一定要写在保存到数据库的前面,因为先保存到数据库后保存的字典数据中会多一个_id值save_to_mongo(item)  # 保存到数据库# download_image(item['img']) # 下载图片保存到当前目录if __name__ == '__main__':# for i in range(0, 100):#     main(str(i*10))# 开启多线程# pool = Pool()# pool.map(main,0)
main(0)

 

 

 


# 注:如何获取代码中base.otf相关信息?
# 1.根据获取到的woff字体文件,使用百度字体编辑器,获取字体数字等相关信息,地址:http://fontstore.baidu.com/static/editor/index.html


# 2.将获取到的woff文件使用woff2otf.convert('maoyan.woff', 'base.otf')转化成base.otf文件保存到当前目录(./woff2otf.py font.woff font.otf),从而获得baseFont(代码中变量)
# 3.根据百度字体编辑器获取到的信息,构造baseNumList和baseUniCode(代码中变量)

# 4.再次发起请求根据获得的字体跟这个构造的基准字体进行对照,从而获得新的字体映射关系

# 注: woff2otf是导入的一个py文件,链接地址:https://github.com/hanikesn/woff2otf,作用是输入woff字体,输出otf字体

# 保存到csv文件中

 

 



 

# 保存到MongoDB数据库中

 

转载于:https://www.cnblogs.com/sanduzxcvbnm/p/10239761.html

这篇关于记录python爬取猫眼票房排行榜(带stonefont字体网页),保存到text文件,csv文件和MongoDB数据库中...的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/339979

相关文章

Python使用自带的base64库进行base64编码和解码

《Python使用自带的base64库进行base64编码和解码》在Python中,处理数据的编码和解码是数据传输和存储中非常普遍的需求,其中,Base64是一种常用的编码方案,本文我将详细介绍如何使... 目录引言使用python的base64库进行编码和解码编码函数解码函数Base64编码的应用场景注意

Spring Boot 配置文件之类型、加载顺序与最佳实践记录

《SpringBoot配置文件之类型、加载顺序与最佳实践记录》SpringBoot的配置文件是灵活且强大的工具,通过合理的配置管理,可以让应用开发和部署更加高效,无论是简单的属性配置,还是复杂... 目录Spring Boot 配置文件详解一、Spring Boot 配置文件类型1.1 applicatio

Python基于wxPython和FFmpeg开发一个视频标签工具

《Python基于wxPython和FFmpeg开发一个视频标签工具》在当今数字媒体时代,视频内容的管理和标记变得越来越重要,无论是研究人员需要对实验视频进行时间点标记,还是个人用户希望对家庭视频进行... 目录引言1. 应用概述2. 技术栈分析2.1 核心库和模块2.2 wxpython作为GUI选择的优

C# WinForms存储过程操作数据库的实例讲解

《C#WinForms存储过程操作数据库的实例讲解》:本文主要介绍C#WinForms存储过程操作数据库的实例,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、存储过程基础二、C# 调用流程1. 数据库连接配置2. 执行存储过程(增删改)3. 查询数据三、事务处

Python如何使用__slots__实现节省内存和性能优化

《Python如何使用__slots__实现节省内存和性能优化》你有想过,一个小小的__slots__能让你的Python类内存消耗直接减半吗,没错,今天咱们要聊的就是这个让人眼前一亮的技巧,感兴趣的... 目录背景:内存吃得满满的类__slots__:你的内存管理小助手举个大概的例子:看看效果如何?1.

Python+PyQt5实现多屏幕协同播放功能

《Python+PyQt5实现多屏幕协同播放功能》在现代会议展示、数字广告、展览展示等场景中,多屏幕协同播放已成为刚需,下面我们就来看看如何利用Python和PyQt5开发一套功能强大的跨屏播控系统吧... 目录一、项目概述:突破传统播放限制二、核心技术解析2.1 多屏管理机制2.2 播放引擎设计2.3 专

Python中随机休眠技术原理与应用详解

《Python中随机休眠技术原理与应用详解》在编程中,让程序暂停执行特定时间是常见需求,当需要引入不确定性时,随机休眠就成为关键技巧,下面我们就来看看Python中随机休眠技术的具体实现与应用吧... 目录引言一、实现原理与基础方法1.1 核心函数解析1.2 基础实现模板1.3 整数版实现二、典型应用场景2

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很

MySQL INSERT语句实现当记录不存在时插入的几种方法

《MySQLINSERT语句实现当记录不存在时插入的几种方法》MySQL的INSERT语句是用于向数据库表中插入新记录的关键命令,下面:本文主要介绍MySQLINSERT语句实现当记录不存在时... 目录使用 INSERT IGNORE使用 ON DUPLICATE KEY UPDATE使用 REPLACE

mysql数据库重置表主键id的实现

《mysql数据库重置表主键id的实现》在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,本文主要介绍了mysql数据库重置表主键id的实现,具有一定的参考价值,感兴趣的可以了... 目录关键语法演示案例在我们的开发过程中,难免在做测试的时候会生成一些杂乱无章的SQL主键数据,当我们