本文主要是介绍整站下载保存为mhtml,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
整站下载保存为mhtml
- 代码
MHTML格式具有独特的优点,它可以完整保留原始网页的所有布局元素以及嵌入图片,无需外部依赖即可呈现原始网页内容,增强了可读性和便捷性。下文将展示如何运用自动化技术,从一个网站的首页出发,采用递归爬取的方式遍历整个站点,并将抓取到的各个页面悉数保存为MHTML格式,同时按照URL的层级结构,将这些页面对应地存储到相应的目录层级中。
代码
# coding: utf-8
import requests
import re
from bs4 import BeautifulSoup
import codecs
import json
import time
import datetime
import os
import sys
from tqdm import tqdm
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import Bydef replace_url(name):for i in ['S:', '-', '<', '>', '/', '\\', '|', ':', '*', '?', ' ','·','"','”','\'','”']:name = name.replace(i, '')return namedef replace_dir(name):for i in ['<', '>', '|', ':',
这篇关于整站下载保存为mhtml的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!