Python将博客内容html导出为Markdown格式

本文主要是介绍Python将博客内容html导出为Markdown格式，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转...

一、为什么要搞？

有一部分博客文章需要搬家，逐个手动CV复制粘贴不仅效率低下，还容易出错，而且还面临格式调整的问题。为了简化这一流程，这里尝试使用python来自动化处理，确保文章内容的准确性和一致性。

二、准备如何搞？

通过博客url地址抓取文章，分析并提取出文章标题和内容，将内容构建成html，再转换为Markdown文件。

在文章新家导入生成的Markdown文件。

三、说搞咱就搞！

抓取文章

在浏览器中（Google Chrome）输入博客网页地址，并F12打开开发者工具

选中Doc，在Response中看到响应结果是html文档

Python将博客内容html导出为Markdown格式

在Headers中复制出User-Agent，以便模拟浏览器的请求

Python将博客内容html导出为Markdown格式

Python代码

rjsequests模拟浏览器抓取文章

import requests

blog_url = 'https://blog.csdn.net/qq_40605196/article/details/134268057'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'}
res = requests.get(url=blog_url, headers=headers)
print(res.text)

Python将博客内容html导出为Markdown格式

可见Python抓取结果和浏览器中的响应结果一致

提取内容

分析响应结果hChina编程tml

标题在articleContentId中

Python将博客内容html导出为Markdown格式

内容在content_views中

Python将博客内容html导出为Markdown格式

Python代码

使用parsel的Selector解析抓取到的文章，css选择器提取标题和内容

import parsel

selector = parsel.Selector(res.text)  # 创建Selector解析对象
title = selector.css('#articleContentId::text').get()  # CSS选择器提取文章标题
print(title)
print("="*100)
content = selector.css('China编程#content_views').get()  # CSS选择器提取文章内容
print(content)

Python将博客内容html导出为Markdown格式

构建html

www.chinasem.cn

将提取到的content构建成html

html_content = f"""
<!doctype html>
<html lang="zh-CN">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{content}
</body>
</html>
"""

转存markdown

html2text将构建好的html转换为markdown文件

from html2text import html2text

markdown = html2text(html_content)  # html转换为markdown
md_path = f'{title}.md'
with open(md_path, 'w+', encoding='utf-8') as f:  # 保存为md文件
    f.write(markdown)

markdown文件内容如下图：

Python将博客内容html导出为Markdown格式

搬入新家

在新家中导入保存的.md文件

Python将博客内容html导出为Markdown格式

文章中的文字、图片、代码块以及格式都完美搬入新家

到此这篇关于Pythwww.chinasem.cnon将博客内容html导出为Markdown格式的文章就介绍到这了,更多相关Python将html导出为Markdown内容请搜索编程China编程(www.chinasem.cn)以前的文章或继续浏览下面的相关文章希望大家以后多多支持China编程(www.chinasem.cn)！

这篇关于Python将博客内容html导出为Markdown格式的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！