python自动化办公之爬取HTML目录样式写入word文档实战(含NO pandoc was found报错解决)

本文主要是介绍python自动化办公之爬取HTML目录样式写入word文档实战(含NO pandoc was found报错解决),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

python自动化办公之爬取HTML目录样式写入word文档实战

看见朋友每天重复地从网页里把目录复制粘贴到word里,觉得很不智能。于是想到用Python的自动化办公功能,来解救他!比如,下面这个图就是HTML里的内容,我要把它提取出来写入到word里面,还要带上这本书的标题,给word命名。写好了就可以批量处理!!!是不是很妙o( ̄︶ ̄)o
在这里插入图片描述
还好朋友会用一个sitemapX工具,把网页中的目标路径都写入到一个txt文件中。为了保护别人的网站,我还是不给链接给大家了。

在这里插入图片描述
调用的库:
import time
import re
import urllib.request
import os
import pypandoc
from docx.oxml.ns import qn
from docx import Document
这个小项目做起来,还是有几个重点需要注意的地方:

(1)每次解析30个HTML文件,之后需要更新原来的txt文件,不然每次处理的都是前30个HTML文件。

#获取网页列表
def input_html(txtname):with open(txtname,'r') as f:content = f.read()s1 = content.split('\n')#讲字符串转为列表html_num = len(s1)#链接总个数print('该文件含有{}个链接'.format(html_num))s2 = s1[30:]#剩下的链接new_html = '\n'.join(s2)#更新new_html_num = len(s2)#链接总个数print('完成这次任务,还剩{}个链接'.format(new_html_num))return new_html#创建新的文档,以时间作为区分
import time
nowtime = time.strftime("%Y%m%d%H%M%S", time.localtime())#当前时间作为新的文件表示
with open("sitemap" + nowtime + ".txt", "w", encoding='utf-8') as f:f.write(input_html("sitemap.txt"))f.close()

在这里插入图片描述
(2)读取HTML文件,提取其中所需要的的内容,需要使用正则表达式,主要提取两部分,一个是标题,一个是带有目录的内容。

import re
import urllib.request      #导入request模块
def Parse_html(url):res = urllib.request.urlopen(url)      #调用urlopen()从服务器获取响应界面html = res.read().decode('utf-8')     #对返回的响应数据解码,并赋值给htmlreturn html
html=Parse_html(url)
#提取源文件一部分作为内容部分
str1=re.findall('<div class="DetailInfo">([\s\S]*?)<div class="Column ElectronicIntro"',html)#取两者之间的部分
str1[0]=str1[0].replace('<div class="Column ColumnCatalog" id="columnCatalog" style="display: none">','<div class="Column ColumnCatalog" id="columnCatalog" style="">')
str1_1=re.sub('</span>[\s]*?<li>','</span>\n</li><li>',str1[0])#补缺失在部分</li>
str1_2=re.sub('</span>[\s]*?</ul>','</span>\n</li></ul>',str1_1)#补缺失在部分</li>
#提取源文件一部分作为标题部分
str2=re.findall("<h1[\s\S]*?</h1>",html)#匹配含换行符[\s\S]*?,之间匹配任何字符,含换行符

怎样查看网页对应的目标图片链接呢?使用chrome浏览器打开上述网页,然后按F12,就会在右边看到这个网页的源代码,按照我下图的三步走,点击小箭头后,把鼠标移动到目标图片,悬浮即可,这个时候右边会高亮显示对应这个目标部分的网页源代码。就可以看到我用红色框框起来的部分,src后面引号的部分就是这个图片的连接。
在这里插入图片描述

这中间还是遇到了两个问题,一个是的缺失,会导致一部分内容不可显示;另外一个问题style=“display: none"这个部分会把目录隐藏,所以,需要将它替换成style=”"。这部分就涉及到了HTML的结构正则表达式

(3)把提取的内容拼接起来,重新形成一个HTML文件。

import os
def write_html(title,content):html1 = open("n.html", "w")#写成htmlhtml1.write(title)#标题html1.write(content)#内容html1.close()
#把处理好的内容写入HTML文件
write_html(str2[0],str1_2)

(4)将HTML文件写入Word

import pypandoc
def html_docx(html_path,docx_path):f = open(html_path,"r",encoding='gbk')html1 = f.read()output = pypandoc.convert_text(html1, 'docx', 'html', outputfile=docx_path)  # 将 html 代码转化成docx
#把新的HTML文件写入Word,自带格式
html_docx("n.html","file1.docx")

这个阶段有个难点,就是pypandoc的导入,在公司用的服务器,调试起来没有问题,但是在家里的电脑报错了NO pandoc was found。具体见下图:

在这里插入图片描述
在网上找了很多方法尝试,主要是按照报错的指引去做的,可是都没有得到改善。最后找到一篇帖子https://blog.csdn.net/qq_43741748/article/details/105454719,《下载和安装Pandoc(Windows和Mac版本)》从Pandoc的官网下载https://www.pandoc.org/installing.html,直接运行安装问题就解决了。
在这里插入图片描述
(5)根据需求进一步调整Word内容,主要是字体调成微软雅黑,增加页脚,用内容的标题给文件命名,存储下来。

#修改word样式,给文件命名,增加页脚
from docx import Document
document = Document('file1.docx')
document.paragraphs[0].text=document.paragraphs[0].text.replace("[题库]","")
document.paragraphs[0].text=document.paragraphs[0].text.replace("[电子书]","")
f=document.paragraphs[0].text
filename=f#取文件名
sec = document.sections# word文档中章节 section 对象sec0 = sec[0]  # 获取章节对象
font0 = sec0.footer  # 返回页脚对象
#print(font0)
# 设置页脚
#print(font0.paragraphs)
font0_par = font0.paragraphs[0]
font0_par.add_run('                     星蓝海学习网-考研资格考试,电子书题库,视频答案详解')
from docx.oxml.ns import qn
document.styles['Normal'].font.name = u'微软雅黑'
document.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'微软雅黑') # 将段落中的所有字体
document.save('{}.docx'.format(filename))

对第一步的列表还需要循环遍历,属于基础就没有再赘述了,还有就是在循环遍历的时候,需要增加异常处理的部分。处理结果贴给大家看看,
在这里插入图片描述
在这里插入图片描述

在docx文档处理的部分,标题还不能更改样式,日后还需要进一步完善!

**整理内容不易,走过路过觉得课程内容不错,请帮忙点赞、收藏!Thanks♪(・ω・)ノ****如需转载,请注明出处

参考文献:**

1.csdn.net/qq_43741748/article/details/105454719

2.https://www.pandoc.org/installing.html

这篇关于python自动化办公之爬取HTML目录样式写入word文档实战(含NO pandoc was found报错解决)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/358497

相关文章

springboot3.x使用@NacosValue无法获取配置信息的解决过程

《springboot3.x使用@NacosValue无法获取配置信息的解决过程》在SpringBoot3.x中升级Nacos依赖后,使用@NacosValue无法动态获取配置,通过引入SpringC... 目录一、python问题描述二、解决方案总结一、问题描述springboot从2android.x

C#高效实现在Word文档中自动化创建图表的可视化方案

《C#高效实现在Word文档中自动化创建图表的可视化方案》本文将深入探讨如何利用C#,结合一款功能强大的第三方库,实现在Word文档中自动化创建图表,为你的数据呈现和报告生成提供一套实用且高效的解决方... 目录Word文档图表自动化:为什么选择C#?从零开始:C#实现Word文档图表的基本步骤深度优化:C

SpringBoot整合AOP及使用案例实战

《SpringBoot整合AOP及使用案例实战》本文详细介绍了SpringAOP中的切入点表达式,重点讲解了execution表达式的语法和用法,通过案例实战,展示了AOP的基本使用、结合自定义注解以... 目录一、 引入依赖二、切入点表达式详解三、案例实战1. AOP基本使用2. AOP结合自定义注解3.

Python中Request的安装以及简单的使用方法图文教程

《Python中Request的安装以及简单的使用方法图文教程》python里的request库经常被用于进行网络爬虫,想要学习网络爬虫的同学必须得安装request这个第三方库,:本文主要介绍P... 目录1.Requests 安装cmd 窗口安装为pycharm安装在pycharm设置中为项目安装req

Python容器转换与共有函数举例详解

《Python容器转换与共有函数举例详解》Python容器是Python编程语言中非常基础且重要的概念,它们提供了数据的存储和组织方式,下面:本文主要介绍Python容器转换与共有函数的相关资料,... 目录python容器转换与共有函数详解一、容器类型概览二、容器类型转换1. 基本容器转换2. 高级转换示

Qt实现对Word网页的读取功能

《Qt实现对Word网页的读取功能》文章介绍了几种在Qt中实现Word文档(.docx/.doc)读写功能的方法,包括基于QAxObject的COM接口调用、DOCX模板替换及跨平台解决方案,重点讨论... 目录1. 核心实现方式2. 基于QAxObject的COM接口调用(Windows专用)2.1 环境

使用Python将PDF表格自动提取并写入Word文档表格

《使用Python将PDF表格自动提取并写入Word文档表格》在实际办公与数据处理场景中,PDF文件里的表格往往无法直接复制到Word中,本文将介绍如何使用Python从PDF文件中提取表格数据,并将... 目录引言1. 加载 PDF 文件并准备 Word 文档2. 提取 PDF 表格并创建 Word 表格

使用Python实现局域网远程监控电脑屏幕的方法

《使用Python实现局域网远程监控电脑屏幕的方法》文章介绍了两种使用Python在局域网内实现远程监控电脑屏幕的方法,方法一使用mss和socket,方法二使用PyAutoGUI和Flask,每种方... 目录方法一:使用mss和socket实现屏幕共享服务端(被监控端)客户端(监控端)方法二:使用PyA

Python列表的创建与删除的操作指南

《Python列表的创建与删除的操作指南》列表(list)是Python中最常用、最灵活的内置数据结构之一,它支持动态扩容、混合类型、嵌套结构,几乎无处不在,但你真的会创建和删除列表吗,本文给大家介绍... 目录一、前言二、列表的创建方式1. 字面量语法(最常用)2. 使用list()构造器3. 列表推导式

Python使用Matplotlib和Seaborn绘制常用图表的技巧

《Python使用Matplotlib和Seaborn绘制常用图表的技巧》Python作为数据科学领域的明星语言,拥有强大且丰富的可视化库,其中最著名的莫过于Matplotlib和Seaborn,本篇... 目录1. 引言:数据可视化的力量2. 前置知识与环境准备2.1. 必备知识2.2. 安装所需库2.3