【VBA脚本】提取word文档中所有批注的信息和待解决状态

2023-10-09 14:40

本文主要是介绍【VBA脚本】提取word文档中所有批注的信息和待解决状态,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

前言

关于word文档的工具,之前做过这个:

针对word.docx文档的关键词索引器

这个工具在我设想中的是用来在项目的后期检查文档中是否还有TBD/TODO这类关键词未清理,检查文档的完成状态。而后,继续探索对于文档质量检查的工具,于是我发现我们很多文档的review是通过批注完成的(当然也有借助网站的),而这些批注的待解决状态并不是非常的直观:

尤其是文档较长的时候,需要一条一条的过(当然了,word里也支持跳到下一个未解决)。如果只有一个文档还好,如果你作为交付负责人,要负责许多文档的交付质量时,一个文档一个文档的看肯定是不现实的,因此我觉得有必要做这样一个统计归档的工具。当然,已经有review网站或者平台做了这种事情,所以我这个工具主要是作为练手,或者是没买这类平台的人。

终极构想

图形化界面操作:

1.选取目录,之后递归得到所有word文档;

2.对每一个word文档,抓取所有的批注,包括文档路径、批注页码、行号、批注内容、原文、批注者、批注时间、批注解决状态,其中批注解决状态是需要的核心信息;

3.设置选项,可以只抓取未解决的批注;

4.抓取成功后将信息整理到需要的excel文档中,以供评审。

抓取批注信息

python抓取批注

最开始我想的是用python来抓取docx里的批注信息,也仿写了代码:

def docx_comments_get(file):document = ZipFile(file)xml = document.read("word/comments.xml")wordObj = BeautifulSoup(xml.decode("utf-8"), features="xml")texts = wordObj.findAll("w:t")for text in texts:print(text.text)
passdef main():docx_comments_get("D:\MyWork\python\测试文档.docx")

但是发现这样做只能抓取批注内容,对于其他的信息很难获取,即使打开了docx里comments.xml源文件,里面的内容也很有限:

其他的信息就散落在他的xml文件里,我的确是不太会处理。所以通过python去提取批注的完整信息这条路基本就走不通了。

VBA抓取批注

于是我就转换了一个方向,通过VBA来获取内部的批注信息,微软自己的工具对word的支持应该做的不能差吧。继续这个方向发现确实,VBA可以把一个word内部的批注信息提供的非常完善。通过word的开发工具进入visual basic的编程界面,开始编写宏文件。

下面是我最终的宏代码:


Public Sub exportWordComments_Click()FileName = Application.ActiveDocument '文件名.docxvarResult = VBA.Split(FileName, ".")FileNameStr = varResult(0) '去除后缀的文件名Path = Application.ActiveDocument.PathFilePath = Path & "\" & FileName '当前文件的完整路径LogPath = Path & "\" & FileNameStr & "_comments.txt" '批注信息的输出目录'Debug.Print (FilePath)If FileName = "False" ThenExit SubEnd IfRows = ActiveDocument.Comments.Count '总的批注数量'Debug.Print (Rows)Open LogPath For Output As #1 '输出txt文件Print #1, "==================================================="For i = 1 To RowsPageNumber = ActiveDocument.Comments(i).Scope.Information(wdActiveEndPageNumber) '批注在第几页CharacterLineNumber = ActiveDocument.Comments(i).Scope.Information(wdFirstCharacterLineNumber) '批注在这页的第几行Scope = ActiveDocument.Comments(i).Scope '批注原文ScopeComment = ActiveDocument.Comments(i).Range '批注内容ScopeDate = ActiveDocument.Comments(i).Date  '批注时间ScopeAuthor = ActiveDocument.Comments(i).Contact '批注作者ScopeDone = ActiveDocument.Comments(i).Done '批注是否被解决'Debug.Print ("原文:" & ActiveDocument.Comments(i).Scope) '原文'Debug.Print (ActiveDocument.Comments(i).Done)'Debug.Print (ActiveDocument.Comments(i).Contact)'Debug.Print (ActiveDocument.Comments(i).Creator)'Debug.Print (ActiveDocument.Comments(i).Date)'Debug.Print (ActiveDocument.Comments(i).Index)'Debug.Print (ActiveDocument.Comments(i).Parent)'Debug.Print (ActiveDocument.Comments(i).Reference)'Debug.Print ("批注内容:" & ActiveDocument.Comments(i).Range) '批注内容'Debug.Print (ActiveDocument.Comments(i).IsInk)'是否包含链接Print #1, "文件:" & FilePathPrint #1, "页:" & PageNumberPrint #1, "行:" & CharacterLineNumberPrint #1, "原文:" & ScopePrint #1, "批注:" & ScopeCommentPrint #1, "日期:" & ScopeDatePrint #1, "批注者:" & ScopeAuthorPrint #1, "是否解决:" & ScopeDonePrint #1, "==================================================="NextPrint #1, ""Close #1End Sub

执行宏命令后,会在word的目录下出现一个 文件名_comments.txt 文件,打开文件可以看到如下信息:

后记

最关键的第一步打通之后,接下来就是通过python递归所有带处理文件,对每一个文件调用宏生成txt,整理所有txt为excel表,对整个程序做图形界面以便使用。

请待后续~

这篇关于【VBA脚本】提取word文档中所有批注的信息和待解决状态的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/173552

相关文章

使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)

《使用Java解析JSON数据并提取特定字段的实现步骤(以提取mailNo为例)》在现代软件开发中,处理JSON数据是一项非常常见的任务,无论是从API接口获取数据,还是将数据存储为JSON格式,解析... 目录1. 背景介绍1.1 jsON简介1.2 实际案例2. 准备工作2.1 环境搭建2.1.1 添加

C#读取本地网络配置信息全攻略分享

《C#读取本地网络配置信息全攻略分享》在当今数字化时代,网络已深度融入我们生活与工作的方方面面,对于软件开发而言,掌握本地计算机的网络配置信息显得尤为关键,而在C#编程的世界里,我们又该如何巧妙地读取... 目录一、引言二、C# 读取本地网络配置信息的基础准备2.1 引入关键命名空间2.2 理解核心类与方法

oracle数据库索引失效的问题及解决

《oracle数据库索引失效的问题及解决》本文总结了在Oracle数据库中索引失效的一些常见场景,包括使用isnull、isnotnull、!=、、、函数处理、like前置%查询以及范围索引和等值索引... 目录oracle数据库索引失效问题场景环境索引失效情况及验证结论一结论二结论三结论四结论五总结ora

element-ui下拉输入框+resetFields无法回显的问题解决

《element-ui下拉输入框+resetFields无法回显的问题解决》本文主要介绍了在使用ElementUI的下拉输入框时,点击重置按钮后输入框无法回显数据的问题,具有一定的参考价值,感兴趣的... 目录描述原因问题重现解决方案方法一方法二总结描述第一次进入页面,不做任何操作,点击重置按钮,再进行下

解决mybatis-plus-boot-starter与mybatis-spring-boot-starter的错误问题

《解决mybatis-plus-boot-starter与mybatis-spring-boot-starter的错误问题》本文主要讲述了在使用MyBatis和MyBatis-Plus时遇到的绑定异常... 目录myBATis-plus-boot-starpythonter与mybatis-spring-b

Linux使用nohup命令在后台运行脚本

《Linux使用nohup命令在后台运行脚本》在Linux或类Unix系统中,后台运行脚本是一项非常实用的技能,尤其适用于需要长时间运行的任务或服务,本文我们来看看如何使用nohup命令在后台... 目录nohup 命令简介基本用法输出重定向& 符号的作用后台进程的特点注意事项实际应用场景长时间运行的任务服

SpringBoot3集成swagger文档的使用方法

《SpringBoot3集成swagger文档的使用方法》本文介绍了Swagger的诞生背景、主要功能以及如何在SpringBoot3中集成Swagger文档,Swagger可以帮助自动生成API文档... 目录一、前言1. API 文档自动生成2. 交互式 API 测试3. API 设计和开发协作二、使用

电脑显示hdmi无信号怎么办? 电脑显示器无信号的终极解决指南

《电脑显示hdmi无信号怎么办?电脑显示器无信号的终极解决指南》HDMI无信号的问题却让人头疼不已,遇到这种情况该怎么办?针对这种情况,我们可以采取一系列步骤来逐一排查并解决问题,以下是详细的方法... 无论你是试图为笔记本电脑设置多个显示器还是使用外部显示器,都可能会弹出“无HDMI信号”错误。此消息可能

mysql主从及遇到的问题解决

《mysql主从及遇到的问题解决》本文详细介绍了如何使用Docker配置MySQL主从复制,首先创建了两个文件夹并分别配置了`my.cnf`文件,通过执行脚本启动容器并配置好主从关系,文中还提到了一些... 目录mysql主从及遇到问题解决遇到的问题说明总结mysql主从及遇到问题解决1.基于mysql

如何安装HWE内核? Ubuntu安装hwe内核解决硬件太新的问题

《如何安装HWE内核?Ubuntu安装hwe内核解决硬件太新的问题》今天的主角就是hwe内核(hardwareenablementkernel),一般安装的Ubuntu都是初始内核,不能很好地支... 对于追求系统稳定性,又想充分利用最新硬件特性的 Ubuntu 用户来说,HWEXBQgUbdlna(Har