【Delphi 爬虫库 3】使用封装好的 HTML 解析库对 HTML 数据进行解析

2024-05-06 06:28

本文主要是介绍【Delphi 爬虫库 3】使用封装好的 HTML 解析库对 HTML 数据进行解析,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

    • 解析HTML的意义
      • 1、简单解析HTML代码
      • 2、实战解析HTML代码

解析HTML的意义

HTML是Web页面的构建语言,每个Web开发者都需要了解HTML的基础知识。但是,通过手动阅读和解析需要极大的心智和时间投入。这时候,我们就需要使用HTML在线解析工具,方便直接地解析和编辑HTML代码。

通过使用HTML在线解析工具,我们能够实现快速编辑和预览HTML代码的功能。而且,随着科技发展,HTML在线解析工具被越来越多地应用到各种软件和Web应用程序中,具有越来越广泛的应用前景。

1、简单解析HTML代码

下面是一个经典的HTML解析的例子:

<!DOCTYPE html>
<html>
<head><title>Hello, World, This is title!</title>
</head>
<body><h1>Hello, World, This is h1!</h1><p>This is a paragraph1.</p><p>This is a paragraph2.</p>  
</body>
</html>

我们的目标就是利用Html解析库提取出title h1 p 中的内容.。

核心代码:

procedure TForm1.Button4Click(Sender: TObject);
varLHtml: IHtmlElement;LList: IHtmlElementList;ExtractedText: string;
beginLHtml := ParserHTML(Memo1.Text);if LHtml <> nil thenbeginExtractedText := LHtml.Find('title').Text;Memo2.Lines.Add(ExtractedText);ExtractedText := LHtml.Find('h1').Text;Memo2.Lines.Add(ExtractedText);ExtractedText := LHtml.Find('p').Text;Memo2.Lines.Add(ExtractedText);end;
end;

运行返回:

Hello, World, This is title!
Hello, World, This is h1!
This is a paragraph1.This is a paragraph2.

2、实战解析HTML代码

对虎扑体育中的数据进行解析
HTML源代码非常的长,这里就不贴出了,我们需要对最后的<script id="__NEXT_DATA__" type="application/json">中的json数据解析出来.
核心代码:

procedure TForm1.Button5Click(Sender: TObject);
varLHtml: IHtmlElement;LList: IHtmlElementList;Json: string;
beginLHtml := ParserHTML(Memo1.Text);if LHtml <> nil thenbeginLList := LHtml.Find('SCRIPT');for LHtml in LList dobeginif LHtml.Orignal = '<script id="__NEXT_DATA__" type="application/json">' thenbeginJson:= LHtml.InnerHtml;Memo2.Lines.Add(Json);end;end;end;
end;

运行返回:
在这里插入图片描述
成功解析提取出Json,至于对Json怎么解析上一篇文章已经讲过了。

这篇关于【Delphi 爬虫库 3】使用封装好的 HTML 解析库对 HTML 数据进行解析的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/963633

相关文章

Python将博客内容html导出为Markdown格式

《Python将博客内容html导出为Markdown格式》Python将博客内容html导出为Markdown格式,通过博客url地址抓取文章,分析并提取出文章标题和内容,将内容构建成html,再转... 目录一、为什么要搞?二、准备如何搞?三、说搞咱就搞!抓取文章提取内容构建html转存markdown

Python获取中国节假日数据记录入JSON文件

《Python获取中国节假日数据记录入JSON文件》项目系统内置的日历应用为了提升用户体验,特别设置了在调休日期显示“休”的UI图标功能,那么问题是这些调休数据从哪里来呢?我尝试一种更为智能的方法:P... 目录节假日数据获取存入jsON文件节假日数据读取封装完整代码项目系统内置的日历应用为了提升用户体验,

在React中引入Tailwind CSS的完整指南

《在React中引入TailwindCSS的完整指南》在现代前端开发中,使用UI库可以显著提高开发效率,TailwindCSS是一个功能类优先的CSS框架,本文将详细介绍如何在Reac... 目录前言一、Tailwind css 简介二、创建 React 项目使用 Create React App 创建项目

vue使用docxtemplater导出word

《vue使用docxtemplater导出word》docxtemplater是一种邮件合并工具,以编程方式使用并处理条件、循环,并且可以扩展以插入任何内容,下面我们来看看如何使用docxtempl... 目录docxtemplatervue使用docxtemplater导出word安装常用语法 封装导出方

Linux换行符的使用方法详解

《Linux换行符的使用方法详解》本文介绍了Linux中常用的换行符LF及其在文件中的表示,展示了如何使用sed命令替换换行符,并列举了与换行符处理相关的Linux命令,通过代码讲解的非常详细,需要的... 目录简介检测文件中的换行符使用 cat -A 查看换行符使用 od -c 检查字符换行符格式转换将

使用Jackson进行JSON生成与解析的新手指南

《使用Jackson进行JSON生成与解析的新手指南》这篇文章主要为大家详细介绍了如何使用Jackson进行JSON生成与解析处理,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 核心依赖2. 基础用法2.1 对象转 jsON(序列化)2.2 JSON 转对象(反序列化)3.

Springboot @Autowired和@Resource的区别解析

《Springboot@Autowired和@Resource的区别解析》@Resource是JDK提供的注解,只是Spring在实现上提供了这个注解的功能支持,本文给大家介绍Springboot@... 目录【一】定义【1】@Autowired【2】@Resource【二】区别【1】包含的属性不同【2】@

使用Python实现快速搭建本地HTTP服务器

《使用Python实现快速搭建本地HTTP服务器》:本文主要介绍如何使用Python快速搭建本地HTTP服务器,轻松实现一键HTTP文件共享,同时结合二维码技术,让访问更简单,感兴趣的小伙伴可以了... 目录1. 概述2. 快速搭建 HTTP 文件共享服务2.1 核心思路2.2 代码实现2.3 代码解读3.

Elasticsearch 在 Java 中的使用教程

《Elasticsearch在Java中的使用教程》Elasticsearch是一个分布式搜索和分析引擎,基于ApacheLucene构建,能够实现实时数据的存储、搜索、和分析,它广泛应用于全文... 目录1. Elasticsearch 简介2. 环境准备2.1 安装 Elasticsearch2.2 J

使用C#代码在PDF文档中添加、删除和替换图片

《使用C#代码在PDF文档中添加、删除和替换图片》在当今数字化文档处理场景中,动态操作PDF文档中的图像已成为企业级应用开发的核心需求之一,本文将介绍如何在.NET平台使用C#代码在PDF文档中添加、... 目录引言用C#添加图片到PDF文档用C#删除PDF文档中的图片用C#替换PDF文档中的图片引言在当