对本系统后续工作者的一点建议

2024-04-19 08:18

本文主要是介绍对本系统后续工作者的一点建议,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

对后续工作者的一点建议 build 091011

1. 熟悉HtmlParser

 Java用于解析网页的开源库主要有HtmlParser和NekoHtml,模拟浏览器自动测试的有HtmlUnit,真正解析js或提取dom节点的视觉信息还是靠Mozilla的浏览器。
 
 NekoHtml的效率和发展状况更好,但是实践表明HtmlParser是可以满足信息抽取任务的。HtmlParser结构比较好,便于上手或进一步修改。

 务必熟悉HtmlParser的大部分API,及其所有内部数据结构,这是下一步工作的基础。

2. 阅读论文

 可以以几篇中文论文(综述,或相关硕博士论文)入门,之后阅读WWW 会议或IEEE,ACM相关会议的论文。

 下面是我看过的论文中关于HTML结构这方面比较经典的

 0.A Brief Survey of Web Data Extraction Tools
 02年的综述,值得一看。鄙人已译,译文在网上很容易搜到。如果比较懒,直接看下一篇也可以。

 1.A Survey of Web Information Extraction Systems.
 06年IE领域权威综述,必读

 2.RoadRunner Towards Automatic Data Extraction from Large Web Sites
 基于html的包装器全自动抽取技术的鼻祖

 3.Automatic Web news extraction using tree edit distance
 WWW论文,提供了针对相似页面生成模板的全自动信息抽取的一揽子解决方案

 4.Mining Data Records in Web Pages
 SIGKDD论文,无模板方法自动提取数据记录的代表作。鄙人已译。

 5.Web data extraction based on partial tree alignment
 WWW论文,上面这篇论文的改进版,引入了本系统的基础算法:STM算法

 6.Joint Optimization of Wrapper Generation and Template Detection
 KDD论文,这篇论文综合前面几篇的观点,提出了一种模式树。但作者没有说明其动态规划是如何实现的,鄙人一开始是想实现这个算法,但没成功。如果能在本科毕设实现这项工作,我认为是可圈可点的。

 7.VIPS: a Vision-based Page Segmentation Algorithm
 微软亚洲研究院的论文,基于视觉信息分块,前两年火的一塌糊涂,微软的搜索引擎也使用了这项技术,但注意它是无模板的。

 此外,应该了解一下树编辑距离及其衍生问题,最大公共子树问题,后缀树等算法的思想。

 下面是中科院计算所信息抽取小组的blog,其中推荐了很多该领域的论文。
 http://blog.csdn.net/ictextr9

3.下一步的展望

 (0)完善本系统

 WIE系统暂时还只能处理gb2312编码,需要针对自动判断编码进行改进,网上有针对HtmlParser的解决方案。

 本系统的噪音祛除算法还比较简单,如何准确的对网页分块还是一项比较困难的课题,目前效果最好的是基于视觉信息的方法。

 (1)挖掘嵌套数据结构:
 
 本系统对于所有内容节点是一视同仁的,没有考虑表格,列表等数据结构。
 
 以本系统建立的模板为基础,根据上面提到的论文4,5中的方法,实现基于模板技术的列表页面的自动挖掘是完全可行的。实现这项工作也是个不错的本科毕设题目。

 至于文献6的方法,可以量力而行。

 (2)向量空间模型

 这方面比较成熟,但是与本系统相结合是否合适,还有待于考虑。

 (3)视觉信息

 即论文7。这个内容也被广泛应用到普通高等院校的研究生毕设项目中。但是需要使用浏览器解析网页,抛开本系统,从底层重新做,工作量较大。

 本质上说,这是一种无模板方法,但是可以利用该算法来处理我们抽取的模板。

 值得注意的是,无模板抽取网页信息的方法,在这两年发展迅速。


 (4)自然语言处理&机器学习&隐马尔可夫模型

 这些都有现成的毕设论文可供参考。没做过相关研究,不做评论。

 

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/scottxp/archive/2009/10/11/4654562.aspx

这篇关于对本系统后续工作者的一点建议的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/917019

相关文章

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明:应用场景:2. 获取硬

JAVA系统中Spring Boot应用程序的配置文件application.yml使用详解

《JAVA系统中SpringBoot应用程序的配置文件application.yml使用详解》:本文主要介绍JAVA系统中SpringBoot应用程序的配置文件application.yml的... 目录文件路径文件内容解释1. Server 配置2. Spring 配置3. Logging 配置4. Ma

2.1/5.1和7.1声道系统有什么区别? 音频声道的专业知识科普

《2.1/5.1和7.1声道系统有什么区别?音频声道的专业知识科普》当设置环绕声系统时,会遇到2.1、5.1、7.1、7.1.2、9.1等数字,当一遍又一遍地看到它们时,可能想知道它们是什... 想要把智能电视自带的音响升级成专业级的家庭影院系统吗?那么你将面临一个重要的选择——使用 2.1、5.1 还是

高效管理你的Linux系统: Debian操作系统常用命令指南

《高效管理你的Linux系统:Debian操作系统常用命令指南》在Debian操作系统中,了解和掌握常用命令对于提高工作效率和系统管理至关重要,本文将详细介绍Debian的常用命令,帮助读者更好地使... Debian是一个流行的linux发行版,它以其稳定性、强大的软件包管理和丰富的社区资源而闻名。在使用

Ubuntu系统怎么安装Warp? 新一代AI 终端神器安装使用方法

《Ubuntu系统怎么安装Warp?新一代AI终端神器安装使用方法》Warp是一款使用Rust开发的现代化AI终端工具,该怎么再Ubuntu系统中安装使用呢?下面我们就来看看详细教程... Warp Terminal 是一款使用 Rust 开发的现代化「AI 终端」工具。最初它只支持 MACOS,但在 20

windows系统下shutdown重启关机命令超详细教程

《windows系统下shutdown重启关机命令超详细教程》shutdown命令是一个强大的工具,允许你通过命令行快速完成关机、重启或注销操作,本文将为你详细解析shutdown命令的使用方法,并提... 目录一、shutdown 命令简介二、shutdown 命令的基本用法三、远程关机与重启四、实际应用

Debian如何查看系统版本? 7种轻松查看Debian版本信息的实用方法

《Debian如何查看系统版本?7种轻松查看Debian版本信息的实用方法》Debian是一个广泛使用的Linux发行版,用户有时需要查看其版本信息以进行系统管理、故障排除或兼容性检查,在Debia... 作为最受欢迎的 linux 发行版之一,Debian 的版本信息在日常使用和系统维护中起着至关重要的作

python安装完成后可以进行的后续步骤和注意事项小结

《python安装完成后可以进行的后续步骤和注意事项小结》本文详细介绍了安装Python3后的后续步骤,包括验证安装、配置环境、安装包、创建和运行脚本,以及使用虚拟环境,还强调了注意事项,如系统更新、... 目录验证安装配置环境(可选)安装python包创建和运行Python脚本虚拟环境(可选)注意事项安装

什么是cron? Linux系统下Cron定时任务使用指南

《什么是cron?Linux系统下Cron定时任务使用指南》在日常的Linux系统管理和维护中,定时执行任务是非常常见的需求,你可能需要每天执行备份任务、清理系统日志或运行特定的脚本,而不想每天... 在管理 linux 服务器的过程中,总有一些任务需要我们定期或重复执行。就比如备份任务,通常会选在服务器资

TP-LINK/水星和hasivo交换机怎么选? 三款网管交换机系统功能对比

《TP-LINK/水星和hasivo交换机怎么选?三款网管交换机系统功能对比》今天选了三款都是”8+1″的2.5G网管交换机,分别是TP-LINK水星和hasivo交换机,该怎么选呢?这些交换机功... TP-LINK、水星和hasivo这三台交换机都是”8+1″的2.5G网管交换机,我手里的China编程has