对本系统后续工作者的一点建议

2024-04-19 08:18

本文主要是介绍对本系统后续工作者的一点建议,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

对后续工作者的一点建议 build 091011

1. 熟悉HtmlParser

 Java用于解析网页的开源库主要有HtmlParser和NekoHtml,模拟浏览器自动测试的有HtmlUnit,真正解析js或提取dom节点的视觉信息还是靠Mozilla的浏览器。
 
 NekoHtml的效率和发展状况更好,但是实践表明HtmlParser是可以满足信息抽取任务的。HtmlParser结构比较好,便于上手或进一步修改。

 务必熟悉HtmlParser的大部分API,及其所有内部数据结构,这是下一步工作的基础。

2. 阅读论文

 可以以几篇中文论文(综述,或相关硕博士论文)入门,之后阅读WWW 会议或IEEE,ACM相关会议的论文。

 下面是我看过的论文中关于HTML结构这方面比较经典的

 0.A Brief Survey of Web Data Extraction Tools
 02年的综述,值得一看。鄙人已译,译文在网上很容易搜到。如果比较懒,直接看下一篇也可以。

 1.A Survey of Web Information Extraction Systems.
 06年IE领域权威综述,必读

 2.RoadRunner Towards Automatic Data Extraction from Large Web Sites
 基于html的包装器全自动抽取技术的鼻祖

 3.Automatic Web news extraction using tree edit distance
 WWW论文,提供了针对相似页面生成模板的全自动信息抽取的一揽子解决方案

 4.Mining Data Records in Web Pages
 SIGKDD论文,无模板方法自动提取数据记录的代表作。鄙人已译。

 5.Web data extraction based on partial tree alignment
 WWW论文,上面这篇论文的改进版,引入了本系统的基础算法:STM算法

 6.Joint Optimization of Wrapper Generation and Template Detection
 KDD论文,这篇论文综合前面几篇的观点,提出了一种模式树。但作者没有说明其动态规划是如何实现的,鄙人一开始是想实现这个算法,但没成功。如果能在本科毕设实现这项工作,我认为是可圈可点的。

 7.VIPS: a Vision-based Page Segmentation Algorithm
 微软亚洲研究院的论文,基于视觉信息分块,前两年火的一塌糊涂,微软的搜索引擎也使用了这项技术,但注意它是无模板的。

 此外,应该了解一下树编辑距离及其衍生问题,最大公共子树问题,后缀树等算法的思想。

 下面是中科院计算所信息抽取小组的blog,其中推荐了很多该领域的论文。
 http://blog.csdn.net/ictextr9

3.下一步的展望

 (0)完善本系统

 WIE系统暂时还只能处理gb2312编码,需要针对自动判断编码进行改进,网上有针对HtmlParser的解决方案。

 本系统的噪音祛除算法还比较简单,如何准确的对网页分块还是一项比较困难的课题,目前效果最好的是基于视觉信息的方法。

 (1)挖掘嵌套数据结构:
 
 本系统对于所有内容节点是一视同仁的,没有考虑表格,列表等数据结构。
 
 以本系统建立的模板为基础,根据上面提到的论文4,5中的方法,实现基于模板技术的列表页面的自动挖掘是完全可行的。实现这项工作也是个不错的本科毕设题目。

 至于文献6的方法,可以量力而行。

 (2)向量空间模型

 这方面比较成熟,但是与本系统相结合是否合适,还有待于考虑。

 (3)视觉信息

 即论文7。这个内容也被广泛应用到普通高等院校的研究生毕设项目中。但是需要使用浏览器解析网页,抛开本系统,从底层重新做,工作量较大。

 本质上说,这是一种无模板方法,但是可以利用该算法来处理我们抽取的模板。

 值得注意的是,无模板抽取网页信息的方法,在这两年发展迅速。


 (4)自然语言处理&机器学习&隐马尔可夫模型

 这些都有现成的毕设论文可供参考。没做过相关研究,不做评论。

 

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/scottxp/archive/2009/10/11/4654562.aspx

这篇关于对本系统后续工作者的一点建议的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/917019

相关文章

Python FastAPI+Celery+RabbitMQ实现分布式图片水印处理系统

《PythonFastAPI+Celery+RabbitMQ实现分布式图片水印处理系统》这篇文章主要为大家详细介绍了PythonFastAPI如何结合Celery以及RabbitMQ实现简单的分布式... 实现思路FastAPI 服务器Celery 任务队列RabbitMQ 作为消息代理定时任务处理完整

Linux系统中卸载与安装JDK的详细教程

《Linux系统中卸载与安装JDK的详细教程》本文详细介绍了如何在Linux系统中通过Xshell和Xftp工具连接与传输文件,然后进行JDK的安装与卸载,安装步骤包括连接Linux、传输JDK安装包... 目录1、卸载1.1 linux删除自带的JDK1.2 Linux上卸载自己安装的JDK2、安装2.1

Linux系统之主机网络配置方式

《Linux系统之主机网络配置方式》:本文主要介绍Linux系统之主机网络配置方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、查看主机的网络参数1、查看主机名2、查看IP地址3、查看网关4、查看DNS二、配置网卡1、修改网卡配置文件2、nmcli工具【通用

Linux系统之dns域名解析全过程

《Linux系统之dns域名解析全过程》:本文主要介绍Linux系统之dns域名解析全过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、dns域名解析介绍1、DNS核心概念1.1 区域 zone1.2 记录 record二、DNS服务的配置1、正向解析的配置

Linux系统中配置静态IP地址的详细步骤

《Linux系统中配置静态IP地址的详细步骤》本文详细介绍了在Linux系统中配置静态IP地址的五个步骤,包括打开终端、编辑网络配置文件、配置IP地址、保存并重启网络服务,这对于系统管理员和新手都极具... 目录步骤一:打开终端步骤二:编辑网络配置文件步骤三:配置静态IP地址步骤四:保存并关闭文件步骤五:重

Windows系统下如何查找JDK的安装路径

《Windows系统下如何查找JDK的安装路径》:本文主要介绍Windows系统下如何查找JDK的安装路径,文中介绍了三种方法,分别是通过命令行检查、使用verbose选项查找jre目录、以及查看... 目录一、确认是否安装了JDK二、查找路径三、另外一种方式如果很久之前安装了JDK,或者在别人的电脑上,想

Linux系统之authconfig命令的使用解读

《Linux系统之authconfig命令的使用解读》authconfig是一个用于配置Linux系统身份验证和账户管理设置的命令行工具,主要用于RedHat系列的Linux发行版,它提供了一系列选项... 目录linux authconfig命令的使用基本语法常用选项示例总结Linux authconfi

Nginx配置系统服务&设置环境变量方式

《Nginx配置系统服务&设置环境变量方式》本文介绍了如何将Nginx配置为系统服务并设置环境变量,以便更方便地对Nginx进行操作,通过配置系统服务,可以使用系统命令来启动、停止或重新加载Nginx... 目录1.Nginx操作问题2.配置系统服android务3.设置环境变量总结1.Nginx操作问题

CSS3 最强二维布局系统之Grid 网格布局

《CSS3最强二维布局系统之Grid网格布局》CS3的Grid网格布局是目前最强的二维布局系统,可以同时对列和行进行处理,将网页划分成一个个网格,可以任意组合不同的网格,做出各种各样的布局,本文介... 深入学习 css3 目前最强大的布局系统 Grid 网格布局Grid 网格布局的基本认识Grid 网

在不同系统间迁移Python程序的方法与教程

《在不同系统间迁移Python程序的方法与教程》本文介绍了几种将Windows上编写的Python程序迁移到Linux服务器上的方法,包括使用虚拟环境和依赖冻结、容器化技术(如Docker)、使用An... 目录使用虚拟环境和依赖冻结1. 创建虚拟环境2. 冻结依赖使用容器化技术(如 docker)1. 创