对本系统后续工作者的一点建议

2024-04-19 08:18

本文主要是介绍对本系统后续工作者的一点建议,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

对后续工作者的一点建议 build 091011

1. 熟悉HtmlParser

 Java用于解析网页的开源库主要有HtmlParser和NekoHtml,模拟浏览器自动测试的有HtmlUnit,真正解析js或提取dom节点的视觉信息还是靠Mozilla的浏览器。
 
 NekoHtml的效率和发展状况更好,但是实践表明HtmlParser是可以满足信息抽取任务的。HtmlParser结构比较好,便于上手或进一步修改。

 务必熟悉HtmlParser的大部分API,及其所有内部数据结构,这是下一步工作的基础。

2. 阅读论文

 可以以几篇中文论文(综述,或相关硕博士论文)入门,之后阅读WWW 会议或IEEE,ACM相关会议的论文。

 下面是我看过的论文中关于HTML结构这方面比较经典的

 0.A Brief Survey of Web Data Extraction Tools
 02年的综述,值得一看。鄙人已译,译文在网上很容易搜到。如果比较懒,直接看下一篇也可以。

 1.A Survey of Web Information Extraction Systems.
 06年IE领域权威综述,必读

 2.RoadRunner Towards Automatic Data Extraction from Large Web Sites
 基于html的包装器全自动抽取技术的鼻祖

 3.Automatic Web news extraction using tree edit distance
 WWW论文,提供了针对相似页面生成模板的全自动信息抽取的一揽子解决方案

 4.Mining Data Records in Web Pages
 SIGKDD论文,无模板方法自动提取数据记录的代表作。鄙人已译。

 5.Web data extraction based on partial tree alignment
 WWW论文,上面这篇论文的改进版,引入了本系统的基础算法:STM算法

 6.Joint Optimization of Wrapper Generation and Template Detection
 KDD论文,这篇论文综合前面几篇的观点,提出了一种模式树。但作者没有说明其动态规划是如何实现的,鄙人一开始是想实现这个算法,但没成功。如果能在本科毕设实现这项工作,我认为是可圈可点的。

 7.VIPS: a Vision-based Page Segmentation Algorithm
 微软亚洲研究院的论文,基于视觉信息分块,前两年火的一塌糊涂,微软的搜索引擎也使用了这项技术,但注意它是无模板的。

 此外,应该了解一下树编辑距离及其衍生问题,最大公共子树问题,后缀树等算法的思想。

 下面是中科院计算所信息抽取小组的blog,其中推荐了很多该领域的论文。
 http://blog.csdn.net/ictextr9

3.下一步的展望

 (0)完善本系统

 WIE系统暂时还只能处理gb2312编码,需要针对自动判断编码进行改进,网上有针对HtmlParser的解决方案。

 本系统的噪音祛除算法还比较简单,如何准确的对网页分块还是一项比较困难的课题,目前效果最好的是基于视觉信息的方法。

 (1)挖掘嵌套数据结构:
 
 本系统对于所有内容节点是一视同仁的,没有考虑表格,列表等数据结构。
 
 以本系统建立的模板为基础,根据上面提到的论文4,5中的方法,实现基于模板技术的列表页面的自动挖掘是完全可行的。实现这项工作也是个不错的本科毕设题目。

 至于文献6的方法,可以量力而行。

 (2)向量空间模型

 这方面比较成熟,但是与本系统相结合是否合适,还有待于考虑。

 (3)视觉信息

 即论文7。这个内容也被广泛应用到普通高等院校的研究生毕设项目中。但是需要使用浏览器解析网页,抛开本系统,从底层重新做,工作量较大。

 本质上说,这是一种无模板方法,但是可以利用该算法来处理我们抽取的模板。

 值得注意的是,无模板抽取网页信息的方法,在这两年发展迅速。


 (4)自然语言处理&机器学习&隐马尔可夫模型

 这些都有现成的毕设论文可供参考。没做过相关研究,不做评论。

 

本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/scottxp/archive/2009/10/11/4654562.aspx

这篇关于对本系统后续工作者的一点建议的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/917019

相关文章

通信系统网络架构_2.广域网网络架构

1.概述          通俗来讲,广域网是将分布于相比局域网络更广区域的计算机设备联接起来的网络。广域网由通信子网于资源子网组成。通信子网可以利用公用分组交换网、卫星通信网和无线分组交换网构建,将分布在不同地区的局域网或计算机系统互连起来,实现资源子网的共享。 2.网络组成          广域网属于多级网络,通常由骨干网、分布网、接入网组成。在网络规模较小时,可仅由骨干网和接入网组成

关于如何更好管理好数据库的一点思考

本文尝试从数据库设计理论、ER图简介、性能优化、避免过度设计及权限管理方面进行思考阐述。 一、数据库范式 以下通过详细的示例说明数据库范式的概念,将逐步规范化一个例子,逐级说明每个范式的要求和变换过程。 示例:学生课程登记系统 初始表格如下: 学生ID学生姓名课程ID课程名称教师教师办公室1张三101数学王老师101室2李四102英语李老师102室3王五101数学王老师101室4赵六103物理陈

雨量传感器的分类和选型建议

物理原理分类 机械降雨量计(雨量桶):最早使用的降雨量传感器,通过漏斗收集雨水并记录。主要用于长期降雨统计,故障率较低。电容式降雨量传感器:基于两个电极之间的电容变化来计算降雨量。当降雨时,水滴堵住电极空间,改变电容值,从而计算降雨量。超声波式降雨量传感器:利用超声波的反射来计算降雨量。适用于大降雨量的场合。激光雷达式降雨量传感器:利用激光技术测量雨滴的速度、大小和形状等参数,并计算降雨量。主

Linux系统稳定性的奥秘:探究其背后的机制与哲学

在计算机操作系统的世界里,Linux以其卓越的稳定性和可靠性著称,成为服务器、嵌入式系统乃至个人电脑用户的首选。那么,是什么造就了Linux如此之高的稳定性呢?本文将深入解析Linux系统稳定性的几个关键因素,揭示其背后的技术哲学与实践。 1. 开源协作的力量Linux是一个开源项目,意味着任何人都可以查看、修改和贡献其源代码。这种开放性吸引了全球成千上万的开发者参与到内核的维护与优化中,形成了

PS系统教程25

介绍软件 BR(bridge) PS 配套软件,方便素材整理、管理素材 作用:起到桥梁作用 注意:PS和BR尽量保持版本一致 下载和安装可通过CSDN社区搜索,有免费安装指导。 安装之后,我们打开照片只需双击照片,就自动在Ps软件中打开。 前提:电脑上有PS软件 三种预览格式 全屏预览 评星级 直接按数字键就可以 方向键可以更换图片 esc退出 幻灯片放

风水研究会官网源码系统-可展示自己的领域内容-商品售卖等

一款用于展示风水行业,周易测算行业,玄学行业的系统,并支持售卖自己的商品。 整洁大气,非常漂亮,前端内容均可通过后台修改。 大致功能: 支持前端内容通过后端自定义支持开启关闭会员功能,会员等级设置支持对接官方支付支持添加商品类支持添加虚拟下载类支持自定义其他类型字段支持生成虚拟激活卡支持采集其他站点文章支持对接收益广告支持文章评论支持积分功能支持推广功能更多功能,搭建完成自行体验吧! 原文

Django 路由系统详解

Django 路由系统详解 引言 Django 是一个高级 Python Web 框架,它鼓励快速开发和干净、实用的设计。在 Django 中,路由系统是其核心组件之一,负责将用户的请求映射到相应的视图函数或类。本文将深入探讨 Django 的路由系统,包括其工作原理、配置方式以及高级功能。 目录 路由基础URL 映射路由参数命名空间URL 反向解析路由分发include 路由路由修饰符自

【图像识别系统】昆虫识别Python+卷积神经网络算法+人工智能+深度学习+机器学习+TensorFlow+ResNet50

一、介绍 昆虫识别系统,使用Python作为主要开发语言。通过TensorFlow搭建ResNet50卷积神经网络算法(CNN)模型。通过对10种常见的昆虫图片数据集(‘蜜蜂’, ‘甲虫’, ‘蝴蝶’, ‘蝉’, ‘蜻蜓’, ‘蚱蜢’, ‘蛾’, ‘蝎子’, ‘蜗牛’, ‘蜘蛛’)进行训练,得到一个识别精度较高的H5格式模型文件,然后使用Django搭建Web网页端可视化操作界面,实现用户上传一

OSG数学基础:坐标系统

坐标系是一个精确定位对象位置的框架,所有的图形变换都是基于一定的坐标系进行的。三维坐标系总体上可以分为两大类:左手坐标系和右手坐标系。常用的坐标系:世界坐标系、物体坐标系和摄像机坐标系。 世界坐标系 世界坐标系是一个特殊的坐标系,它建立了描述其他坐标系所需要的参考框架。从另一方面说,能够用世界坐标系来描述其他坐标系的位置,而不能用更大的、外部的坐标系来描述世界坐标系。世界坐标系也被广泛地

LoRaWAN在嵌入式网络通信中的应用:打造高效远程监控系统(附代码示例)

引言 随着物联网(IoT)技术的发展,远程监控系统在各个领域的应用越来越广泛。LoRaWAN(Long Range Wide Area Network)作为一种低功耗广域网通信协议,因其长距离传输、低功耗和高可靠性等特点,成为实现远程监控的理想选择。本文将详细介绍LoRaWAN的基本原理、应用场景,并通过一个具体的项目展示如何使用LoRaWAN实现远程监控系统。希望通过图文并茂的讲解,帮助读