张民博士讲座感想简历信息抽取paper(ACL2005)小结

2024-02-12 05:50

本文主要是介绍张民博士讲座感想简历信息抽取paper(ACL2005)小结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

7月13日早上9:00在新技术楼听取了张民博士的关于核方法的讲座

张民简短介绍:

张民博士是我们实验室李老师的第三个博士(after mzhou,tjzhao).

毕业之后先去了韩国一个有名的NLP公司任职,后转到新加坡国立研究院至今。

他们的部门简写挺好玩;A*——A-START :agency of .....(忘了)

关于他的学术成就我们可以在google做如下搜索

DBLP Min zhang

获得一下连接: http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/z/Zhang:Min.html

可以简单看出发表(包含非第一作者)的有影响的论文现在为20篇。

特别是ACL2004上有一篇关于音译的文章。

因为还没拿到slide,所以下面只是简要的记录些自己新获得的知识点:(有些术语可能不太准确)

1 .NLP 研究中可分为三种问题: 点(point),序列(sequence),结构化(structured)

    各种模型分别适合不同类型的问题:

    比如: HMM ,ME 等适合于解决序列问题。而classifier(SVM等)当然是适合于解决点的问题。

   这一点可以在ACL2005中的周老师的学生kun yu的关于简历信息抽取的文章(<<Resume Information Extraction with Cascaded Hybrid Model>>)得到印证。

  此文中,对简历作两遍pass,第一遍划分各个信息块(blocks)也就是general info,blocks之间的次序性较强所以文章采用HMM,第二遍在第一遍的基础上,在划定的各个块中抽取出detailed信息。

 因为personal detailed infos相互之间比较独立所以考虑采用classification based model.(SVM)

  原文论述如下:

In the first pass, the general information
is extracted by segmenting the entire resume into
consecutive blocks and each block is annotated
with a label indicating its category. In the second
pass, detailed information pieces are further
extracted within the boundary of certain blocks.
Moreover, for different types of information, the
most appropriate extraction method is selected
through experiments. For the first pass, since there
exists a strong sequence among blocks, a HMM
model is applied to segment a resume and each
block is labelled with a category of general
information. We also apply HMM for the
educational detailed information extraction for the
same reason. In addition, classification based
method is selected for the personal detailed
information extraction where information items
appear relatively independently

但是要注意一点: 同一个实际问题即可以看作是点问题,也可以看作是序列问题,不是绝对的。

比如:NER问题,如果看作是点问题就可以用SVM等classification based model  来解决,如果看作是

sequence,那么HMM等无疑就是选择。

2. Kernel methods 不仅仅可用于SVM中,虽然目前的谈论总是SVM伴随kernel methods的。

  只要是从低维不可分为向高维可分问题进行映射的,所有用点积计算相似度的地方都可以用到kernel methods

3. 如果映射不是kernel function那么SVM将不会收敛。(~sigh! 不懂。)

4. kernel methods的好处:

  <1> 可以(不是绝对可以,有时是一种缓解,有时甚至不能缓解????)低维不可分转化为向高维可分问题。

 <2> 不需明显的特征抽取.

 <3> 有快速的算法,效率高。

 <4>隐含映射????(不懂)

5. kernel methods 缺点:

  <1> 映射过程是盲目的,后验性的,in other words ,不一定保证能转化为高维可分.

 <2> .......

6. 指数模型的好处:

  <1> 数据稀疏,归一化问题无需考虑.

  <2>想到的features便可以很容易地加进去.

7. CRF 可以集成HMM和ME的好处

    HMM,ME,CRF的那三张图没看懂。(以后向师兄请教)

这些是随便记在本子上的,拿到ppt后要好好读一下。

这篇关于张民博士讲座感想简历信息抽取paper(ACL2005)小结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/701795

相关文章

Java中Object类的常用方法小结

《Java中Object类的常用方法小结》JavaObject类是所有类的父类,位于java.lang包中,本文为大家整理了一些Object类的常用方法,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. public boolean equals(Object obj)2. public int ha

C#实现系统信息监控与获取功能

《C#实现系统信息监控与获取功能》在C#开发的众多应用场景中,获取系统信息以及监控用户操作有着广泛的用途,比如在系统性能优化工具中,需要实时读取CPU、GPU资源信息,本文将详细介绍如何使用C#来实现... 目录前言一、C# 监控键盘1. 原理与实现思路2. 代码实现二、读取 CPU、GPU 资源信息1.

在C#中获取端口号与系统信息的高效实践

《在C#中获取端口号与系统信息的高效实践》在现代软件开发中,尤其是系统管理、运维、监控和性能优化等场景中,了解计算机硬件和网络的状态至关重要,C#作为一种广泛应用的编程语言,提供了丰富的API来帮助开... 目录引言1. 获取端口号信息1.1 获取活动的 TCP 和 UDP 连接说明:应用场景:2. 获取硬

SpringBoot使用Apache Tika检测敏感信息

《SpringBoot使用ApacheTika检测敏感信息》ApacheTika是一个功能强大的内容分析工具,它能够从多种文件格式中提取文本、元数据以及其他结构化信息,下面我们来看看如何使用Ap... 目录Tika 主要特性1. 多格式支持2. 自动文件类型检测3. 文本和元数据提取4. 支持 OCR(光学

C#实现获取电脑中的端口号和硬件信息

《C#实现获取电脑中的端口号和硬件信息》这篇文章主要为大家详细介绍了C#实现获取电脑中的端口号和硬件信息的相关方法,文中的示例代码讲解详细,有需要的小伙伴可以参考一下... 我们经常在使用一个串口软件的时候,发现软件中的端口号并不是普通的COM1,而是带有硬件信息的。那么如果我们使用C#编写软件时候,如

redis-cli命令行工具的使用小结

《redis-cli命令行工具的使用小结》redis-cli是Redis的命令行客户端,支持多种参数用于连接、操作和管理Redis数据库,本文给大家介绍redis-cli命令行工具的使用小结,感兴趣的... 目录基本连接参数基本连接方式连接远程服务器带密码连接操作与格式参数-r参数重复执行命令-i参数指定命

Python视频处理库VidGear使用小结

《Python视频处理库VidGear使用小结》VidGear是一个高性能的Python视频处理库,本文主要介绍了Python视频处理库VidGear使用小结,文中通过示例代码介绍的非常详细,对大家的... 目录一、VidGear的安装二、VidGear的主要功能三、VidGear的使用示例四、VidGea

通过C#获取PDF中指定文本或所有文本的字体信息

《通过C#获取PDF中指定文本或所有文本的字体信息》在设计和出版行业中,字体的选择和使用对最终作品的质量有着重要影响,然而,有时我们可能会遇到包含未知字体的PDF文件,这使得我们无法准确地复制或修改文... 目录引言C# 获取PDF中指定文本的字体信息C# 获取PDF文档中用到的所有字体信息引言在设计和出

Python中json文件和jsonl文件的区别小结

《Python中json文件和jsonl文件的区别小结》本文主要介绍了JSON和JSONL两种文件格式的区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下... 众所周知,jsON 文件是使用php JSON(JavaScripythonpt Object No

Python 标准库time时间的访问和转换问题小结

《Python标准库time时间的访问和转换问题小结》time模块为Python提供了处理时间和日期的多种功能,适用于多种与时间相关的场景,包括获取当前时间、格式化时间、暂停程序执行、计算程序运行时... 目录模块介绍使用场景主要类主要函数 - time()- sleep()- localtime()- g