张民博士讲座感想简历信息抽取paper(ACL2005)小结

2024-02-12 05:50

本文主要是介绍张民博士讲座感想简历信息抽取paper(ACL2005)小结,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

7月13日早上9:00在新技术楼听取了张民博士的关于核方法的讲座

张民简短介绍:

张民博士是我们实验室李老师的第三个博士(after mzhou,tjzhao).

毕业之后先去了韩国一个有名的NLP公司任职,后转到新加坡国立研究院至今。

他们的部门简写挺好玩;A*——A-START :agency of .....(忘了)

关于他的学术成就我们可以在google做如下搜索

DBLP Min zhang

获得一下连接: http://www.informatik.uni-trier.de/~ley/db/indices/a-tree/z/Zhang:Min.html

可以简单看出发表(包含非第一作者)的有影响的论文现在为20篇。

特别是ACL2004上有一篇关于音译的文章。

因为还没拿到slide,所以下面只是简要的记录些自己新获得的知识点:(有些术语可能不太准确)

1 .NLP 研究中可分为三种问题: 点(point),序列(sequence),结构化(structured)

    各种模型分别适合不同类型的问题:

    比如: HMM ,ME 等适合于解决序列问题。而classifier(SVM等)当然是适合于解决点的问题。

   这一点可以在ACL2005中的周老师的学生kun yu的关于简历信息抽取的文章(<<Resume Information Extraction with Cascaded Hybrid Model>>)得到印证。

  此文中,对简历作两遍pass,第一遍划分各个信息块(blocks)也就是general info,blocks之间的次序性较强所以文章采用HMM,第二遍在第一遍的基础上,在划定的各个块中抽取出detailed信息。

 因为personal detailed infos相互之间比较独立所以考虑采用classification based model.(SVM)

  原文论述如下:

In the first pass, the general information
is extracted by segmenting the entire resume into
consecutive blocks and each block is annotated
with a label indicating its category. In the second
pass, detailed information pieces are further
extracted within the boundary of certain blocks.
Moreover, for different types of information, the
most appropriate extraction method is selected
through experiments. For the first pass, since there
exists a strong sequence among blocks, a HMM
model is applied to segment a resume and each
block is labelled with a category of general
information. We also apply HMM for the
educational detailed information extraction for the
same reason. In addition, classification based
method is selected for the personal detailed
information extraction where information items
appear relatively independently

但是要注意一点: 同一个实际问题即可以看作是点问题,也可以看作是序列问题,不是绝对的。

比如:NER问题,如果看作是点问题就可以用SVM等classification based model  来解决,如果看作是

sequence,那么HMM等无疑就是选择。

2. Kernel methods 不仅仅可用于SVM中,虽然目前的谈论总是SVM伴随kernel methods的。

  只要是从低维不可分为向高维可分问题进行映射的,所有用点积计算相似度的地方都可以用到kernel methods

3. 如果映射不是kernel function那么SVM将不会收敛。(~sigh! 不懂。)

4. kernel methods的好处:

  <1> 可以(不是绝对可以,有时是一种缓解,有时甚至不能缓解????)低维不可分转化为向高维可分问题。

 <2> 不需明显的特征抽取.

 <3> 有快速的算法,效率高。

 <4>隐含映射????(不懂)

5. kernel methods 缺点:

  <1> 映射过程是盲目的,后验性的,in other words ,不一定保证能转化为高维可分.

 <2> .......

6. 指数模型的好处:

  <1> 数据稀疏,归一化问题无需考虑.

  <2>想到的features便可以很容易地加进去.

7. CRF 可以集成HMM和ME的好处

    HMM,ME,CRF的那三张图没看懂。(以后向师兄请教)

这些是随便记在本子上的,拿到ppt后要好好读一下。

这篇关于张民博士讲座感想简历信息抽取paper(ACL2005)小结的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/701795

相关文章

MySQL 分区与分库分表策略应用小结

《MySQL分区与分库分表策略应用小结》在大数据量、复杂查询和高并发的应用场景下,单一数据库往往难以满足性能和扩展性的要求,本文将详细介绍这两种策略的基本概念、实现方法及优缺点,并通过实际案例展示如... 目录mysql 分区与分库分表策略1. 数据库水平拆分的背景2. MySQL 分区策略2.1 分区概念

Python基础语法中defaultdict的使用小结

《Python基础语法中defaultdict的使用小结》Python的defaultdict是collections模块中提供的一种特殊的字典类型,它与普通的字典(dict)有着相似的功能,本文主要... 目录示例1示例2python的defaultdict是collections模块中提供的一种特殊的字

Spring Security方法级安全控制@PreAuthorize注解的灵活运用小结

《SpringSecurity方法级安全控制@PreAuthorize注解的灵活运用小结》本文将带着大家讲解@PreAuthorize注解的核心原理、SpEL表达式机制,并通过的示例代码演示如... 目录1. 前言2. @PreAuthorize 注解简介3. @PreAuthorize 核心原理解析拦截与

C++变换迭代器使用方法小结

《C++变换迭代器使用方法小结》本文主要介绍了C++变换迭代器使用方法小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录1、源码2、代码解析代码解析:transform_iterator1. transform_iterat

SpringBoot实现数据库读写分离的3种方法小结

《SpringBoot实现数据库读写分离的3种方法小结》为了提高系统的读写性能和可用性,读写分离是一种经典的数据库架构模式,在SpringBoot应用中,有多种方式可以实现数据库读写分离,本文将介绍三... 目录一、数据库读写分离概述二、方案一:基于AbstractRoutingDataSource实现动态

Java中的String.valueOf()和toString()方法区别小结

《Java中的String.valueOf()和toString()方法区别小结》字符串操作是开发者日常编程任务中不可或缺的一部分,转换为字符串是一种常见需求,其中最常见的就是String.value... 目录String.valueOf()方法方法定义方法实现使用示例使用场景toString()方法方法

Java中List的contains()方法的使用小结

《Java中List的contains()方法的使用小结》List的contains()方法用于检查列表中是否包含指定的元素,借助equals()方法进行判断,下面就来介绍Java中List的c... 目录详细展开1. 方法签名2. 工作原理3. 使用示例4. 注意事项总结结论:List 的 contain

Flutter打包APK的几种方式小结

《Flutter打包APK的几种方式小结》Flutter打包不同于RN,Flutter可以在AndroidStudio里编写Flutter代码并最终打包为APK,本篇主要阐述涉及到的几种打包方式,通... 目录前言1. android原生打包APK方式2. Flutter通过原生工程打包方式3. Futte

Docker镜像pull失败两种解决办法小结

《Docker镜像pull失败两种解决办法小结》有时候我们在拉取Docker镜像的过程中会遇到一些问题,:本文主要介绍Docker镜像pull失败两种解决办法的相关资料,文中通过代码介绍的非常详细... 目录docker 镜像 pull 失败解决办法1DrQwWCocker 镜像 pull 失败解决方法2总

Android Kotlin 高阶函数详解及其在协程中的应用小结

《AndroidKotlin高阶函数详解及其在协程中的应用小结》高阶函数是Kotlin中的一个重要特性,它能够将函数作为一等公民(First-ClassCitizen),使得代码更加简洁、灵活和可... 目录1. 引言2. 什么是高阶函数?3. 高阶函数的基础用法3.1 传递函数作为参数3.2 Lambda