datacleaner第三部分，八、九、十章

本文主要是介绍datacleaner第三部分，八、九、十章，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

第三部分。参考数据

表的内容

8。字典 9。同义词(又名。同义词目录)

10。字符串的模式

字典是参考数据列表用于验证或分类值对某些黑或白名单。字典一般可列举的,有限的,而如。每次字符串模式是动态的和评估。

有意义的词典的例子:

文摘

同义词目录是用来代替主人条款和规范值,为了避免多个条件相同的现实世界的事情。

现实生活中有很多这样的例子的同义词,让混乱的数据,例如:

在下面几个部分中,我们将描述如何设置同义词目录,可以使用多种方式标准化数据库。

表的内容

同义词的文本文件目录是最简单的,经常还最快的方法进行同义词替换。简单地创建一个文本文件的格式与内容,掌握词的成功与一个以逗号分隔的同义词,是这样的:

M,Male,Man,Guy,Boy F,Female,Woman,Girl

在上面的例子中,最典型的性别标记将被替换为“M”或“F”。

如果你的同义词是位于数据库或另一种类型的数据存储,然后你也可以创建同义词目录基于此。

数据存储同义词目录允许您指定一个主和多个同义词词列列。同义词目录会然后找到同义词匹配通过搜索/查询数据存储。

字符串模式定义一个字符串值的“模板”,他们可能也可能不符合。

DataCleaner目前支持两种类型的受欢迎的字符串格式:

正则表达式,这是一个通用的字符串模式匹配��言流行于计算机科学。正则表达式需要一点时间来学习,但一旦利用是非常强大的。

解释正则表达式的语法绝对是DataCleaner文档的范围之外。我们推荐的Java正则表达式的教训如果你正在寻找一个资源。
简单的字符串模式使用相同的语法模式仪分析仪。如“aaaa@aaaa模式。aaa”例如可用于匹配典型的电子邮件地址。