本文主要是介绍datacleaner第三部分,八、九、十章,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
第三部分。参考数据
表的内容
- 8。字典 9。同义词(又名。同义词目录)
-
- 同义词的文本文件目录 数据存储同义词目录
10。字符串的模式
字典是参考数据列表用于验证或分类值对某些黑或白名单。字典一般可列举的,有限的,而如。每次字符串模式是动态的和评估。
有意义的词典的例子:
-
字典之类的产品类型“珠宝”,“男装”、“运动”等。
-
字典的性别符号如“M”,“F”甚至“未知”。
-
(如字典的年龄组的名字。婴儿、儿童、年轻、成熟、高级)
-
两本词典对于男性和女性给定名称(为了确定性别的人)
表的内容
- 同义词的文本文件目录 数据存储同义词目录
同义词的文本文件目录是最简单的,经常还最快的方法进行同义词替换。简单地创建一个文本文件的格式与内容,掌握词的成功与一个以逗号分隔的同义词,是这样的:
M,Male,Man,Guy,Boy F,Female,Woman,Girl
在上面的例子中,最典型的性别标记将被替换为“M”或“F”。
字符串模式定义一个字符串值的“模板”,他们可能也可能不符合。
DataCleaner目前支持两种类型的受欢迎的字符串格式:
-
正则表达式,这是一个通用的字符串模式匹配���言流行于计算机科学。正则表达式需要一点时间来学习,但一旦利用是非常强大的。
解释正则表达式的语法绝对是DataCleaner文档的范围之外。我们推荐的Java正则表达式的教训如果你正在寻找一个资源。
-
简单的字符串模式使用相同的语法模式仪分析仪。如“aaaa@aaaa模式。aaa”例如可用于匹配典型的电子邮件地址。
这篇关于datacleaner第三部分,八、九、十章的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!