Elasticsearch 6.x版本全文检索学习之数据建模

2024-06-14 13:32

本文主要是介绍Elasticsearch 6.x版本全文检索学习之数据建模,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1、什么是数据建模。

  答:数据建模,英文为Data Modeling,为创建数据模型的过程。数据模型Data Mdel,对现实世界进行抽象描述的一种工具和方法,通过抽象的实体及实体之间联系的形式去描述业务规则,从而实现对现实世界的映射。

2、数据建模的过程。

  答:第一步、概念模型,确定系统的核心需求和范围边界,设计实体和实体间的关系。
    第二步、逻辑模型,进一步梳理业务需求,确定每个实体的属性,关系和约束等等。
    第三步、物理模型,结合具体的数据库产品,在满足业务读写性能等需求的前提下确定最终的定义,如mysql、mongodb、elasticsearch等等。

3、Elasticsearch的数据建模,es是基于lucene以倒排索引为基础实现的存储体系,不遵循关系型数据库中的范式约定。

4、Elasticsearch的数据建模中Mapping字段的相关设置。

  答:a、enabled,值包含true、false。仅存储,不做搜索或者聚合分析。
    b、index,值包含true、false。是否构建倒排索引。
    c、index_options,值包含docs、freqs、positions、offsets。存储倒排索引的哪些信息。
    d、norms,值包含true、false。是否存储归一化相关参数,如果字段仅用于过滤和聚合分析,可以关闭。
    e、doc_values,值包含true、false。是否启动doc_values,用于排序和聚合分析。
    f、field_data,值为true、false。是否为text类型启动fielddata,实现排序和聚合分析。
    g、store,值为true、false。是否存储该字段值。
    h、corece,值为true、false。是否开启自动数据类型转换功能,比如字符串转为数字,浮点转为整型等等。
    i、multifields多字段,灵活使用多字段特性来解决多样的业务需求。
    j、dynamic,值为true、false、strict。控制mapping自动更新。建议为strict,或者false。
    k、date_detection,值为true、false。是否自动识别日期类型。建议为false。

5、Mapping字段属性的设定流程。

  答:第一步、是何种类型的字段。是日期类型还是字符串类型的。
    第二步、是否需要检索字段。需要检索index设置true,否则设置为false。
    第三步、是否需要排序和聚合分析。doc_values,是否启动doc_values,用于排序和聚合分析。
    第四步、是否需要另行存储。store,是否存储该字段值。

6、Mapping字段属性的设定流程,是何种类型的。

  答:a、字符串类型,需要分词则设定为text类型的,否则设置为keyword类型的。
    b、枚举类型,基于性能考虑将其设定为keyword类型,即便该数据为整型。
    c、数值类型,尽量选择铁近的类型,比如byte即可表事所有数值的时候,即选用byte,不要用long。
    d、其他类型的,比如布尔类型,日期,地理位置数据等等。

7、Mapping字段属性的设定流程,是否需要检索。

  答:a、完全不需要检索,排序,聚合分析的字段。enabled设置为false。
    b、不需要检索的字段,index设置为false。
    c、需要检索的字段,可以通过如下配置设定需要的存储粒度。index_options结合需要设定,norms不需要归一化数据时关闭即可。

8、Mapping字段属性的设定流程,是否需要排序和聚合分析。

  答:不需要排序或者聚合分析功能。doc_values设定为false,fielddata设定为false。

9、Mapping字段属性的设定流程,是否需要另行存储。

  答:是否需要专门存储当前字段的数据?store设定为true,即可以存储该字段的原始内容(与_source中的不相干关)。一般结合_source的enabled设定为false时候使用。

10、ES数据建模实例练习。创建博客文档blog_index。

查询博客blog_index_01的索引映射和分片,副本情况。 插入数据,然后根据指定字段进行查询。

简易的ES模型,如果博客新增了内容context字段。

url字段的store的值为true的时候,enabled的值不能设定为false。因为enabled的值设定为false,会将值存储到_source里面的。doc_values是不需要进行聚合分析的。

11、Elasticsearch关联关系处理,es不擅长处理关系型数据库中的关联关系,比如文章表blog与评论表comment之间通过blog_id关联,在es中可以通过如下两种手段变相解决。Nested Object、Parent/Child。

12、关联关系处理之Nested Object。Comments默认是Objetc Array类型,存储结果类型是对应的字段在一个括号里面。

使用nested object解决查询结果不符合要求的现象。

Nested Object Array的存储类型,nested object是独立存在的。即自己对应的字段在一个括号内。查询的结果如下所示:

13、关联关系处理之Parent/Child。Elasticsearch还提供了类似关系数据库中join的实现方式,使用join数据类型实现。

关联关系处理之Parent/Child。常见query语法包括如下几种。
a、parent_id返回某父文档的子文档。
b、has_child返回包含某子文档的父文档。
c、has_parent返回包含某父文档的子文档。

建议尽量选择使用Nested Object来解决问题。

14、Elasticsearch的Reindex,指重建所有数据的过程,一般发生在如下情况。

  答:a、mappring设置变更,比如字段类型变化,分词器字段更新等等。
    b、index设置变更,比如分片数更改等等。
    c、迁移数据。

15、Elasticsearch提供了现成的API用于完成该工作。

  答:a、_update_by_query在现有索引上重建。
    b、_reindex在其他索引上重建。

数据重建的时候受源索引文档规模的影响,当规模越大的时候,所需时间越多,此时需要通过设定url参数wait_for_completion为false来异步执行,es以task来描述此类执行任务。es提供了task api来查看任务的执行进度和相关数据。 

再牛逼的案例,理论,都没有官网的牛逼,下面贴一下,如何去官网学习。

找到这里,自己可以巴拉巴拉,看自己需要的版本,对应的知识点。

 

16、Elasticsearch数据建模的建议。

  1)、数据模型版本管理,对Mapping版本管理。
    包含在代码或者专门的文件进行管理,添加好注释,并加入git版本管理仓库中,方便回顾。为每个增加一个metadata字段,在其中维护一些文档相关的元数据,方便对数据进行管理。mapping版本,可以自行指定,比如每次更新mapping设置后,该version加1。

  2)、防止字段过多。字段过多主要有如下的坏处。

    难于维护,当字段成百上千的时候,基本很难有人能明确知道每个字段的含义。mapping的信息存储在cluster state里面,过多的字段会导致mapping过大,最终导致更新变慢。通过设置index.mapping.total_fields.limit可以限定索引中最大字段数,默认是1000。可以通过key/value的方式解决字段过多的问题,但并不完美。一般字段过多的原因是由于没有高质量的数据建模导致的,比如dynamic设置为true。也可以考虑拆分多个索引来解决问题。

作者:别先生

博客园:https://www.cnblogs.com/biehongli/

如果您想及时得到个人撰写文章以及著作的消息推送,可以扫描上方二维码,关注个人公众号哦。

 

这篇关于Elasticsearch 6.x版本全文检索学习之数据建模的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1060538

相关文章

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据

C++中使用vector存储并遍历数据的基本步骤

《C++中使用vector存储并遍历数据的基本步骤》C++标准模板库(STL)提供了多种容器类型,包括顺序容器、关联容器、无序关联容器和容器适配器,每种容器都有其特定的用途和特性,:本文主要介绍C... 目录(1)容器及简要描述‌php顺序容器‌‌关联容器‌‌无序关联容器‌(基于哈希表):‌容器适配器‌:(

C#提取PDF表单数据的实现流程

《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

大数据小内存排序问题如何巧妙解决

《大数据小内存排序问题如何巧妙解决》文章介绍了大数据小内存排序的三种方法:数据库排序、分治法和位图法,数据库排序简单但速度慢,对设备要求高;分治法高效但实现复杂;位图法可读性差,但存储空间受限... 目录三种方法:方法概要数据库排序(http://www.chinasem.cn对数据库设备要求较高)分治法(常

golang1.23版本之前 Timer Reset方法无法正确使用

《golang1.23版本之前TimerReset方法无法正确使用》在Go1.23之前,使用`time.Reset`函数时需要先调用`Stop`并明确从timer的channel中抽取出东西,以避... 目录golang1.23 之前 Reset ​到底有什么问题golang1.23 之前到底应该如何正确的

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat