《深入剖析 Elasticsearch:强大的 Java 开源搜索引擎》

2024-09-03 21:44

本文主要是介绍《深入剖析 Elasticsearch:强大的 Java 开源搜索引擎》,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

《深入剖析 Elasticsearch:强大的 Java 开源搜索引擎》

​ Elasticsearch 作为一款由 Java 开发的开源搜索引擎,以其卓越的特性在 Java 开发社区中备受青睐。它具备实时搜索、稳定可靠、快速安装和方便使用等突出优点,为开发者提供了强大的搜索解决方案。

一、索引操作

(一)创建索引
  1. 基本创建:通过 PUT /索引名(如 PUT /products)可以创建索引。需注意索引的健康状态分为红色(不可用)、黄色(可用但有风险)和绿色(健康)。默认情况下,Elasticsearch 在创建索引时会为其创建一个备份索引和一个主索引。

  2. 分片配置:可以使用以下方式进行索引分片配置。

    PUT /products
    {"settings": {"number_of_shards": 1,"number_of_replicas": 0}
    }
    

    同时,Elasticsearch 支持丰富的字段类型,如字符串类型(keyword、text)、数字类型(integer、long、float、double)、布尔类型、日期类型等。创建索引时可以定义映射,指定字段类型。

    例:

    PUT /products
    { "settings": {"number_of_shards": 1,"number_of_replicas": 0}, "mappings": {"properties": {"title":{"type": "keyword"},"price":{"type": "double"},"created_at":{"type": "date"},"description":{"type": "text"}}}
    }
    
    (二)查询索引

    使用 GET /_cat/indices?v 可以查询所有索引信息。通过 GET /索引名/_mapping(如 GET /products/_mapping)可以查看特定索引的映射。

    (三)删除索引

    可以使用 DELETE /索引名(如 DELETE /products)删除指定索引,也可以使用 DELETE /*(其中 * 代表通配符,可删除所有索引)。

    二、文档操作

    (一)添加文档

    可以通过指定文档 ID(如 POST /products/_doc/1)或者让系统自动生成文档 ID(如 POST /products/_doc/)来添加文档。添加文档后会返回包含索引信息、文档 ID、版本号等内容的响应。

    (二)查询文档

    使用 GET /products/_doc/文档 ID 可以查询特定文档,响应中包含文档的详细信息。

    (三)删除文档

    通过 DELETE /products/_doc/文档 ID 可以删除指定文档,返回删除操作的结果信息。

    (四)更新文档

    有两种更新方式:

    1. 先删除原始文档再插入更新后的文档,如 PUT /products/_doc/文档 ID
    2. 保留原始内容并在此基础上更新,可使用 POST /products/_doc/文档 ID/_update
    (五)批量操作

    可以使用批量操作同时处理多个文档的添加、更新和删除。例如:

    1. 批量索引两条文档:
    POST /products/_doc/_bulk
    {"index":{"_id":"1"}}
    {"title":"iphone14","price":8999.99,"created_at":"2021-09-15","description":"iPhone 13屏幕采用6.8英寸OLED屏幕"}
    {"index":{"_id":"2"}}
    {"title":"iphone15","price":8999.99,"created_at":"2021-09-15","description":"iPhone 15屏幕采用10.8英寸OLED屏幕"}
    

    2.更新文档同时删除文档:

    POST /products/_doc/_bulk
    {"update":{"_id":"1"}}
    {"doc":{"title":"iphone17"}}
    {"delete":{"_id":2}}
    {"index":{}}
    {"title":"iphone19","price":8999.99,"created_at":"2021-09-15","description":"iPhone 19屏幕采用61.8英寸OLED屏幕"}
    

    批量操作具有不会因一个失败而导致全部失败的优点,会继续执行后续操作并按执行状态返回结果。

    三、高级查询

    Elasticsearch 提供了强大的 Query DSL(查询特定领域语言),通过 Rest API 传递 JSON 格式的请求体数据与 ES 进行交互。这种方式具有丰富的查询语法,使 ES 检索更强大、更简洁。

    1. 创建索引并映射:

      PUT /products/
      {"mappings": {"properties": {"title":{"type": "keyword"},"price":{"type": "double"},"created_at":{"type":"date"},"description":{"type":"text"}}}
      }
      

      例:

      PUT /products/_doc/_bulk
      {"index":{}}
      {"title":"iphone12 pro","price":8999,"created_at":"2020-10-23","description":"iPhone 12 Pro采用超瓷晶面板和亚光质感玻璃背板,搭配不锈钢边框,有银色、石墨色、金色、海蓝色四种颜色。宽度:71.5毫米,高度:146.7毫米,厚度:7.4毫米,重量:187克"}
      {"index":{}}
      {"title":"iphone12","price":4999,"created_at":"2020-10-23","description":"iPhone 12 高度:146.7毫米;宽度:71.5毫米;厚度:7.4毫米;重量:162克(5.73盎司) [5]  。iPhone 12设计采用了离子玻璃,以及7000系列铝金属外壳。"}
      {"index":{}}
      {"title":"iphone13","price":6000,"created_at":"2021-09-15","description":"iPhone 13屏幕采用6.1英寸OLED屏幕;高度约146.7毫米,宽度约71.5毫米,厚度约7.65毫米,重量约173克。"}
      {"index":{}}
      {"title":"iphone13 pro","price":8999,"created_at":"2021-09-15","description":"iPhone 13Pro搭载A15 Bionic芯片,拥有四种配色,支持5G。有128G、256G、512G、1T可选,售价为999美元起。"}
      

      四、常见检索方式

      (一)查询所有 [match_all]

      使用 match_all 关键字可以返回索引中的全部文档。例如:

      GET /products/_search
      {"query": {"match_all": {}}
      }
      
      (二)关键词查询 (term)

      term 关键字用于关键词查询。例如查询价格为 4999 的文档:

      GET /products/_search
      {"query": {"term": {"price": {"value": 4999}}}
      }
      

      通过 term 查询可知,ES 中默认使用标准分词器,对英文单词分词,对中文单字分词。同时,在 ES 的 Mapping Type 中,keyworddateintegerlongdoublebooleanip 这些类型不分词,只有 text 类型分词。

      (三)范围查询 [range]

      range 关键字用于指定查询指定范围内的文档。例如:

      GET /products/_search
      {"query": {"range": {"price": {"gte": 1400,"lte": 9999}}}
      }
      
      (四)前缀查询 [prefix]

      prefix 关键字用于检索含有指定前缀的关键词的相关文档。例如:

      GET /products/_search
      {"query": {"prefix": {"title": {"value": "ipho"}}}
      }
      
      (五)通配符查询 [wildcard]

      wildcard 关键字用于通配符查询,? 匹配一个任意字符,* 匹配多个任意字符。例如:

      GET /products/_search
      {"query": {"wildcard": {"description": {"value": "iphon*"}}}
      }
      
      (六)多 id 查询 [ids]

      ids 关键字值为数组类型,用于根据一组 id 获取多个对应的文档。例如:

      GET /products/_search
      {"query": {"ids": {"values": ["verUq3wBOTjuBizqAegi","vurUq3wBOTjuBizqAegk"]}}
      }
      
      (七)模糊查询 [fuzzy]

      fuzzy 关键字用于模糊查询含有指定关键字的文档。模糊查询有一定限制:搜索关键词长度为 2 不允许存在模糊;长度为 3 - 5 允许一次模糊;长度大于 5 允许最大 2 模糊。例如:

      GET /products/_search
      {"query": {"fuzzy": {"description": "iphooone"}}
      }
      
      (八)布尔查询 [bool]

      bool 关键字用于组合多个条件实现复杂查询。must 相当于 “&&”(同时成立);should 相当于 “||”(成立一个就行);must_not 相当于 “!”(不能满足任何一个)。例如:

      GET /products/_search
      {"query": {"bool": {"must": [{"term": {"price": {"value": 4999}}}]}}
      }
      
      (九)多字段查询 [multi_match]

      使用 multi_match 可以在多个字段中进行查询。需注意,如果字段类型分词,将查询条件分词后查询该字段;如果不分词,则将查询条件作为整体进行查询。例如:

      GET /products/_search
      {"query": {"multi_match": {"query": "iphone13 毫","fields": ["title","description"]}}
      }
      
      (十)默认字段分词查询 [query_string]

      query_string 关键字用于默认字段分词查询。如果查询字段分词,就将查询条件分词查询;如果不分词,将查询条件不分词查询。例如:

      GET /products/_search
      {"query": {"query_string": {"default_field": "description","query": "屏幕真的非常不错"}}
      }
      
      (十一)高亮查询 [highlight]

      使用 highlight 关键字可以让符合条件的文档中的关键词高亮。例如:

      GET /products/_search
      {"query": {"term": {"description": {"value": "iphone"}}},"highlight": {"fields": {"*":{}}}
      }
      

      自定义高亮标签:可以在 highlight 中使用 pre_tagspost_tags。例如:

      GET /products/_search
      {"query": {"term": {"description": {"value": "iphone"}}},"highlight": {"post_tags": ["</span>"], "pre_tags": ["<span style='color:red'>"],"fields": {"*":{}}}
      }
      

      多字段高亮:使用 require_field_match 开启多个字段高亮。例如:

      GET /products/_search
      {"query": {"term": {"description": {"value": "iphone"}}},"highlight": {"require_field_match": "false","post_tags": ["</span>"], "pre_tags": ["<span style='color:red'>"],"fields": {"*":{}}}
      }
      
      (十二)返回指定条数 [size]

      使用 size 关键字可以指定查询结果中返回的条数,默认返回值为 10 条。例如:

      GET /products/_search
      {"query": {"match_all": {}},"size": 5
      }
      
      (十三)分页查询 [from]

      from 关键字用于指定起始返回位置,与 size 关键字连用可实现分页效果。例如:

      GET /products/_search
      {"query": {"match_all": {}},"size": 5,"from": 0
      }
      
      (十四)指定字段排序 [sort]

      使用 sort 关键字可以对查询结果进行排序。例如:

      GET /products/_search
      {"query": {"match_all": {}},"sort": [{"price": {"order": "desc"}}]
      }
      
      (十五)返回指定字段 [_source]

      _source 关键字是一个数组,用于指定展示哪些字段。例如:

      GET /products/_search
      {"query": {"match_all": {}},"_source": ["title","description"]
      }
      

      总结

      Elasticsearch 作为一款功能强大的开源搜索引擎,为 Java 开发者带来了诸多便利和可能性。无论是处理小型项目还是应对大规模企业级应用,它都能凭借其出色的特性和丰富的功能,成为开发者手中的有力工具。在不断发展的技术领域中,掌握 Elasticsearch 的使用将为开发者打开更广阔的创新之门,助力他们构建出更加高效、智能的应用系统,为用户提供更优质的服务体验。

这篇关于《深入剖析 Elasticsearch:强大的 Java 开源搜索引擎》的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1134129

相关文章

JVM 的类初始化机制

前言 当你在 Java 程序中new对象时,有没有考虑过 JVM 是如何把静态的字节码(byte code)转化为运行时对象的呢,这个问题看似简单,但清楚的同学相信也不会太多,这篇文章首先介绍 JVM 类初始化的机制,然后给出几个易出错的实例来分析,帮助大家更好理解这个知识点。 JVM 将字节码转化为运行时对象分为三个阶段,分别是:loading 、Linking、initialization

Spring Security 基于表达式的权限控制

前言 spring security 3.0已经可以使用spring el表达式来控制授权,允许在表达式中使用复杂的布尔逻辑来控制访问的权限。 常见的表达式 Spring Security可用表达式对象的基类是SecurityExpressionRoot。 表达式描述hasRole([role])用户拥有制定的角色时返回true (Spring security默认会带有ROLE_前缀),去

浅析Spring Security认证过程

类图 为了方便理解Spring Security认证流程,特意画了如下的类图,包含相关的核心认证类 概述 核心验证器 AuthenticationManager 该对象提供了认证方法的入口,接收一个Authentiaton对象作为参数; public interface AuthenticationManager {Authentication authenticate(Authenti

Spring Security--Architecture Overview

1 核心组件 这一节主要介绍一些在Spring Security中常见且核心的Java类,它们之间的依赖,构建起了整个框架。想要理解整个架构,最起码得对这些类眼熟。 1.1 SecurityContextHolder SecurityContextHolder用于存储安全上下文(security context)的信息。当前操作的用户是谁,该用户是否已经被认证,他拥有哪些角色权限…这些都被保

Spring Security基于数据库验证流程详解

Spring Security 校验流程图 相关解释说明(认真看哦) AbstractAuthenticationProcessingFilter 抽象类 /*** 调用 #requiresAuthentication(HttpServletRequest, HttpServletResponse) 决定是否需要进行验证操作。* 如果需要验证,则会调用 #attemptAuthentica

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

Java架构师知识体认识

源码分析 常用设计模式 Proxy代理模式Factory工厂模式Singleton单例模式Delegate委派模式Strategy策略模式Prototype原型模式Template模板模式 Spring5 beans 接口实例化代理Bean操作 Context Ioc容器设计原理及高级特性Aop设计原理Factorybean与Beanfactory Transaction 声明式事物

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

Java进阶13讲__第12讲_1/2

多线程、线程池 1.  线程概念 1.1  什么是线程 1.2  线程的好处 2.   创建线程的三种方式 注意事项 2.1  继承Thread类 2.1.1 认识  2.1.2  编码实现  package cn.hdc.oop10.Thread;import org.slf4j.Logger;import org.slf4j.LoggerFactory