OpenSearch使用scroll滚动搜索实战

2023-11-05 15:15

本文主要是介绍OpenSearch使用scroll滚动搜索实战,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章目录

  • 前言
  • 当前环境
  • 实战
  • 遇到的问题

前言

起源和开源性质:
Elasticsearch:Elasticsearch最初由Elastic公司开发,后来开源,但采用了Elastic License,这是一种有限制的许可协议。
OpenSearch:OpenSearch是从Elasticsearch的分支项目发展而来,以满足更广泛的开源社区需求,它采用了Apache License 2.0,这是一种较为开放的许可协议。

https://opensearch.org/docs/latest/api-reference/scroll/

正常search查询:结果hits.total.value=10000,得知会有限制,使用scroll来解决限制

查询结果深处的页面可能会对性能产生重大影响,因此 OpenSearch 将此方法限制为 10000 个结果。
所以需要使用scroll来解决10000以后的数据

当前环境

php8.1、hyperf3.0框架、OpenSearch7.10.2

composer包引入

"hyperf/elasticsearch": "3.0.*",
"opensearch-project/opensearch-php": "^2.2",

实战

// 创建 Elasticsearch 客户端
$client = $clientBuilder->setIndex('your_index')->getClient();// 定义滚动查询的初始搜索条件
$searchParams = ['scroll' => '1m', // 设置滚动时间'size' => 1000,   // 设置每次滚动查询返回的文档数'body' => ['query' => ['match' => ['field' => 'value',],],],
];// 执行初始滚动查询
$response = $client->scroll($searchParams);// 获取第一批结果
$scrollId = $response['_scroll_id'];
$results = new Collection($response['hits']['hits']);// 处理第一批结果
foreach ($results as $result) {// 处理结果echo $result['_id'] . ": " . $result['_source']['field'] . "\n";
}// 开始滚动查询
while (true) {// 使用滚动 ID 获取下一批结果$scrollParams = ['scroll_id' => $scrollId,'scroll' => '1m', // 设置滚动时间,必须与初始查询保持一致];$response = $client->scroll($scrollParams);if (count($response['hits']['hits']) === 0) {// 所有结果已经获取完毕break;}// 获取下一批结果$results = new Collection($response['hits']['hits']);// 处理下一批结果foreach ($results as $result) {// 处理结果echo $result['_id'] . ": " . $result['_source']['field'] . "\n";}
}// 清除滚动查询
$client->clearScroll(['scroll_id' => [$scrollId]]);

遇到的问题

如果不及时清除滚动,数据量过大会遇到以下报错,需要重启OpenSearch

{ Error: [exception] Trying to create too many scroll contexts. Must be less than or equal to: [500]. This limit can be set by changing the [search.max_open_scroll_context] setting.

这篇关于OpenSearch使用scroll滚动搜索实战的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/350704

相关文章

从原理到实战深入理解Java 断言assert

《从原理到实战深入理解Java断言assert》本文深入解析Java断言机制,涵盖语法、工作原理、启用方式及与异常的区别,推荐用于开发阶段的条件检查与状态验证,并强调生产环境应使用参数验证工具类替代... 目录深入理解 Java 断言(assert):从原理到实战引言:为什么需要断言?一、断言基础1.1 语

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

Python中注释使用方法举例详解

《Python中注释使用方法举例详解》在Python编程语言中注释是必不可少的一部分,它有助于提高代码的可读性和维护性,:本文主要介绍Python中注释使用方法的相关资料,需要的朋友可以参考下... 目录一、前言二、什么是注释?示例:三、单行注释语法:以 China编程# 开头,后面的内容为注释内容示例:示例:四

Java MQTT实战应用

《JavaMQTT实战应用》本文详解MQTT协议,涵盖其发布/订阅机制、低功耗高效特性、三种服务质量等级(QoS0/1/2),以及客户端、代理、主题的核心概念,最后提供Linux部署教程、Sprin... 目录一、MQTT协议二、MQTT优点三、三种服务质量等级四、客户端、代理、主题1. 客户端(Clien

Go语言数据库编程GORM 的基本使用详解

《Go语言数据库编程GORM的基本使用详解》GORM是Go语言流行的ORM框架,封装database/sql,支持自动迁移、关联、事务等,提供CRUD、条件查询、钩子函数、日志等功能,简化数据库操作... 目录一、安装与初始化1. 安装 GORM 及数据库驱动2. 建立数据库连接二、定义模型结构体三、自动迁

ModelMapper基本使用和常见场景示例详解

《ModelMapper基本使用和常见场景示例详解》ModelMapper是Java对象映射库,支持自动映射、自定义规则、集合转换及高级配置(如匹配策略、转换器),可集成SpringBoot,减少样板... 目录1. 添加依赖2. 基本用法示例:简单对象映射3. 自定义映射规则4. 集合映射5. 高级配置匹

Spring 框架之Springfox使用详解

《Spring框架之Springfox使用详解》Springfox是Spring框架的API文档工具,集成Swagger规范,自动生成文档并支持多语言/版本,模块化设计便于扩展,但存在版本兼容性、性... 目录核心功能工作原理模块化设计使用示例注意事项优缺点优点缺点总结适用场景建议总结Springfox 是

在Spring Boot中集成RabbitMQ的实战记录

《在SpringBoot中集成RabbitMQ的实战记录》本文介绍SpringBoot集成RabbitMQ的步骤,涵盖配置连接、消息发送与接收,并对比两种定义Exchange与队列的方式:手动声明(... 目录前言准备工作1. 安装 RabbitMQ2. 消息发送者(Producer)配置1. 创建 Spr

嵌入式数据库SQLite 3配置使用讲解

《嵌入式数据库SQLite3配置使用讲解》本文强调嵌入式项目中SQLite3数据库的重要性,因其零配置、轻量级、跨平台及事务处理特性,可保障数据溯源与责任明确,详细讲解安装配置、基础语法及SQLit... 目录0、惨痛教训1、SQLite3环境配置(1)、下载安装SQLite库(2)、解压下载的文件(3)、

使用Python绘制3D堆叠条形图全解析

《使用Python绘制3D堆叠条形图全解析》在数据可视化的工具箱里,3D图表总能带来眼前一亮的效果,本文就来和大家聊聊如何使用Python实现绘制3D堆叠条形图,感兴趣的小伙伴可以了解下... 目录为什么选择 3D 堆叠条形图代码实现:从数据到 3D 世界的搭建核心代码逐行解析细节优化应用场景:3D 堆叠图