ElasticSearch:Reindex数据迁移使用

2024-06-09 17:08

本文主要是介绍ElasticSearch:Reindex数据迁移使用,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、前言

ES在创建好索引后,mappingproperties属性类型是不能更改的,只能添加。如果说需要修改字段就需要重新建立索引然后把旧数据导到新索引。 

二、Reindex 

5.X版本后新增_reindex API 。Reindex可以直接在Elasticsearch集群里面对数据进行重建。并且支持跨集群间的数据迁移。 

三、实战 

 1、原索引

比如我现在有这么一个索引:topic,mapping信息如下: 

{"settings": {"number_of_shards": 3,"number_of_replicas": 2},"mappings": {"properties": {"update_time": {"type": "date","format": "yyyy-MM-dd HH:mm:ss || yyyy-MM-dd'T'HH:mm:ss.SSS || yyyy-MM-dd || epoch_millis"},"create_time": {"type": "date","format": "yyyy-MM-dd HH:mm:ss || yyyy-MM-dd'T'HH:mm:ss.SSS || yyyy-MM-dd || epoch_millis"},"user_id": {"type": "long"},"is_del": {"type": "boolean"},"location": {"type": "geo_point","ignore_malformed": "true"},"id": {"type": "keyword"},"title": {"type": "keyword"},"content": {"term_vector": "with_positions_offsets","search_analyzer": "ik_smart","type": "text","analyzer": "ik_max_word"},"status": {"type": "short"}}}
}

 里面有12条数据,我发现我的userId的类型错了,应该是字符串类型的。我想改一下。

 2、创建新的索引

创建新的索引为:topic-new,mapping如下:

PUT http://172.16.1.236:9201/topic-new
{"settings": {"number_of_shards": 3,"number_of_replicas": 0,"refresh_interval": -1},"mappings": {"properties": {"update_time": {"type": "date","format": "yyyy-MM-dd HH:mm:ss || yyyy-MM-dd'T'HH:mm:ss.SSS || yyyy-MM-dd || epoch_millis"},"create_time": {"type": "date","format": "yyyy-MM-dd HH:mm:ss || yyyy-MM-dd'T'HH:mm:ss.SSS || yyyy-MM-dd || epoch_millis"},"user_id": {"type": "keyword"},"is_del": {"type": "boolean"},"location": {"type": "geo_point","ignore_malformed": "true"},"id": {"type": "keyword"},"title": {"type": "keyword"},"content": {"term_vector": "with_positions_offsets","search_analyzer": "ik_smart","type": "text","analyzer": "ik_max_word"},"status": {"type": "short"}}}
}
  • 在上面我修改了userId的字段为keyword类型
  • 并修改了number_of_replicasrefresh_interval
  • 设置number_of_replicas0防止我们迁移文档的同时又发送到副本节点,影响性能
  • 设置refresh_interval-1是限制其刷新。默认是1秒
  • 当我们数据迁移完成再把上面两个值进行修改即可

 3、开始迁移

在新索引都更新好了,就可以迁移了

POST http://172.16.1.236:9201/_reindex
{"source": {"index": "topic"},"dest": {"index": "topic-new"}
}// 返回
{"took": 1335,"timed_out": false,"total": 12,"updated": 0,"created": 12,"deleted": 0,"batches": 1,"version_conflicts": 0,"noops": 0,"retries": {"bulk": 0,"search": 0},"throttled_millis": 0,"requests_per_second": -1.0,"throttled_until_millis": 0,"failures": []
}

这时候去看数据,是看不到数据的,因为还要刷新才行。

 更新配置

PUT http://172.16.1.236:9201/topic-new/_settings
{"refresh_interval": "1s","number_of_replicas": 1
}

 更新副本数和刷新时间,自此数据迁移就完成了,因为之前的索引不用,但是接口都是指向之前的索引,我们就在新索引添加别名即可。

添加别名之前先删除旧索引

DELETE http://172.16.1.236:9201/topic

添加别名

POST http://172.16.1.236:9201/_aliases
{"actions": [{"add": {"index": "topic-new", "alias": "topic"}}]}

获取别名

GET http://172.16.1.236:9201/topic/_alias

移除别名

POST http://172.16.1.236:9201/_aliases
{"actions": [{"remove": {"index": "indexName", "alias": "indexAliasName"}}]}

4、跨集群数据迁移

 

从其他的远程集群 reindex 数据。

  • 在上面是在相同的集群中进行数据迁移的,如果是不同集群呢?
  • 也是可以的,首先需要设置白名单。(如果是A集群 --> B集群,就需要在B中的elasticsearch.yml 设置A地址为白名单)

设置白名单 

在目标集群的elasticsearch.yml配置文件,设置远程集群的白名单,添加如下配置 

# reindex.remote.whitelist: A的IP:端口,例如:
reindex.remote.whitelist: 172.16.1.236:9200

reindex 

  • 和同集群数据迁移基本一样,就是多了一个设置白名单而已。
  • 设置好索引、number_of_replicas: 0refresh_interval: -1
  • remote中设置远程集群的地址与账号密码(如果配置了的话)。
  • 也可以添加query属性,只查询符号条件的。
POST http://172.16.1.236:9201/_reindex
{"source": {"index": "topic","remote": {"host": "http://172.16.1.236:9200","username": "username","password": "password"},"query": {"match_all": {}}},"dest": {"index": "topic-new"}
}

完成之后记得重新配置number_of_replicasrefresh_interval

 

这篇关于ElasticSearch:Reindex数据迁移使用的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1045785

相关文章

SpringBoot分段处理List集合多线程批量插入数据方式

《SpringBoot分段处理List集合多线程批量插入数据方式》文章介绍如何处理大数据量List批量插入数据库的优化方案:通过拆分List并分配独立线程处理,结合Spring线程池与异步方法提升效率... 目录项目场景解决方案1.实体类2.Mapper3.spring容器注入线程池bejsan对象4.创建

PHP轻松处理千万行数据的方法详解

《PHP轻松处理千万行数据的方法详解》说到处理大数据集,PHP通常不是第一个想到的语言,但如果你曾经需要处理数百万行数据而不让服务器崩溃或内存耗尽,你就会知道PHP用对了工具有多强大,下面小编就... 目录问题的本质php 中的数据流处理:为什么必不可少生成器:内存高效的迭代方式流量控制:避免系统过载一次性

Python使用FastAPI实现大文件分片上传与断点续传功能

《Python使用FastAPI实现大文件分片上传与断点续传功能》大文件直传常遇到超时、网络抖动失败、失败后只能重传的问题,分片上传+断点续传可以把大文件拆成若干小块逐个上传,并在中断后从已完成分片继... 目录一、接口设计二、服务端实现(FastAPI)2.1 运行环境2.2 目录结构建议2.3 serv

C#实现千万数据秒级导入的代码

《C#实现千万数据秒级导入的代码》在实际开发中excel导入很常见,现代社会中很容易遇到大数据处理业务,所以本文我就给大家分享一下千万数据秒级导入怎么实现,文中有详细的代码示例供大家参考,需要的朋友可... 目录前言一、数据存储二、处理逻辑优化前代码处理逻辑优化后的代码总结前言在实际开发中excel导入很

Spring Security简介、使用与最佳实践

《SpringSecurity简介、使用与最佳实践》SpringSecurity是一个能够为基于Spring的企业应用系统提供声明式的安全访问控制解决方案的安全框架,本文给大家介绍SpringSec... 目录一、如何理解 Spring Security?—— 核心思想二、如何在 Java 项目中使用?——

springboot中使用okhttp3的小结

《springboot中使用okhttp3的小结》OkHttp3是一个JavaHTTP客户端,可以处理各种请求类型,比如GET、POST、PUT等,并且支持高效的HTTP连接池、请求和响应缓存、以及异... 在 Spring Boot 项目中使用 OkHttp3 进行 HTTP 请求是一个高效且流行的方式。

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC

使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解

《使用Python批量将.ncm格式的音频文件转换为.mp3格式的实战详解》本文详细介绍了如何使用Python通过ncmdump工具批量将.ncm音频转换为.mp3的步骤,包括安装、配置ffmpeg环... 目录1. 前言2. 安装 ncmdump3. 实现 .ncm 转 .mp34. 执行过程5. 执行结

Java使用jar命令配置服务器端口的完整指南

《Java使用jar命令配置服务器端口的完整指南》本文将详细介绍如何使用java-jar命令启动应用,并重点讲解如何配置服务器端口,同时提供一个实用的Web工具来简化这一过程,希望对大家有所帮助... 目录1. Java Jar文件简介1.1 什么是Jar文件1.2 创建可执行Jar文件2. 使用java

C#使用Spire.Doc for .NET实现HTML转Word的高效方案

《C#使用Spire.Docfor.NET实现HTML转Word的高效方案》在Web开发中,HTML内容的生成与处理是高频需求,然而,当用户需要将HTML页面或动态生成的HTML字符串转换为Wor... 目录引言一、html转Word的典型场景与挑战二、用 Spire.Doc 实现 HTML 转 Word1