Elasticsearch同步mysql(logstash-input-jdbc)和一些查询问题

本文主要是介绍Elasticsearch同步mysql(logstash-input-jdbc)和一些查询问题,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

linux环境下:

安装logstash:
1.下载公共密钥

rpm --import https://artifacts.elastic.co/GPG-KEY-elasticsearch

2.添加yum源

vim  /etc/yum.repos.d/logstash.repo
文件中写入:
[logstash-5.x]
name=Elastic repository for 5.x packages
baseurl=https://artifacts.elastic.co/packages/5.x/yum
gpgcheck=1
gpgkey=https://artifacts.elastic.co/GPG-KEY-elasticsearch
enabled=1
autorefresh=1
type=rpm-md

3.使用yum安装

yum install logstash

4.验证是否安装成功
进入 logstash 安装目录

cd /usr/share/logstash
运行

bin/logstash -e 'input { stdin { } } output { stdout {} }'
等待几秒钟 出现

The stdin plugin is now waiting for input:

然后输入
hello world

看到出现输入内容为成功


安装logstash-input-jdbc插件:

1.修改ruby仓库镜像
如果没有安装 gem 的话 安装gem

yum install gem
替换国内的镜像

gem sources --add https://gems.ruby-china.org/ --remove https://rubygems.org/
验证是否成功

gem sources -l

出现上面的url为成功


修改Gemfile的数据源地址:

whereis logstash # 查看logstash安装的位置, 默认在 /usr/share/logstash目录

cd /usr/share/logstash
vim Gemfile
修改 source 的值 为: "https://gems.ruby-china.org/"

vim  Gemfile.jruby-1.9.lock # 找到 remote 修改它的值为:https://gems.ruby-china.org/

然后开始安装
bin/logstash-plugin  install logstash-input-jdbc
安装过程没有进度条,所以不要以为一直卡着,我之前以为一直卡着手动停止一次


2.开始同步 mysql 数据

需要的文件有:  一个  .conf文件, X个 .sql 文件(X>=0,可以不需要)

去mysql官网下载一个 mysql 的Java 驱动包  : mysql-connector-java-5.1.44-bin.jar

下面是导入多张表的.conf配置文件:

input {stdin {}jdbc {# 需要连接的数据库jdbc_connection_string => "jdbc:mysql://xxx.xxx.xxx.xxx:3306/dbname"jdbc_user => "root"jdbc_password => "xxxxx"# jdbc驱动所在的路径jdbc_driver_library => "mysql-connector-java-5.1.44-bin.jar"# 默认jdbc_driver_class => "com.mysql.jdbc.Driver"# 默认jdbc_paging_enabled => "true"# 默认jdbc_page_size => "50000"# 需要执行的sql文件statement_filepath => "estest1.sql"# statement => "这样可以直接写sql语句而不用sql文件,适合短sql"schedule => "* * * * *"# 这个type有用,但是如果你的表中有type字段,并且你需要这个字段,要么sql中用as重命名,要么这里的type改名字type => "a_data"}jdbc {jdbc_connection_string => "jdbc:mysql://xxx.xxx.xxx.xxx:3306/dbname"jdbc_user => "root"jdbc_password => "xxxx"jdbc_driver_library => "mysql-connector-java-5.1.44-bin.jar"jdbc_driver_class => "com.mysql.jdbc.Driver"jdbc_paging_enabled => "true"jdbc_page_size => "50000"statement_filepath => "esztest2.sql"schedule => "* * * * *"type => "b_data"}jdbc {jdbc_connection_string => "jdbc:mysql://xxx.xxx.xxx.xxx:3306/dbname"jdbc_user => "root"jdbc_password => "xxxx"jdbc_driver_library => "mysql-connector-java-5.1.44-bin.jar"jdbc_driver_class => "com.mysql.jdbc.Driver"jdbc_paging_enabled => "true"jdbc_page_size => "50000"statement_filepath => "estest3.sql"schedule => "* * * * *"type => "c_data"}
}output {# 通过上面定义的type来区分if[type] == "a_data"{elasticsearch {hosts  => "xxx.xxx.xxx.xxx:9200"# 索引index => "estest"# 文档typedocument_type => "a_data"# 文档id,这个是将sql中的id字段当作文档id,如果sql中没有id找一个唯一值字段as成iddocument_id => "%{id}"}}if[type] == "b_data"{elasticsearch {hosts  => "xxx.xxx.xxx.xxx:9200"index => "estest"document_type => "b_data"document_id => "%{id}"}}if[type] == "exit_data"{elasticsearch {hosts  => "xxx.xxx.xxx.xxx:9200"index => "estest"document_type => "c_data"document_id => "%{id}"}}# 控制台输出内容stdout {codec => json_lines}
}

这样就同步四张表

sql文件就按各自需求写

SELECT * FROM xxx WHERE update_time> :sql_last_value 

可以通过update_time这段进行增量同步(也可以通过唯一id),如果没有where就全量同步


在es查询中出现一个问题,至今没有找到原因,搜索长的long数据无法搜索到,但是一两位的long数据却可以搜素到,这个很无解,我只能在同步时将mysql的数字类型通过CONVERT函数进行类型转换

SELECT CONVERT(e.`xx_id`,CHAR) as xx_id, FROM xxx e WHERE update_time> :sql_last_value
这样进入es中的数据都是字符串


有时候将es取代mysql复杂查询,sql中有类似(a or b) and (c or d or e or f)  and g 这样的判断语句

es的查询如下:

{"query": {"bool": {# must是完全匹配,相当于AND"must": [{"match": {"g": "1111"}},{"bool": {# should 相当于OR"should": [{"match": {"a": "1789104"}},{"match": {"b": "1789104"}}]}},{"bool": {"should": [{"match": {"c": "有限公司"}},{"match": {"d": "有限公司"}},{"match": {"e": "有限公司"}},{"match": {"f": "有限公司"}}]}}],# must_not 不能匹配"must_not": [],"should": []}},# 起始数据"from": 0,# 结尾数据"size": 20,"sort": [],"aggs": {}
}
这条查询语句就是sql的(a or b) and (c or d or e or f)  and g

就是通过must(AND),should(OR),bool包裹的组合来实现复杂的匹配查询

es搜索中碰到无法确定关键字是中英文还是数字,但是要做到相对精准的匹配,可以使用通配符或者正则(正则我没有用过不清楚,通配符在字母数字或者两者组合有效)

下面是一个(a or b) and (c or d)的匹配,其中c用到了“wildcard“这个关键字是用于通配符模式,这里有点要注意的,因为ES内部的机制,即使head中看到的数据是大写字母,但是用大写字母是匹配是匹配不到的,只有用小写才可以,所以为了用户体验好点,可以将用户输入的字母都转成小写再匹配

{"query": {"bool": {"must": [{"bool": {"should": [{"match": {"a": "18396893"}},{"match": {"b": "18396893"}}]}},{"bool": {"should": [{"wildcard": {"c": "*3zz*"}},{"match": {"d": "项目名称"}}]}}],"must_not": [],"should": []}},"from": 0,"size": 20,"sort": [],"aggs": {}
}




这篇关于Elasticsearch同步mysql(logstash-input-jdbc)和一些查询问题的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1110791

相关文章

MySQL 中的 JSON 查询案例详解

《MySQL中的JSON查询案例详解》:本文主要介绍MySQL的JSON查询的相关知识,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql 的 jsON 路径格式基本结构路径组件详解特殊语法元素实际示例简单路径复杂路径简写操作符注意MySQL 的 J

Spring Boot中JSON数值溢出问题从报错到优雅解决办法

《SpringBoot中JSON数值溢出问题从报错到优雅解决办法》:本文主要介绍SpringBoot中JSON数值溢出问题从报错到优雅的解决办法,通过修改字段类型为Long、添加全局异常处理和... 目录一、问题背景:为什么我的接口突然报错了?二、为什么会发生这个错误?1. Java 数据类型的“容量”限制

Go语言开发实现查询IP信息的MCP服务器

《Go语言开发实现查询IP信息的MCP服务器》随着MCP的快速普及和广泛应用,MCP服务器也层出不穷,本文将详细介绍如何在Go语言中使用go-mcp库来开发一个查询IP信息的MCP... 目录前言mcp-ip-geo 服务器目录结构说明查询 IP 信息功能实现工具实现工具管理查询单个 IP 信息工具的实现服

关于MongoDB图片URL存储异常问题以及解决

《关于MongoDB图片URL存储异常问题以及解决》:本文主要介绍关于MongoDB图片URL存储异常问题以及解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录MongoDB图片URL存储异常问题项目场景问题描述原因分析解决方案预防措施js总结MongoDB图

SpringBoot项目中报错The field screenShot exceeds its maximum permitted size of 1048576 bytes.的问题及解决

《SpringBoot项目中报错ThefieldscreenShotexceedsitsmaximumpermittedsizeof1048576bytes.的问题及解决》这篇文章... 目录项目场景问题描述原因分析解决方案总结项目场景javascript提示:项目相关背景:项目场景:基于Spring

解决Maven项目idea找不到本地仓库jar包问题以及使用mvn install:install-file

《解决Maven项目idea找不到本地仓库jar包问题以及使用mvninstall:install-file》:本文主要介绍解决Maven项目idea找不到本地仓库jar包问题以及使用mvnin... 目录Maven项目idea找不到本地仓库jar包以及使用mvn install:install-file基

Windows 上如果忘记了 MySQL 密码 重置密码的两种方法

《Windows上如果忘记了MySQL密码重置密码的两种方法》:本文主要介绍Windows上如果忘记了MySQL密码重置密码的两种方法,本文通过两种方法结合实例代码给大家介绍的非常详细,感... 目录方法 1:以跳过权限验证模式启动 mysql 并重置密码方法 2:使用 my.ini 文件的临时配置在 Wi

MySQL重复数据处理的七种高效方法

《MySQL重复数据处理的七种高效方法》你是不是也曾遇到过这样的烦恼:明明系统测试时一切正常,上线后却频频出现重复数据,大批量导数据时,总有那么几条不听话的记录导致整个事务莫名回滚,今天,我就跟大家分... 目录1. 重复数据插入问题分析1.1 问题本质1.2 常见场景图2. 基础解决方案:使用异常捕获3.

SQL中redo log 刷⼊磁盘的常见方法

《SQL中redolog刷⼊磁盘的常见方法》本文主要介绍了SQL中redolog刷⼊磁盘的常见方法,将redolog刷入磁盘的方法确保了数据的持久性和一致性,下面就来具体介绍一下,感兴趣的可以了解... 目录Redo Log 刷入磁盘的方法Redo Log 刷入磁盘的过程代码示例(伪代码)在数据库系统中,r

mysql中的group by高级用法

《mysql中的groupby高级用法》MySQL中的GROUPBY是数据聚合分析的核心功能,主要用于将结果集按指定列分组,并结合聚合函数进行统计计算,下面给大家介绍mysql中的groupby用法... 目录一、基本语法与核心功能二、基础用法示例1. 单列分组统计2. 多列组合分组3. 与WHERE结合使