OpenTSDB安装,配置,数据存储介绍

2024-06-22 08:08

本文主要是介绍OpenTSDB安装,配置,数据存储介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1.什么是OpenTSDB
2.OpenTSDB是用什么语言编写和构建的?
3.如何安装OpenTSDB?



1. OpenTSDB介绍
OpenTSDB用HBase存储所有的时序(无须采样)来构建一个分布式、可伸缩的时间序列数据库。它支持秒级数据采集所有metrics,支持永久存储,可以做容量规划,并很容易的接入到现有的报警系统里。OpenTSDB可以从大规模的集群(包括集群中的网络设备、操作系统、应用程序)中获取相应的metrics并进行存储、索引以及服务,从而使得这些数据更容易让人理解,如web化、图形化等。
对于运维工程师而言,OpenTSDB可以获取基础设施和服务的实时状态信息,展示集群的各种软硬件错误,性能变化以及性能瓶颈。对于管理者而言,OpenTSDB可以衡量系统的SLA,理解复杂系统间的相互作用,展示资源消耗情况。集群的整体作业情况,可以用以辅助预算和集群资源协调。对于开发者而言,OpenTSDB可以展示集群的主要性能瓶颈,经常出现的错误,从而可以着力重点解决重要问题。
OpenTSDB使用LGPLv2.1+开源协议,目前版本为2.X。
  • 官网地址:http://opentsdb.net/
  • 源代码:https://github.com/OpenTSDB/opentsdb/
2. 安装OpenTSDB 2.1 依赖
OpenTSDB依赖jdk和Gnuplot,Gnuplot需要提前安装,版本要求为最小4.2,最大4.4,执行以下命令安装即可:
  1. yum install gnuplot autoconf
  2. apt-get install gnuplot
复制代码

OpenTSDB是用java编写的,但是项目构建不是用的java的方式而是使用的C、C++程序员构建项目的方式。运行时依赖:
  • JDK 1.6
  • asynchbase 1.3.0 (BSD)
  • Guava 12.0 (ASLv2)
  • logback 1.0 (LGPLv2.1 / EPL)
  • Netty 3.4 (ASLv2)
  • SLF4J 1.6 (MIT) with Log4J and JCL adapters
  • suasync 1.2 (BSD)
  • ZooKeeper 3.3 (ASLv2)
可选的编译时依赖:
  • GWT 2.4 (ASLv2)
可选的单元测试依赖:
  • Javassist 3.15 (MPL / LGPL)
  • JUnit 4.10 (CPL)
  • Mockito 1.9 (MIT)
  • PowerMock 1.4 (ASLv2)
2.2 下载并编译源代码
首先安装必要依赖:

  1. yum install gnuplot automake autoconf git -y
复制代码

下载源代码,可以指定最新版本或者手动checkout
  1. git clone git://github.com/OpenTSDB/opentsdb.git
  2. cd opentsdb
  3. ./build.sh
复制代码

2.3 安装
  • 1. 首先安装一个单节点或者多节点集群的hbase环境,hbase版本要求为0.94
  • 2. 设置环境变量并创建opentsdb使用的表,需要设置的环境变量为COMPRESSION和HBASE_HOME,前者设置是否启用压缩,或者设置hbase home目录。如果使用压缩,则还需要安装lzo
  • 3. 执行建表语句src/create_table.sh
  • 4. 启动TSD

  1. tsdtmp=${TMPDIR-'/tmp'}/tsd    # For best performance, make sure
  2. mkdir -p "$tsdtmp"             # your temporary directory uses tmpfs
  3. ./build/tsdb tsd --port=4242 --staticroot=build/staticroot --cachedir="$tsdtmp" --auto-metric
复制代码

如果你使用的是hbase集群,则你还需要设置--zkquorum,--cachedir对应的目录会产生一些临时文件,你可以设置cron定时任务进行删除。添加--auto-metric,则当新的数据被搜集时自动创建指标。
你可以将这些参数编写到配置文件中,然后通过--config指定该文件所在路径。
  • 5. 启动成功之后,你可以通过127.0.0.1:4242进行访问。
从源代码安装gnuplot、autoconf、opentsdb以及tcollector,可以参考: OpenTSDB & tcollector 安装部署(Installation and Deployment)
3. 使用向导 3.1 配置
OpenTSDB的配置参数可以在命令行指定,也可以在配置文件中指定。配置文件使用的是java的properties文件,文件中key为小写,支持逗号连接字符串但是不能有空格。所有的OpenTSDB属性都以tsdb开头,例如:

  1. # List of Zookeeper hosts that manage the HBase cluster
  2. tsd.storage.hbase.zk_quorum = 192.168.1.100
复制代码

配置参数优先级:
命令行参数 > 配置文件 > 默认值
你可以在命令行中通过--config指定配置文件所在路径,如果没有指定,OpenTSDB会从以下路径寻找配置文件:
  • ./opentsdb.conf
  • /etc/opentsdb.conf
  • /etc/opentsdb/opentsdb.conf
  • /opt/opentsdb/opentsdb.conf
如果一个合法的配置文件没有找到并且一些必须参数没有设置,TSD进程将不会启动。
配置文件中可配置的属性请参考: Properties
3.2 基本概念
在深入理解OpenTSDB之前,需要了解一些基本概念。
  • Cardinality。基数,在数学中定义为一个集合中的一些元素,在数据库中定义为一个索引的一些唯一元素,在OpenTSDB定义为:
  • 一个给定指标的一些唯一时间序列
  • 和一个标签名称相关联的一些唯一标签值
在OpenTSDB中拥有高基数的指标在查询过程中返回的值要多于低基数的指标,这样花费的时间也就越多。
Compaction。在OpenTSDB中,会将多列合并到一列之中以减少磁盘占用空间,这和hbase中的Compaction不一样。这个过程会在TSD写数据或者查询过程中不定期的发生。
Data Point。每一个指标可以被记录为某一个时间点的一个数值。Data Point包括以下部分:
  • 一个指标:metric
  • 一个数值
  • 这个数值被记录的时间戳
  • 多个标签
Metric。一个可测量的单位的标称。metric不包括一个数值或一个时间,其仅仅是一个标签,包含数值和时间的叫datapoints,metric是用逗号连接的不允许有空格,例如:
  • hours.worked
  • webserver.downloads
  • accumulation.snow
Tags。一个metric应该描述什么东西被测量,在OpenTSDB中,其不应该定义的太简单。通常,更好的做法是用Tags来描述具有相同维度的metric。Tags由tagk和tagv组成,前者表示一个分组,后者表示一个特定的项。
Time Series。一个metric的带有多个tag的data point集合。
Timestamp。一个绝对时间,用来描述一个数值或者一个给定的metric是在什么时候定义的。
Value。一个Value表示一个metric的实际数值。
UID。在OpenTSDB中,每一个metric、tagk或者tagv在创建的时候被分配一个唯一标识叫做UID,他们组合在一起可以创建一个序列的UID或者TSUID。在OpenTSDB的存储中,对于每一个metric、tagk或者tagv都存在从0开始的计数器,每来一个新的metric、tagk或者tagv,对应的计数器就会加1。当data point写到TSD时,UID是自动分配的。你也可以手动分配UID,前提是auto metric被设置为true。默认地,UID被编码为3Bytes,每一种UID类型最多可以有16,777,215个UID。你也可以修改源代码改为4Bytes。UID的展示有几种方式,最常见的方式是通过http api访问时,3 bytes的UID被编码为16进制的字符串。例如,UID为1的写为二进制的形式为000000000000000000000001,最为一个无符号的byte数组,其可以表示为[0,0,1],编码为16进制字符串为000001,其中每一位左边都被补上0,如果其不足两位。故,UID为255的会显示为[0,0,255]和0000FF。
关于为什么使用UID而不使用hashes,可以参考: why-uids
TSUID。当一个data point被写到OpenTSDB时,其row key格式为:<metric_UID><timestamp><tagk1_UID><tagv1_UID>[...<tagkN_UID><tagvN_UID>],不考虑时间戳的话,将其余部分都转换为UID,然后拼在一起,就可以组成为TSUID。
Metadata。主要用于记录data point的一些附加的信息,方便搜索和跟踪,分为UIDMeta和TSMeta。
每一个UID都有一个metadata记录保存在tsdb-uid表中,每一个UID包括一些不可变的字段,如uid、type、name和created字段表示什么时候被创建,还可以有一些额外字段,如description、notes、displayName和一些custom key/value对,详细信息,可以查看 /api/uid/uidmeta
同样,每一个TSUID可以对应一个TSMeta,记录在tsdb-uid中,其包括的字段有tsuid、metric、tags、lastReceived和created,可选的字段有description, notes,详细信息,可以查看 /api/uid/tsmeta
开启Metadata有以下几个参数:
  • tsd.core.meta.enable_realtime_uid
  • tsd.core.meta.enable_tsuid_tracking
  • tsd.core.meta.enable_tsuid_incrementing
  • tsd.core.meta.enable_realtime_ts
metadata的另外一个形式是Annotations,详细说明,请参考 annotations
Tree
3.3 数据存储方式
OpenTSDB使用HBase作为后端存储,在安装OpenTSDB之前,需要先启动一个hbase节点或者集群,然后再执行建表语句src/create_table.sh创建hbase表。建表语句如下:

  1. create '$UID_TABLE',
  2.   {NAME => 'id', COMPRESSION => '$COMPRESSION', BLOOMFILTER => '$BLOOMFILTER'},
  3.   {NAME => 'name', COMPRESSION => '$COMPRESSION', BLOOMFILTER => '$BLOOMFILTER'}

  4. create '$TSDB_TABLE',
  5.   {NAME => 't', VERSIONS => 1, COMPRESSION => '$COMPRESSION', BLOOMFILTER => '$BLOOMFILTER'}

  6. create '$TREE_TABLE',
  7.   {NAME => 't', VERSIONS => 1, COMPRESSION => '$COMPRESSION', BLOOMFILTER => '$BLOOMFILTER'}

  8. create '$META_TABLE',
  9.   {NAME => 'name', COMPRESSION => '$COMPRESSION', BLOOMFILTER => '$BLOOMFILTER'}
复制代码

从上面可以看出一共创建了4张表,并且可以设置是否压缩、是否启用布隆过滤、保存版本号等等,如果追求hbase读写性能,还可以预建分区。

3.3.1 Data Table Schema

在OpenTSDB中,所有数据存储在一张叫做tsdb的表中,这是为了充分利用hbase有序和region分布式的特点。所有的值都保存在列族t中。

rowkey为<metric_uid><timestamp><tagk1><tagv1>[...<tagkN><tagvN>],UID默认编码为3 Bytes,而时间戳会编码为4 Bytes

OpenTSDB的tsdb启动之后,会监控指定的socket端口(默认为4242),接收到监控数据,包括指标、时间戳、数据、tag标签,tag标签包括tag名称ID和tag值ID。例如:

  1. myservice.latency.avg 1292148123 42 reqtype=foo host=web42
复制代码
对于指标myservice.latency.avg的ID为:[0, 0, -69],reqtype标签名称的ID为:[0, 0, 1], foo标签值的ID为:[0, 1, 11], 标签名称的ID为:[0, 0, 2] web42标签值的ID为:[0, -7, 42],他们组成rowkey:


  1. [0, 0, -69, 77, 4, -99, 32, 0, 0, 1, 0, 1, 11, 0, 0, 2, 0, -7, 42]
  2. `-------'  `------------'  `-----'  `------'  `-----'  `-------'
  3. metric ID  base timestamp  name ID  value ID  name ID  value ID
  4.                             `---------------'  `---------------'
  5.                                 first tag         second tag
复制代码

row表示格式为: 每个数字对应1 byte
  • [0, 0, -69] metric ID
  • [77, 4, -99, 32] base timestamp = 1292148000. timestamps in the row key are rounded down to a 60 minute boundary。也就是说对于同一个小时的metric + tags相同的数据都会存放在一个row下面
  • [0, 0, 1] “reqtype” index
  • [0, 1, 11] “foo” index
  • [0, 0, 2] “host” index
  • [0, -7, 42] “web42″ index
NOTE:可以看到,对于metric + tags相同的数据都会连续存放,且metic相同的数据也会连续存放,这样对于scan以及做aggregation都非常有帮助
column qualifier 占用2 bytes或者4 bytes,占用2 bytes时表示以秒为单位的偏移,格式为:
  • 12 bits:相对row表示的小时的delta, 最多2^ 12 = 4096 > 3600因此没有问题
  • 4 bits:format flags
    • 1 bit: an integer or floating point
    • 3 bits: 标明数据的长度,其长度必须是1、2、4、8。000表示1个byte,010表示2byte,011表示4byte,100表示8byte

占用4 bytes时表示以毫秒为单位的偏移,格式为:
  • 4 bits:十六进制的1或者F
  • 22 bits:毫秒偏移
  • 2 bit:保留
  • 4 bits: format flags
    • 1 bit: an integer or floating point,0表示整数,1表示浮点数
    • 3 bits: 标明数据的长度,其长度必须是1、2、4、8。000表示1个byte,010表示2byte,011表示4byte,100表示8byte

举例:
对于时间戳为1292148123的数据点来说,其转换为以小时为单位的基准时间(去掉小时后的秒)为129214800,偏移为123,转换为二进制为1111011,因为该值为整数且长度为8位(对应为2byte,故最后3bit为100),故其对应的列族名为:0000011110110100,将其转换为十六进制为07B4
value 使用8bytes存储,既可以存储long,也可以存储double。
总结一下,tsdb表结构如下:

3.3.2 UID Table Schema
一个单独的较小的表叫做tsdb-uid用来存储UID映射,包括正向的和反向的。存在两列族,一列族叫做name用来将一个UID映射到一个字符串,另一个列族叫做id,用来将字符串映射到UID。列族的每一行都至少有以下三列中的一个:
  • metrics 将metric的名称映射到UID
  • tagk 将tag名称映射到UID
  • tagv 将tag的值映射到UID
如果配置了metadata,则name列族还可以包括额外的metatata列。
  • id 列族
Row Key – 将会是一个分配到UID的字符串,例如,对于一个指标可能有一个值为sys.cpu.user或者对于一个标签其值可能为42
Column Qualifiers – 上面三种列类型中一种。
Column Value – 一个无符号的整数,默认被编码为3个byte,其值为UID。
例如以下几行数据是从tsdb-uid表中查询出来的数据,第一个列为row key,第二列为”列族:列名”,第三列为值,对应为UID

  1. proc.stat.cpu id:metrics \x00\x00\x01
  2. host id:tagk \x00\x00\x01
  3. cdh1 id:tagv \x00\x00\x01
复制代码

  • name 列族
Row Key – 为UID
Column Qualifiers – 上面三种列类型中一种或者为metrics_meta、tagk_meta、tagv_meta
Column Value – 与UID对应的字符串,对于一个*_meta列,其值将会是一个UTF-8编码的JSON格式字符串。不要在OpenTSDB外部去修改该值,其中的字段顺序会影响CAS调用。
例如,以下几行数据是从tsdb-uid表中查询出来的数据,第一个列为row key,第二列为”列族:列名”,第三列为值,对应为UID

  1. \x00\x00\x01 name:metrics proc.stat.cpu
  2. \x00\x00\x01 name:tagk host
  3. \x00\x00\x01 name:tagv cdh1
  4. \x00\x00\x01 name:tagk_meta {"uid":"000001","type":"TAGK","name":"host","description":"","notes":"","created":1395213193,"custom":null,"displayName":""}
  5. \x00\x00\x01 name:tagv_meta {"uid":"000001","type":"TAGV","name":"cdh1","description":"","notes":"","created":1395213193,"custom":null,"displayName":""}
  6. \x00\x00\x01 name:metric_meta {"uid":"000001","type":"METRIC","name":"metrics proc.stat.cpu","description":"","notes":"","created":1395213193,"custom":null,"displayName":""}
复制代码

总结一下,tsdb-uid表结构如下:
 
上图对应的一个datapoint如下:

  1. proc.stat.cpu 1292148123 80 host=cdh1
复制代码
从上图可以看出tsdb-uid的表结构以及数据存储方式,对于一个data point来说,其被保存到opentsdb之前,会对metrics、tagk、tagv、metric_meta、tagk_meta、tagv_meta生成一个UID(如上图中的000001),然后将其插入hbase表中,rowkey为UID,同时会存储多行记录,分别保存metrics、tagk、tagv、metric_meta、tagk_meta、tagv_meta到UID的映射。


3.3.3 Meta Table Schema

这个表是OpenTSDB中不同时间序列的一个索引,可以用来存储一些额外的信息。这个表名称叫做tsdb-meta,该表只有一个列族name,两个列,分别为ts_meta、ts_ctr,该表中数据如下:
  1. \x00\x00\x01\x00\x00\x01\x00\x00\x01 name:ts_ctr \x00\x00\x00\x00\x00\x00\x00p
  2. \x00\x00\x01\x00\x00\x01\x00\x00\x01 name:ts_meta {"tsuid":"000001000001000001","displayName":"","description":"","notes":"","created":1395213196,"custom":null,"units":"","dataType":"","retention":0,"max":"NaN","min":"NaN"}

  3. \x00\x00\x02\x00\x00\x01\x00\x00\x01 name:ts_ctr \x00\x00\x00\x00\x00\x00\x00p
  4. \x00\x00\x02\x00\x00\x01\x00\x00\x01 name:ts_meta {"tsuid":"000002000001000001","displayName":"","description":"","notes":"","created":1395213196,"custom":null,"units":"","dataType":"","retention":0,"max":"NaN","min":"NaN"}
复制代码

Row Key 和tsdb表一样,其中不包含时间戳,<metric_uid><tagk1><tagv1>[...<tagkN><tagvN>]
TSMeta Column 和UIDMeta相似,其为UTF-8编码的JSON格式字符串
ts_ctr Column 计数器,用来记录一个时间序列中存储的数据个数,其列名为ts_ctr,为8位有符号的整数。
  1. 3.3.4 Tree Table Schema
复制代码

索引表,用于展示树状结构的,类似于文件系统,以方便其他系统使用,例如:Graphite
3.4 如何写数据 3.5 如何查询数据 3.6 CLI Tools
tsdb支持以下参数:
  1. [root@cdh1 build]# ./tsdb 
  2. usage: tsdb <command> [args]
  3. Valid commands: fsck, import, mkmetric, query, tsd, scan, uid
复制代码

通过以下命令创建指标:
  1. ./tsdb mkmetric mysql.bytes_received mysql.bytes_sent
复制代码

执行上述命令的结果如下:
  1. metrics mysql.bytes_received: [0, 0, -93]
  2. metrics mysql.bytes_sent: [0, 0, -92]
复制代码

4. HTTP API 5. 谁在用OpenTSDB
  • StumbleUpon StumbleUpon is the easiest way to find cool new websites, videos, photos and images from across the Web
  • box Box simplifies online file storage, replaces FTP and connects teams in online workspaces.
  • tumblr 一个轻量级博客,用户可以跟进其他的会员并在自己的页面上看到跟进会员发表的文章,还可以转发他人在Tumblr上的文章
6. KairosDB
KairosDB是一个快速可靠的分布式时间序列数据库,主要用于Cassandra当然也可以适用与HBase。KairosDB是在OpenTSDB基础上重写的,他不仅可以在HBase上存储数据还支持Cassandra。
KairosDB主页: https://code.google.com/p/kairosdb/

这篇关于OpenTSDB安装,配置,数据存储介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1083727

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

Zookeeper安装和配置说明

一、Zookeeper的搭建方式 Zookeeper安装方式有三种,单机模式和集群模式以及伪集群模式。 ■ 单机模式:Zookeeper只运行在一台服务器上,适合测试环境; ■ 伪集群模式:就是在一台物理机上运行多个Zookeeper 实例; ■ 集群模式:Zookeeper运行于一个集群上,适合生产环境,这个计算机集群被称为一个“集合体”(ensemble) Zookeeper通过复制来实现

CentOS7安装配置mysql5.7 tar免安装版

一、CentOS7.4系统自带mariadb # 查看系统自带的Mariadb[root@localhost~]# rpm -qa|grep mariadbmariadb-libs-5.5.44-2.el7.centos.x86_64# 卸载系统自带的Mariadb[root@localhost ~]# rpm -e --nodeps mariadb-libs-5.5.44-2.el7

Centos7安装Mongodb4

1、下载源码包 curl -O https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-4.2.1.tgz 2、解压 放到 /usr/local/ 目录下 tar -zxvf mongodb-linux-x86_64-rhel70-4.2.1.tgzmv mongodb-linux-x86_64-rhel70-4.2.1/

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo