本文主要是介绍【带带大数据】,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
一 技术栈
1 hbase 数据库。不能用sql操作,只提供了get put等方法
nosql类型(每行可随意增减列),偏向高并发高速读取,弱一致性(可能有延迟),可用于电商、账单、车机平台、日志、分析等(mysql等关系数据库强一致性,用于传统领域,门户、论坛等)
逻辑结构:table(表)-row(行)- columnFamily(列族)-column(列)
有缓存,一定时间/达到指定大小/手动操作可flush到HFile储存
2 zookepper 注册中心,支持hbase分布式
3 hive ,可使用hql处理数据。hive安装到hbase的master即可,hive添加hbase依赖,添加mysql(处理完后转到hbase,或处理同时推hbase)或hbase为外部表(直接操作hbase的数据)
4 phoenix,hbase的插件,可以用sql指令通过jdbc方式操作hbase库,代替hbase原有的get put等方式
5 spark 分析工具,hbase导出数据到spark操作处理
6 scala语言,开发spark的,scala最后会编译成java字节码。好像也可以用python
这篇关于【带带大数据】的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!