首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
hawq专题
Hawq学习笔记 --- copy pointhistory from '' without header
利用postgresql 的 copy命令, 有些 csv 文件带有字段说明, 为了防止带有字段说明的数据在import过程中,发生异常, 这里我建议使用去掉 header 数据。 copy tablename from 'src_data' with csv header 这样就可以过滤掉header部分的数据。
阅读更多...
Hawq学习笔记 --- 清空数据库中表的数据
2种方式都只删数据,保留表结构 第一 ,适用数据量较小的情况 delete from tablename; 第二,适合删除大量数据,速度快 TRUNCATE TABLE tablename; 若该表有外键,要用级联方式删所有关联的数据 TRUNCATE TABLE tablename CASCADE;
阅读更多...
Apache HAWQ ——功能强大的SQL-on-Hadoop引擎
Pivotal中国研发中心研发总监,HAWQ并行Hadoop SQL引擎创始人,Pivotal HAWQ团队负责人,曾任EMC高级研究员。专注于大数据与云计算领域,在国内外顶级数据管理期刊和会议发表数篇论文,并拥有多项美国专利。 分享主要分为以下五个部分: HAWQ基本介绍;HAWQ架构以及各重要组件的基本原理;HAWQ的中短期规划;如何贡献到HAWQ和成为Apache Committer;Q
阅读更多...
HAWQ技术解析(十四) —— 高可用性
一、HAWQ高可用简介 HAWQ作为一个传统数仓在Hadoop上的替代品,其高可用性至关重要。通常硬件容错、HAWQ HA、HDFS HA是保持系统高可用时需要考虑并实施的三个层次。另外实时监控和定期维护,也是保证集群所有组件健康的必不可少的工作。 总的来说,HAWQ容错高可用的实现方式包括: 硬件冗余master镜像双集群 1. 硬件级别的冗余(RAID和
阅读更多...
Hawq安装搭建
环境列表 操作系统:centos 7 64位 Hawq版本:git clonehttps://git-wip-us.apache.org/repos/asf/incubator-hawq.git 虚拟机主机列表 主机名 Ip hawq1 192.168.204.201 hawq2 192.168.204.202 hawq3 192.168.204.203 参考资料:ht
阅读更多...
HAWQ + MADlib 玩转数据挖掘之(四)——低秩矩阵分解实现推荐算法
一、潜在因子(Latent Factor)推荐算法 本算法整理自知乎上的回答 @nick lee。应用领域:“网易云音乐歌单个性化推荐”、“豆瓣电台音乐推荐”等。 这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中,在实际应用中比现在排名第一的 @邰原朗所介绍的算法误差(RMSE)会小不少,
阅读更多...