hawq专题

Hawq学习笔记 --- copy pointhistory from '' without header

利用postgresql 的 copy命令，有些 csv 文件带有字段说明，为了防止带有字段说明的数据在import过程中，发生异常，这里我建议使用去掉 header 数据。 copy tablename from 'src_data' with csv header 这样就可以过滤掉header部分的数据。

Hawq学习笔记 --- 清空数据库中表的数据

2种方式都只删数据，保留表结构第一，适用数据量较小的情况 delete from tablename; 第二，适合删除大量数据，速度快 TRUNCATE TABLE tablename; 若该表有外键，要用级联方式删所有关联的数据 TRUNCATE TABLE tablename CASCADE;

Apache HAWQ ——功能强大的SQL-on-Hadoop引擎

Pivotal中国研发中心研发总监，HAWQ并行Hadoop SQL引擎创始人，Pivotal HAWQ团队负责人，曾任EMC高级研究员。专注于大数据与云计算领域，在国内外顶级数据管理期刊和会议发表数篇论文，并拥有多项美国专利。分享主要分为以下五个部分： HAWQ基本介绍；HAWQ架构以及各重要组件的基本原理；HAWQ的中短期规划；如何贡献到HAWQ和成为Apache Committer；Q

HAWQ技术解析（十四） —— 高可用性

一、HAWQ高可用简介 HAWQ作为一个传统数仓在Hadoop上的替代品，其高可用性至关重要。通常硬件容错、HAWQ HA、HDFS HA是保持系统高可用时需要考虑并实施的三个层次。另外实时监控和定期维护，也是保证集群所有组件健康的必不可少的工作。总的来说，HAWQ容错高可用的实现方式包括：硬件冗余master镜像双集群 1. 硬件级别的冗余（RAID和

Hawq安装搭建

环境列表操作系统：centos 7 64位 Hawq版本：git clonehttps://git-wip-us.apache.org/repos/asf/incubator-hawq.git 虚拟机主机列表主机名 Ip hawq1 192.168.204.201 hawq2 192.168.204.202 hawq3 192.168.204.203 参考资料：ht

HAWQ + MADlib 玩转数据挖掘之（四）——低秩矩阵分解实现推荐算法

一、潜在因子（Latent Factor）推荐算法本算法整理自知乎上的回答 @nick lee。应用领域：“网易云音乐歌单个性化推荐”、“豆瓣电台音乐推荐”等。这种算法是在NetFlix（没错，就是用大数据捧火《纸牌屋》的那家公司）的推荐算法竞赛中获奖的算法，最早被应用于电影推荐中，在实际应用中比现在排名第一的 @邰原朗所介绍的算法误差（RMSE）会小不少，