商数专题

大数据中的电商数仓项目:探秘业务的核心

我学习完一个电商数仓的项目和电影实时推荐项目,便兴冲冲的去面试大数据开发岗,在面试的时候,面试官总是喜欢问,聊聊你为什么要做这个项目以及你这个项目有哪些业务? 我心想,为什么要做这个业务?我在网上看视频学的啊,正好老师讲了这个项目,正好我就学了,很简单哇;至于项目有哪些业务?我都不知道业务是什么,又怎么会知道项目有哪些业务🥺 但是我肯定不能按我真实想法说,便开始长篇大论的乱扯。 不出意料,每次面

离线电商数仓知识笔记沉淀-流程及用户行为采集平台

learn by :尚硅谷数仓6.0 前置储备: 采集项目和数仓项目的区别:二者具有独立性 1功能角度: 采集项目:以数据的采集、传输为主 数仓项目:以数据计算为主、同时可以储存数据 2以功能延伸到技术区别: 采集项目:flume、kafka、datax、maxwell 数仓项目:mysql、hdfs、spark、Flink、MR、hive 数据库和数据仓库区分: 名称区分

大数据项目之电商数仓

大数据项目之电商数仓(用户行为数据采集)数据仓库简介 1.什么是数据库 数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。数据库是长期存储在计算机内、有组织的、可共享的数据集合。数据库中二点数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独立性和易扩展性的特点并可在一定范围内为多个用户共享。常用的数据库有:Mysq

Flink实时电商数仓(八)

用户域登录各窗口汇总表 主要任务:从kafka页面日志主题读取数据,统计 七日回流用户:之前活跃的用户,有一段时间不活跃了,之后又开始活跃,称为回流用户当日独立用户数:同一个用户当天重复登录,只算作一个独立用户。 思路分析 读取kafka页面主题数据转换数据结构:String -> JSONObject过滤数据,uid不为null 登录的两种情况 用户打开应用后自动登录用户打印应用后没有登

Flink实时电商数仓之DWS层

需求分析 关键词 统计关键词出现的频率 IK分词 进行分词需要引入IK分词器,使用它时需要引入相关的依赖。它能够将搜索的关键字按照日常的使用习惯进行拆分。比如将苹果iphone 手机,拆分为苹果,iphone, 手机。 <dependency><groupId>org.apache.doris</groupId><artifactId>flink-doris-connector-1.17<

电商数仓项目----笔记七(数仓DIM层)

所谓的维度层其实就是分析数据的角度,维度层保存的表其实是分析数据的角度,比如:         --性别,年龄,品牌,品类 这层的表主要用于统计分析,因此DIM层的数据存储格式为orc列式存储+snappy压缩(时间短) orc列式存储的好处: 查询的时候不需要扫描全部的数据,而只需要读取每次查询涉及的列,这样可以将I/O消耗降低N倍,另外可以保存每一列的统计信息(min、max、sum等

Flink实时电商数仓(五)

FlinkSQL的join Regular join普通join,两条流的数据都时存放在内存的状态中,如果两条流数据都很大,对内存压力很大。Interval Join: 适合两条流到达时间有先后关系的;一条流的存活时间短,一条流的存活时间长。Lookup Join:适合主流特别大,从流特别小的情况;主流数据没到达一条,就会去查询从流的每一条数据。主流数据不存储在内存中。 语法:主流使用时必须有处

Flink实时电商数仓(二)

GitLab的用户创建和推送 在root用户-密码界面重新设置密码添加Leader用户和自己使用的用户使用root用户创建相应的群组使用Leader用户创建对应的项目设置分支配置为“初始推送后完全保护”设置.gitignore文件,项目配置文件等其他非通用代码无需提交安装gitlab project 2020插件点击share project on gitlab 即可将项目上传到gitlab中

【尚硅谷】电商数仓V4.0丨大数据数据仓库项目实战【学习记录】第一节

【尚硅谷】电商数仓V4.0丨大数据数据仓库项目实战【学习记录】 思考问题?1. 为什么用hive on spark来处理数据?2. 什么是零点漂移问题,怎么解决?3. 事实表有哪几类?4. 维度建模的四个过程?5.hive在装载dim后,会出现为null值的一行,为什么?6.为什么要做拉链表 1. 数据仓库概念1.1 原始数据备份到ODS中1.2 DWD完成数据的清洗1.3 join形成大的

【尚硅谷】电商数仓 Flume写入hdfs报错

使用Flume消费kafka中数据,sink到hdfs中出现数据压缩格式支持错误; java.lang.IllegalArgumentException: Unsupported compression codec lzop. Please choose from: [None, BZip2Codec, DefaultCodec, DeflateCodec, GzipCodec, Lz4Cod

离线电商数仓(三)

动态分区 通过数据本身的字段信息将普通表数据信息按照分区表的形式存放到不同分区目录下。 开启非严格模式插入数据:insert into table dep_partition partition(day) select deptno, dname, loc, day from dept;截取最后一列作为分区目录命令,将数据拆分到不同目录中。 用户维度表 拉链表:带有start_date起始

【电商数仓】数仓搭建之原始数据(Operation Data Store -- ODS)层(用户行为数据、业务数据)

文章目录 零 ODS层一 ODS层(用户行为数据)1 创建日志表ods_log(1)创建分区表(2)加载数据 2 Shell中单引号和双引号区别(1)在/home/hzy/bin创建一个test.sh文件(2)查看执行结果(3)总结 3 ODS层日志表加载数据脚本(1)在/home/hzy/bin创建脚本说明1说明2 (2)执行脚本 二 ODS层(业务数据)1 27张表建表语句2 ODS层

电商数仓笔记5_数据仓库系统(数仓分层,数仓理论,数仓环境搭建)

电商数仓 一、数仓分层1、为什么要分层2、数据集市与数据仓库概念3、数仓命名规范(1)表命名(2)脚本命名(3)表字段类型二、数仓理论1、范式理论(1)范式概念(2)函数依赖(3)三范式区分2、关系建模与维度建模(1)关系建模(2)维度建模3、维度表和事实表(重点)(1)维度表(2)事实表(2.1)事务型事实表(2.2)周期型快照事实表(2.3)累积型快照事实表4、维度模型分类(1)模型选择

电商数仓数仓理论

1、范式理论 1.1、范式概念 1)定义 数据建模必须遵循一定的规则,在关系建模中,这种规则就是范式。 2)目的 采用范式,可以降低数据的冗余性。 为什么要降低数据冗余性? (1)十几年前,磁盘很贵,为了减少磁盘存储。 (2)以前没有分布式系统,都是单机,只能增加磁盘,磁盘个数也是有限的 (3)一次修改,需要修改多个表,很难保证数据一致性 3)缺点 范式的缺点是获取数据时

电商数仓笔记1_用户行为采集(数据仓库概念,项目需求及架构设计,数据生成模块)

电商数仓 一、数据仓库概念二、项目需求及架构设计1、项目需求分析2、项目框架(1)技术选型(2)系统数据流程设计(3)框架版本选型(4)服务器选型(5)集群规模(6)集群资源规划设计3、数据生成模块(1)目标数据(1.1)页面(1.2)事件(1.3)曝光(1.4)启动(1.5)错误(2)数据埋点(2.1)主流埋点方式(2.2)埋点数据上报时机(2.3)埋点数据日志结构(3)服务器和JDK准备

电商数仓项目(一)

电商数仓项目(一) 一.数据仓库概念 1.业务数据 就是各行业在处理事务过程中产生的数据。 2.用户行为数据 用户在使用产品过程中,与客户端产品交互过程中产生的数据。 3.数据仓库 为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程,提高产品质量 二.数仓分层 1.数仓分层 ODS层:原始数据层。存放原始数据,直接加载原始日志、数据、数据保持原貌不做处理。DWD

电商数仓学习笔记(一)

第一章 数据仓库概念 第二章 项目需求及架构设计 项目需求 项目框架 第三章 数据生成模块 目标数据 数据埋点 服务器和jdk准备 编写集群分发脚本xsync 模拟数据 集群日志生成脚本 第四章 数据采集模块 集群所有进程查看脚本 Hadoop安装 LZO压缩配置 LZO创建索引 Hadoop参数调优 Zookeeper安装 ZK集群启停脚本 Kafka安

大数据项目---电商数仓(三)

目录 1.即席查询_Presto概述 2.即席查询_Presto_Server的部署 3.即席查询_Presto_Server启动 4.即席查询_命令行客户端说明 5.即席查询_LZO说明 6.即席查询_Presto_web端口 ​编辑 7.即席查询_Presto使用注意事项/优化 8.即席查询_Kylin简介 9.即席查询_前置概念 10.即席查询_Kylin架构 11

电商数仓(dws 层)

一、dws 层介绍 统计各个主题对象的当天行为,服务于 DWT 层的主题宽表,以及一些业务明细数据,应对特殊需求(例如,购买行为,统计商品复购率)。 二、dws 层用户行为数据 2.1 每日设备行为 dws_uv_detail_daycount 1、介绍 每日设备行为,主要按照设备 id 统计。 2、数据来源 dwd_start_log 3、建表 drop table if exi