spark 大型项目实战(五):用户访问session分析(五) --数据表设计

本文主要是介绍spark 大型项目实战(五):用户访问session分析(五) --数据表设计,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

文章地址:http://www.haha174.top/article/details/252047

本篇文章,是大数据项目开发流程的数据设计环节。在进行完了数据调研、需求分析、技术实现方案,进行数据设计。数据设计,往往包含两个环节,第一个呢,就是说,我们的上游数据,就是数据调研环节看到的项目基于的基础数据,是否要针对其开发一些Hive ETL,对数据进行进一步的处理和转换,从而让我们能够更加方便的和快速的去计算和执行spark作业;第二个,就是要设计spark作业要保存结果数据的业务表的结构,从而让J2EE平台可以使用业务表中的数据,来为使用者展示任务执行结果。在本项目中,我们所有的数据设计环节,只会涉及第二个,不会涉及第一个。因为我们为了突出课程重点,也就是spark。所以主要还是集中在spark上面,就不要花时间去做Hive ETL了。设计MySQL中的业务表的结构。第一表:session_aggr_stat表,存储第一个功能,session聚合统计的结果
CREATE TABLE `session_aggr_stat` (`task_id` int(11) NOT NULL,`session_count` int(11) DEFAULT NULL,`1s_3s` double DEFAULT NULL,`4s_6s` double DEFAULT NULL,`7s_9s` double DEFAULT NULL,`10s_30s` double DEFAULT NULL,`30s_60s` double DEFAULT NULL,`1m_3m` double DEFAULT NULL,`3m_10m` double DEFAULT NULL,`10m_30m` double DEFAULT NULL,`30m` double DEFAULT NULL,`1_3` double DEFAULT NULL,`4_6` double DEFAULT NULL,`7_9` double DEFAULT NULL,`10_30` double DEFAULT NULL,`30_60` double DEFAULT NULL,`60` double DEFAULT NULL,PRIMARY KEY (`task_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8第二个表:session_random_extract表,存储我们的按时间比例随机抽取功能抽取出来的1000个session
CREATE TABLE `session_random_extract` (`task_id` int(11) NOT NULL,`session_id` varchar(255) DEFAULT NULL,`start_time` varchar(50) DEFAULT NULL,`end_time` varchar(50) DEFAULT NULL,`search_keywords` varchar(255) DEFAULT NULL,PRIMARY KEY (`task_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8第三个表:top10_category表,存储按点击、下单和支付排序出来的top10品类数据
CREATE TABLE `top10_category` (`task_id` int(11) NOT NULL,`category_id` int(11) DEFAULT NULL,`click_count` int(11) DEFAULT NULL,`order_count` int(11) DEFAULT NULL,`pay_count` int(11) DEFAULT NULL,PRIMARY KEY (`task_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8第四个表:top10_category_session表,存储top10每个品类的点击top10的session
CREATE TABLE `top10_category_session` (`task_id` int(11) NO NULL,`category_id` int(11) DEFAULT NULL,`session_id` varchar(255) DEFAULT NULL,`click_count` int(11) DEFAULT NULL,PRIMARY KEY (`task_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8最后一张表:session_detail,用来存储随机抽取出来的session的明细数据、top10品类的session的明细数据
CREATE TABLE `session_detail` (`task_id` int(11) NOT NULL,`user_id` int(11) DEFAULT NULL,`session_id` varchar(255) DEFAULT NULL,`page_id` int(11) DEFAULT NULL,`action_time` varchar(255) DEFAULT NULL,`search_keyword` varchar(255) DEFAULT NULL,`click_category_id` int(11) DEFAULT NULL,`click_product_id` int(11) DEFAULT NULL,`order_category_ids` varchar(255) DEFAULT NULL,`order_product_ids` varchar(255) DEFAULT NULL,`pay_category_ids` varchar(255) DEFAULT NULL,`pay_product_ids` varchar(255) DEFAULT NULL,PRIMARY KEY (`task_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8额外的一张表:task表,用来存储J2EE平台插入其中的任务的信息
CREATE TABLE `task` (`task_id` int(11) NOT NULL AUTO_INCREMENT,`task_name` varchar(255) DEFAULT NULL,`create_time` varchar(255) DEFAULT NULL,`start_time` varchar(255) DEFAULT NULL,`finish_time` varchar(255) DEFAULT NULL,`task_type` varchar(255) DEFAULT NULL,`task_status` varchar(255) DEFAULT NULL,`task_param` text,PRIMARY KEY (`task_id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8在数据设计以后,就正式进入一个漫长的环节,就是编码实现阶段,coding阶段。

欢迎关注,更多福利

这里写图片描述

这篇关于spark 大型项目实战(五):用户访问session分析(五) --数据表设计的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1097552

相关文章

Springboot中分析SQL性能的两种方式详解

《Springboot中分析SQL性能的两种方式详解》文章介绍了SQL性能分析的两种方式:MyBatis-Plus性能分析插件和p6spy框架,MyBatis-Plus插件配置简单,适用于开发和测试环... 目录SQL性能分析的两种方式:功能介绍实现方式:实现步骤:SQL性能分析的两种方式:功能介绍记录

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

TP-Link PDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务

《TP-LinkPDDNS服将于务6月30日正式停运:用户需转向第三方DDNS服务》近期,路由器制造巨头普联(TP-Link)在用户群体中引发了一系列重要变动,上个月,公司发出了一则通知,明确要求所... 路由器厂商普联(TP-Link)上个月发布公告要求所有用户必须完成实名认证后才能继续使用普联提供的 D

最长公共子序列问题的深度分析与Java实现方式

《最长公共子序列问题的深度分析与Java实现方式》本文详细介绍了最长公共子序列(LCS)问题,包括其概念、暴力解法、动态规划解法,并提供了Java代码实现,暴力解法虽然简单,但在大数据处理中效率较低,... 目录最长公共子序列问题概述问题理解与示例分析暴力解法思路与示例代码动态规划解法DP 表的构建与意义动

在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程

《在Java中使用ModelMapper简化Shapefile属性转JavaBean实战过程》本文介绍了在Java中使用ModelMapper库简化Shapefile属性转JavaBean的过程,对比... 目录前言一、原始的处理办法1、使用Set方法来转换2、使用构造方法转换二、基于ModelMapper

Java实战之自助进行多张图片合成拼接

《Java实战之自助进行多张图片合成拼接》在当今数字化时代,图像处理技术在各个领域都发挥着至关重要的作用,本文为大家详细介绍了如何使用Java实现多张图片合成拼接,需要的可以了解下... 目录前言一、图片合成需求描述二、图片合成设计与实现1、编程语言2、基础数据准备3、图片合成流程4、图片合成实现三、总结前

本地搭建DeepSeek-R1、WebUI的完整过程及访问

《本地搭建DeepSeek-R1、WebUI的完整过程及访问》:本文主要介绍本地搭建DeepSeek-R1、WebUI的完整过程及访问的相关资料,DeepSeek-R1是一个开源的人工智能平台,主... 目录背景       搭建准备基础概念搭建过程访问对话测试总结背景       最近几年,人工智能技术

Ollama整合open-webui的步骤及访问

《Ollama整合open-webui的步骤及访问》:本文主要介绍如何通过源码方式安装OpenWebUI,并详细说明了安装步骤、环境要求以及第一次使用时的账号注册和模型选择过程,需要的朋友可以参考... 目录安装环境要求步骤访问选择PjrIUE模型开始对话总结 安装官方安装地址:https://docs.

C#使用DeepSeek API实现自然语言处理,文本分类和情感分析

《C#使用DeepSeekAPI实现自然语言处理,文本分类和情感分析》在C#中使用DeepSeekAPI可以实现多种功能,例如自然语言处理、文本分类、情感分析等,本文主要为大家介绍了具体实现步骤,... 目录准备工作文本生成文本分类问答系统代码生成翻译功能文本摘要文本校对图像描述生成总结在C#中使用Deep

Oracle数据库如何切换登录用户(system和sys)

《Oracle数据库如何切换登录用户(system和sys)》文章介绍了如何使用SQL*Plus工具登录Oracle数据库的system用户,包括打开登录入口、输入用户名和口令、以及切换到sys用户的... 目录打开登录入口登录system用户总结打开登录入口win+R打开运行对话框,输php入:sqlp