阿里音乐预测 之 初探ODPS SQL

2024-01-10 17:18

本文主要是介绍阿里音乐预测 之 初探ODPS SQL,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、主要操作平台

数据的处理,表格的生成读取,都可以在 数据开发机器学习平台 下进行。

二、读取与统计赛题数据

-- 分别读取用户表和歌曲表:
create table if not exists users as select * from odps_tc_257100_f673506e024.mars_tianchi_user_actions;
create table if not exists songs as select * from odps_tc_257100_f673506e024.mars_tianchi_songs;

-- 统计所有艺人:
create table if not exists artists as select distinct artist_id from songs;

-- 统计所有艺人以及其对应的歌曲:
create table if not exists artists_songs as select distinct artist_id, song_id from songs;

-- 统计每首歌曲每天的播放量:
create table if not exists songs_plays as
select song_id, ds, count(*) as plays
from users
where action_type = '1'
group by song_id, ds;
(为了代码更容易解读,分行书写)

-- 将 表artists_songs 和 表songs_plays 联结:
create table if not exists artists_songs_plays as
select b.artist_id, a.ds, a.plays
from ${t1} a join ${t2} b
on a.song_id = b.song_id;
(1.因为 表artists_songs 中有些歌并没有被播放,而 表songs_plays 中有些被播放的歌的歌手没有在 表artists 中,所以这里必须采用内联结 inner join,关键字inner可省略; 2.在 机器学习平台 可直接使用 组件JOIN)

-- 统计每个艺人每天的播放量:
create table if not exists artists_plays as
select artist_id, ds, sum(plays) as plays
from artists_songs_plays
group by artist_id, ds;

-- 计算每个艺人20150801~20150830 这30天的平均播放量:
create table if not exists artists_plays_avg30 as
select artist_id, avg(plays) as plays_avg30
from artists_plays
where ds > '20150731' and ds < '20150831'
group by artist_id;

三、创建预测(测试)时间表:

--先提取日期20150701~20150831:
create table if not exists test_dates_0 as
select distinct ds
from users
where ds > 20150701 and ds <= 20150831;
(SQL里的字符串可以不添加(‘’)?)

-- 从string型转为datetime型:
create table if not exists test_dates_1 as
select to_date(ds, "yyyymmdd") as ds
from test_dates_0;
(示例:2015-08-18 00:00:00)

-- 增加61天
create table if not exists test_dates_2 as
select dateadd(ds, 61, "dd") as ds
from test_dates_1;

-- ds 转回字符串
create table if not exists test_dates_3 as
select cast(ds as string) as ds
from test_dates_2;

-- 转换回原来的格式
create table if not exists test_dates as
select concat(substr(substr(ds,1,10 ),1,4),substr(substr(ds,1,10 ),6,2),substr(substr(ds,1,10 ),9,2))as ds
from test_dates_3;
(示例:将 2015-08-18 00:00:00 转为 20150818)

--将 表artists 和 时间表test_dates 结合
(为了将 表artists 和 时间表test_dates 结合,我们分别在两个表中增加一列 select 'a' as join_flag,然后通过join_flag将两个表 全联结,即可得到想要的表格,在此基础上再添加 列plays 则是官方要求的结果提交表格格式了)

四、平台及语言使用技巧:

-- SQL关键字的语法顺序:
SELECT 语句的完整语法较复杂,但是其主要的子句可归纳如下:
SELECT select_list
[ INTO new_table ]
FROM table_source
[ WHERE search_condition ]
[ GROUP BY group_by_expression ]
[ HAVING search_condition ]
[ ORDER BY order_expression [ ASC | DESC ] ]
可以在查询之间使用 UNION 运算符,以将查询的结果组合成单个结果集。

-- 在 数据开发 下,运行脚本可以输出表格结果,这有助于直接观测并检验自己的代码有没有错误:
比如,查看 表test_dates_1 的前20项:
select * from test_dates_1 limit 20;

-- 对比 数据开发机器学习平台
数据开发 直接写脚本代码可以更简洁,一目了然;
机器学习平台 可以一步一步执行,并查看每一步的结果,逻辑更清晰。

这篇关于阿里音乐预测 之 初探ODPS SQL的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/591514

相关文章

MySQL 8 中的一个强大功能 JSON_TABLE示例详解

《MySQL8中的一个强大功能JSON_TABLE示例详解》JSON_TABLE是MySQL8中引入的一个强大功能,它允许用户将JSON数据转换为关系表格式,从而可以更方便地在SQL查询中处理J... 目录基本语法示例示例查询解释应用场景不适用场景1. ‌jsON 数据结构过于复杂或动态变化‌2. ‌性能要

MySQL字符串常用函数详解

《MySQL字符串常用函数详解》本文给大家介绍MySQL字符串常用函数,本文结合实例代码给大家介绍的非常详细,对大家学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录mysql字符串常用函数一、获取二、大小写转换三、拼接四、截取五、比较、反转、替换六、去空白、填充MySQL字符串常用函数一、

MySQL中比较运算符的具体使用

《MySQL中比较运算符的具体使用》本文介绍了SQL中常用的符号类型和非符号类型运算符,符号类型运算符包括等于(=)、安全等于(=)、不等于(/!=)、大小比较(,=,,=)等,感兴趣的可以了解一下... 目录符号类型运算符1. 等于运算符=2. 安全等于运算符<=>3. 不等于运算符<>或!=4. 小于运

虚拟机Centos7安装MySQL数据库实践

《虚拟机Centos7安装MySQL数据库实践》用户分享在虚拟机安装MySQL的全过程及常见问题解决方案,包括处理GPG密钥、修改密码策略、配置远程访问权限及防火墙设置,最终通过关闭防火墙和停止Net... 目录安装mysql数据库下载wget命令下载MySQL安装包安装MySQL安装MySQL服务安装完成

MySQL进行数据库审计的详细步骤和示例代码

《MySQL进行数据库审计的详细步骤和示例代码》数据库审计通过触发器、内置功能及第三方工具记录和监控数据库活动,确保安全、完整与合规,Java代码实现自动化日志记录,整合分析系统提升监控效率,本文给大... 目录一、数据库审计的基本概念二、使用触发器进行数据库审计1. 创建审计表2. 创建触发器三、Java

MySQL逻辑删除与唯一索引冲突解决方案

《MySQL逻辑删除与唯一索引冲突解决方案》本文探讨MySQL逻辑删除与唯一索引冲突问题,提出四种解决方案:复合索引+时间戳、修改唯一字段、历史表、业务层校验,推荐方案1和方案3,适用于不同场景,感兴... 目录问题背景问题复现解决方案解决方案1.复合唯一索引 + 时间戳删除字段解决方案2:删除后修改唯一字

Zabbix在MySQL性能监控方面的运用及最佳实践记录

《Zabbix在MySQL性能监控方面的运用及最佳实践记录》Zabbix通过自定义脚本和内置模板监控MySQL核心指标(连接、查询、资源、复制),支持自动发现多实例及告警通知,结合可视化仪表盘,可有效... 目录一、核心监控指标及配置1. 关键监控指标示例2. 配置方法二、自动发现与多实例管理1. 实践步骤

MySQL 主从复制部署及验证(示例详解)

《MySQL主从复制部署及验证(示例详解)》本文介绍MySQL主从复制部署步骤及学校管理数据库创建脚本,包含表结构设计、示例数据插入和查询语句,用于验证主从同步功能,感兴趣的朋友一起看看吧... 目录mysql 主从复制部署指南部署步骤1.环境准备2. 主服务器配置3. 创建复制用户4. 获取主服务器状态5

SpringBoot中六种批量更新Mysql的方式效率对比分析

《SpringBoot中六种批量更新Mysql的方式效率对比分析》文章比较了MySQL大数据量批量更新的多种方法,指出REPLACEINTO和ONDUPLICATEKEY效率最高但存在数据风险,MyB... 目录效率比较测试结构数据库初始化测试数据批量修改方案第一种 for第二种 case when第三种

MySql基本查询之表的增删查改+聚合函数案例详解

《MySql基本查询之表的增删查改+聚合函数案例详解》本文详解SQL的CURD操作INSERT用于数据插入(单行/多行及冲突处理),SELECT实现数据检索(列选择、条件过滤、排序分页),UPDATE... 目录一、Create1.1 单行数据 + 全列插入1.2 多行数据 + 指定列插入1.3 插入否则更