大数据/数仓面试灵魂30问

本文主要是介绍大数据/数仓面试灵魂30问，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

1.什么是数据仓库？如何构建数据仓库？（如果这个问题回答的好，后面很多问题都不需要再问）

2.如何建设数据中台？可简单说下理解与思路

3.数据仓库、数据中台、数据湖的理解

4.传统数仓的程度（建模工具、ETL工具、BI报表工具、调度系统）

5.传统数仓和大数据数仓的异同？有哪些大的变化？

6.印象最深刻的项目？为什么？亮点与优势？

7.数仓最重要的是什么？

8.实时数仓做过吗？采用什么架构？lambda有哪些优缺点？

9.如何看待kappa架构？iota架构呢？

10.责任心？沟通能力？团队协作？数据思维？

11.用户画像（静态、动态标签，统计、规则、预测标签，衰退系数、标签权重）

12.推荐系统（协同过滤，基于用户、商品，SVD，各种距离算法等）

13.数仓基础理念理解

14.数仓如何确定主题域？CDM？

15.数仓如何分层的？及每一层的作用？思考：为什么要这么分层？

16.数仓有哪几种建模思想？维度建模、范式建模、datavault？.. 有什么优劣，如何选择？

17.SCD的常用处理方式？优劣？与SCD2与拉链表有什么异同？

18.元数据的理解？元数据管理系统？

19.如何控制数据质量？

20.如何做数据治理？数据资产管理呢？

21.Hive优化？SQL优化，参数优化

22.数据倾斜

23.小文件问题

24.order by、sort by、distribute by、cluster by

25.udf、udtf？处理的问题？

26.shuffer优化

27.MySQL如何改写row_number

28.连续n天登录用户

29.用户留存、用户活跃、沉默用户、回流用户

30.lag/lead()over()函数、ntile() 等分析函数

31.rollup、cube、grouping sets grouping_id

32.partition和分桶 order by和sort by

本文主要围绕数仓提问，答案尚未整理，欢迎关注公众号的后续分享。原文链接：https://www.jianshu.com/p/6ac75e9a60fe

这篇关于大数据/数仓面试灵魂30问的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！