【数据科学家】跨入商业分析、数据科学、挖掘领域必须哪些基本数学知识

本文主要是介绍【数据科学家】跨入商业分析、数据科学、挖掘领域必须哪些基本数学知识,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一名普通的IT工程师要跨入商业分析、数据科学或者数据挖掘领域,他必须学习或复习哪些基本的数学知识。



基础代数,函数,集合理论,绘图,几何学


让我们从最基础的内容开始。现代数学的大厦是建立在一些基本内容如集合论、泛函分析以及数论等内容上的。从应用数学学习的角度看,我们可以通过一些简明的模块来简化这些基本内容的学习(没有特别的顺序):

a) 集合论基础,b) 实数和复数及其基本属性,c) 多项式函数、指数、对数、三角恒等式,d) 线性和二次方程,e) 不平等、无穷级数、二项式定理,f) 排列组合,g) 绘图、笛卡儿坐标系和极坐标系、圆锥曲线论,h) 基础几何定理、三角形的性质。


微积分


当年牛顿想要解释天体运行的规律,但他却没有一个足够好的数学工具来描述他提出的物理概念。在英格兰的城市爆发瘟疫的期间,他搬到了他在乡下的农场,在这里,他提出了现代数学的一个分支--微积分。从那以后,微积分被认为是任何分析研究学科如理论科学、应用科学、工程学、社会科学和经济学等通往高等教育的大门。


毫不意外的,微积分的概念和应用出现在数据科学和机器学习中。涉及的重要概念包括:


a) 单变量函数的极限、连续性以及可微性,b) 中值定理、不定型以及L’Hospita规则,c) 最大值和最小值,d) 乘积和链式法则,e) 泰勒级数,f) 积分计算的基本和平均价值定理,g) 定积分和广义积分的计算,h) Beta和Gamma函数, i) 双变量函数的极限、连续性和偏微分,j) 常微分和偏微分方程基础。



线性代数


一个长期没有联系的猎头突然在领英上加你好友?淘宝突然向你推荐一种超好吃的饼干?网易云音乐为你推荐了最符合你口味的小众歌曲?



学习了线性代数基础后,你就有了学习科技行业的核心内容所需的数学知识储备,这种感觉是不是很愉快?


所需学习的必要内容如下(排序不分先后且可能有遗漏):


a) 矩阵和向量的基本性质--标量乘法、线性变换、转置、共轭、秩以及行列式,b) 内积和外积,c) 矩阵乘法规则以及各种算法,d) 矩阵的逆,e) 特殊矩阵--方阵,单位矩阵,三角矩阵,稀疏矩阵和稠密矩阵的概念,单位向量,对称矩阵,Hermitian矩阵,反Hermitian矩阵和酉矩阵,f) 矩阵分解的概念/矩阵LU分解,Gaussian/Gauss-Jordan消元法求解Ax = b的线性方程组,g) 向量空间,基,极化,正交性,标准正交,线性最小二乘,h) 奇异值分解,i) 特征值,特征向量,对角化。

还有一篇很好的文章推荐--《线性代数可以让你实现什么?》(链接:https://medium.com/@jeremyjkun/here-s-just-a-fraction-of-what-you-can-do-with-linear-algebra-633383d4153f)


统计和概率


“只有死亡和税收是永远不变的,其他一切都遵从正态分布。”

在关于数据科学的讨论中,无论怎么强调要扎实掌握统计学和概率学基本概念的重要性都不为过。实际上,许多该行业的从业都者认为机器学习就是统计学习。我从著名的《统计学习基础(An Introduction to Statistical Learning)》开始了我第一个机器学习MOOC课程,几乎瞬间我就意识到我在这门学科上存在不少概念空白。为了弥补这些空白,我开始学习其他有关基本统计学和概率学的MOOC课程,并研读相关主题的文章或观看视频。这门学科范围很广,因此针对性的学习计划是掌握大部分基本概念的关键。我尽量把它们一一列取出来,但是我也有些担心,毕竟这不是我擅长的领域。


1. 数据摘要和描述性统计,集中趋势,方差,协方差,相关性;2. 概率:基本概念,期望,概率微积分,贝叶斯定理,条件概率;3. 概率分布函数——均匀分布,正态分布,二项分布,卡方分布,t分布,中心极限定理;4. 采样,度量,误差,随机数; 5. 假设检验,A/B测试,置信区间,p值;6. 方差分析;7. 线性回归;8. 幂,效应量,检测手段;8. 研究性学习和试验计划。


最优化理论,算法分析。


这些话题跟应用数学领域的传统话语没什么不同,它们大多是相关的并广泛应用到多个专业领域研究——理论计算机科学,控制理论或运筹学。然而在机器学习实践中,对这些强大技术有基本掌握是非常有用的,值得在这里一提。

比如,几乎所有的机器学习算法/技术目的都是在特定约束条件下,使得某种估计误差最小化。这是一个最优化问题,通常用线性规划或类似的技术解决。另一方面,这些技术在帮助理解计算机算法的时间复杂度上效果显著,因为当算法应用到大型数据集时,时间复杂度就非常重要了。在这个大数据时代,通常人们期望一名数据科学家可以提取、转换和分析数十亿条记录,他或她必须非常谨慎的选择合适的算法,因为不同算法会导致最终性能的天壤之别。一般的理论和算法性质可以在计算机科学课上学习,但是要理解时间复杂度是如何分析和计算的(比如针对给定大小的数据集,该算法需要运行多长时间?),就必须要熟悉基本的数学概念比如动态规划或者递归方程。熟悉数学归纳法的证明技术也非常有用。


后记


看到有这么多数学知识要学,是不是有点望而却步了?觉得自己要重新上一遍大学了?不用担心,你可以根据需要边做边学,但最重要的是保持思想的开放。不慌不慌,这些主题你也许大多已经在大学学过,也可能是第一次接触,不过当你学完后,你一定可以慢慢听到数据中隐藏的“旋律”。到那时,你就已经朝着成为数据科学家的方向迈出了一大步。


原文链接:

https://www.kdnuggets.com/2017/12/mathematics-needed-learn-data-science-machine-learning.html

人工智能赛博物理操作系统

AI-CPS OS

人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

  1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

  2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

  3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

  1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

  2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

  3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

  4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

  1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

  2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

  3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


给决策制定者和商业领袖的建议:

  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。



产业智能官  AI-CPS


用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链


长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术“云计算”、“大数据”、“物联网”、“区块链”、“人工智能新产业:智能制造”、智能金融”、“智能零售”、“智能驾驶”、智能城市新模式:“财富空间“工业互联网”、“数据科学家”、“赛博物理系统CPS”、“供应链金融”


官方网站:AI-CPS.NET


本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com




这篇关于【数据科学家】跨入商业分析、数据科学、挖掘领域必须哪些基本数学知识的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/351472

相关文章

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

性能分析之MySQL索引实战案例

文章目录 一、前言二、准备三、MySQL索引优化四、MySQL 索引知识回顾五、总结 一、前言 在上一讲性能工具之 JProfiler 简单登录案例分析实战中已经发现SQL没有建立索引问题,本文将一起从代码层去分析为什么没有建立索引? 开源ERP项目地址:https://gitee.com/jishenghua/JSH_ERP 二、准备 打开IDEA找到登录请求资源路径位置

基本知识点

1、c++的输入加上ios::sync_with_stdio(false);  等价于 c的输入,读取速度会加快(但是在字符串的题里面和容易出现问题) 2、lower_bound()和upper_bound() iterator lower_bound( const key_type &key ): 返回一个迭代器,指向键值>= key的第一个元素。 iterator upper_bou

【Prometheus】PromQL向量匹配实现不同标签的向量数据进行运算

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,阿里云开发者社区专家博主,CSDN全栈领域优质创作者,掘金优秀博主,51CTO博客专家等。 🏆《博客》:Python全栈,前后端开发,小程序开发,人工智能,js逆向,App逆向,网络系统安全,数据分析,Django,fastapi

烟火目标检测数据集 7800张 烟火检测 带标注 voc yolo

一个包含7800张带标注图像的数据集,专门用于烟火目标检测,是一个非常有价值的资源,尤其对于那些致力于公共安全、事件管理和烟花表演监控等领域的人士而言。下面是对此数据集的一个详细介绍: 数据集名称:烟火目标检测数据集 数据集规模: 图片数量:7800张类别:主要包含烟火类目标,可能还包括其他相关类别,如烟火发射装置、背景等。格式:图像文件通常为JPEG或PNG格式;标注文件可能为X