【数据科学家】跨入商业分析、数据科学、挖掘领域必须哪些基本数学知识

本文主要是介绍【数据科学家】跨入商业分析、数据科学、挖掘领域必须哪些基本数学知识,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一名普通的IT工程师要跨入商业分析、数据科学或者数据挖掘领域,他必须学习或复习哪些基本的数学知识。



基础代数,函数,集合理论,绘图,几何学


让我们从最基础的内容开始。现代数学的大厦是建立在一些基本内容如集合论、泛函分析以及数论等内容上的。从应用数学学习的角度看,我们可以通过一些简明的模块来简化这些基本内容的学习(没有特别的顺序):

a) 集合论基础,b) 实数和复数及其基本属性,c) 多项式函数、指数、对数、三角恒等式,d) 线性和二次方程,e) 不平等、无穷级数、二项式定理,f) 排列组合,g) 绘图、笛卡儿坐标系和极坐标系、圆锥曲线论,h) 基础几何定理、三角形的性质。


微积分


当年牛顿想要解释天体运行的规律,但他却没有一个足够好的数学工具来描述他提出的物理概念。在英格兰的城市爆发瘟疫的期间,他搬到了他在乡下的农场,在这里,他提出了现代数学的一个分支--微积分。从那以后,微积分被认为是任何分析研究学科如理论科学、应用科学、工程学、社会科学和经济学等通往高等教育的大门。


毫不意外的,微积分的概念和应用出现在数据科学和机器学习中。涉及的重要概念包括:


a) 单变量函数的极限、连续性以及可微性,b) 中值定理、不定型以及L’Hospita规则,c) 最大值和最小值,d) 乘积和链式法则,e) 泰勒级数,f) 积分计算的基本和平均价值定理,g) 定积分和广义积分的计算,h) Beta和Gamma函数, i) 双变量函数的极限、连续性和偏微分,j) 常微分和偏微分方程基础。



线性代数


一个长期没有联系的猎头突然在领英上加你好友?淘宝突然向你推荐一种超好吃的饼干?网易云音乐为你推荐了最符合你口味的小众歌曲?



学习了线性代数基础后,你就有了学习科技行业的核心内容所需的数学知识储备,这种感觉是不是很愉快?


所需学习的必要内容如下(排序不分先后且可能有遗漏):


a) 矩阵和向量的基本性质--标量乘法、线性变换、转置、共轭、秩以及行列式,b) 内积和外积,c) 矩阵乘法规则以及各种算法,d) 矩阵的逆,e) 特殊矩阵--方阵,单位矩阵,三角矩阵,稀疏矩阵和稠密矩阵的概念,单位向量,对称矩阵,Hermitian矩阵,反Hermitian矩阵和酉矩阵,f) 矩阵分解的概念/矩阵LU分解,Gaussian/Gauss-Jordan消元法求解Ax = b的线性方程组,g) 向量空间,基,极化,正交性,标准正交,线性最小二乘,h) 奇异值分解,i) 特征值,特征向量,对角化。

还有一篇很好的文章推荐--《线性代数可以让你实现什么?》(链接:https://medium.com/@jeremyjkun/here-s-just-a-fraction-of-what-you-can-do-with-linear-algebra-633383d4153f)


统计和概率


“只有死亡和税收是永远不变的,其他一切都遵从正态分布。”

在关于数据科学的讨论中,无论怎么强调要扎实掌握统计学和概率学基本概念的重要性都不为过。实际上,许多该行业的从业都者认为机器学习就是统计学习。我从著名的《统计学习基础(An Introduction to Statistical Learning)》开始了我第一个机器学习MOOC课程,几乎瞬间我就意识到我在这门学科上存在不少概念空白。为了弥补这些空白,我开始学习其他有关基本统计学和概率学的MOOC课程,并研读相关主题的文章或观看视频。这门学科范围很广,因此针对性的学习计划是掌握大部分基本概念的关键。我尽量把它们一一列取出来,但是我也有些担心,毕竟这不是我擅长的领域。


1. 数据摘要和描述性统计,集中趋势,方差,协方差,相关性;2. 概率:基本概念,期望,概率微积分,贝叶斯定理,条件概率;3. 概率分布函数——均匀分布,正态分布,二项分布,卡方分布,t分布,中心极限定理;4. 采样,度量,误差,随机数; 5. 假设检验,A/B测试,置信区间,p值;6. 方差分析;7. 线性回归;8. 幂,效应量,检测手段;8. 研究性学习和试验计划。


最优化理论,算法分析。


这些话题跟应用数学领域的传统话语没什么不同,它们大多是相关的并广泛应用到多个专业领域研究——理论计算机科学,控制理论或运筹学。然而在机器学习实践中,对这些强大技术有基本掌握是非常有用的,值得在这里一提。

比如,几乎所有的机器学习算法/技术目的都是在特定约束条件下,使得某种估计误差最小化。这是一个最优化问题,通常用线性规划或类似的技术解决。另一方面,这些技术在帮助理解计算机算法的时间复杂度上效果显著,因为当算法应用到大型数据集时,时间复杂度就非常重要了。在这个大数据时代,通常人们期望一名数据科学家可以提取、转换和分析数十亿条记录,他或她必须非常谨慎的选择合适的算法,因为不同算法会导致最终性能的天壤之别。一般的理论和算法性质可以在计算机科学课上学习,但是要理解时间复杂度是如何分析和计算的(比如针对给定大小的数据集,该算法需要运行多长时间?),就必须要熟悉基本的数学概念比如动态规划或者递归方程。熟悉数学归纳法的证明技术也非常有用。


后记


看到有这么多数学知识要学,是不是有点望而却步了?觉得自己要重新上一遍大学了?不用担心,你可以根据需要边做边学,但最重要的是保持思想的开放。不慌不慌,这些主题你也许大多已经在大学学过,也可能是第一次接触,不过当你学完后,你一定可以慢慢听到数据中隐藏的“旋律”。到那时,你就已经朝着成为数据科学家的方向迈出了一大步。


原文链接:

https://www.kdnuggets.com/2017/12/mathematics-needed-learn-data-science-machine-learning.html

人工智能赛博物理操作系统

AI-CPS OS

人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPS OS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。


AI-CPS OS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。


领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS OS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

  1. 重新行业布局:你的世界观要怎样改变才算足够?你必须对行业典范进行怎样的反思?

  2. 重新构建企业:你的企业需要做出什么样的变化?你准备如何重新定义你的公司?

  3. 重新打造自己:你需要成为怎样的人?要重塑自己并在数字化+智能化时代保有领先地位,你必须如何去做?

AI-CPS OS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPS OS形成的字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

  1. 精细种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切,进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

  2. 智能:模型随着时间(数据)的变化而变化,整个系统就具备了智能(自学习)的能力。

  3. 高效:企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力,这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

  4. 不确定性:数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验,其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域:技术、文化、制度。

  5. 边界模糊:数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化,还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS OS形成的数字化+智能化力量通过三个方式激发经济增长:

  1. 创造虚拟劳动力,承担需要适应性和敏捷性的复杂任务,即“智能自动化”,以区别于传统的自动化解决方案;

  2. 对现有劳动力和实物资产进行有利的补充和提升,提高资本效率

  3. 人工智能的普及,将推动多行业的相关创新,开辟崭新的经济增长空间


给决策制定者和商业领袖的建议:

  1. 超越自动化,开启新创新模式:利用具有自主学习和自我控制能力的动态机器智能,为企业创造新商机;

  2. 迎接新一代信息技术,迎接人工智能:无缝整合人类智慧与机器智能,重新

    评估未来的知识和技能类型;

  3. 制定道德规范:切实为人工智能生态系统制定道德准则,并在智能机器的开

    发过程中确定更加明晰的标准和最佳实践;

  4. 重视再分配效应:对人工智能可能带来的冲击做好准备,制定战略帮助面临

    较高失业风险的人群;

  5. 开发数字化+智能化企业所需新能力:员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说,创造兼具包容性和多样性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《论语·子路》云计算、大数据、物联网、区块链和 人工智能,像君子一般融合,一起体现科技就是生产力。


如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!


新一代技术+商业的人工智能赛博物理操作系统AI-CPS OS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。



产业智能官  AI-CPS


用“人工智能赛博物理操作系统新一代技术+商业操作系统“AI-CPS OS”:云计算+大数据+物联网+区块链+人工智能)在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链


长按上方二维码关注微信公众号: AI-CPS,更多信息回复:


新技术“云计算”、“大数据”、“物联网”、“区块链”、“人工智能新产业:智能制造”、智能金融”、“智能零售”、“智能驾驶”、智能城市新模式:“财富空间“工业互联网”、“数据科学家”、“赛博物理系统CPS”、“供应链金融”


官方网站:AI-CPS.NET


本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!



版权声明产业智能官(公众号ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题,烦请原作者联系我们,与您共同协商解决。联系、投稿邮箱:erp_vip@hotmail.com




这篇关于【数据科学家】跨入商业分析、数据科学、挖掘领域必须哪些基本数学知识的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/351472

相关文章

Java中注解与元数据示例详解

《Java中注解与元数据示例详解》Java注解和元数据是编程中重要的概念,用于描述程序元素的属性和用途,:本文主要介绍Java中注解与元数据的相关资料,文中通过代码介绍的非常详细,需要的朋友可以参... 目录一、引言二、元数据的概念2.1 定义2.2 作用三、Java 注解的基础3.1 注解的定义3.2 内

将sqlserver数据迁移到mysql的详细步骤记录

《将sqlserver数据迁移到mysql的详细步骤记录》:本文主要介绍将SQLServer数据迁移到MySQL的步骤,包括导出数据、转换数据格式和导入数据,通过示例和工具说明,帮助大家顺利完成... 目录前言一、导出SQL Server 数据二、转换数据格式为mysql兼容格式三、导入数据到MySQL数据

C++中使用vector存储并遍历数据的基本步骤

《C++中使用vector存储并遍历数据的基本步骤》C++标准模板库(STL)提供了多种容器类型,包括顺序容器、关联容器、无序关联容器和容器适配器,每种容器都有其特定的用途和特性,:本文主要介绍C... 目录(1)容器及简要描述‌php顺序容器‌‌关联容器‌‌无序关联容器‌(基于哈希表):‌容器适配器‌:(

C#提取PDF表单数据的实现流程

《C#提取PDF表单数据的实现流程》PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景,凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用,本文将探讨如何使用... 目录引言使用工具C# 提取多个PDF表单域的数据C# 提取特定PDF表单域的数据引言PDF表单是一

一文详解Python中数据清洗与处理的常用方法

《一文详解Python中数据清洗与处理的常用方法》在数据处理与分析过程中,缺失值、重复值、异常值等问题是常见的挑战,本文总结了多种数据清洗与处理方法,文中的示例代码简洁易懂,有需要的小伙伴可以参考下... 目录缺失值处理重复值处理异常值处理数据类型转换文本清洗数据分组统计数据分箱数据标准化在数据处理与分析过

大数据小内存排序问题如何巧妙解决

《大数据小内存排序问题如何巧妙解决》文章介绍了大数据小内存排序的三种方法:数据库排序、分治法和位图法,数据库排序简单但速度慢,对设备要求高;分治法高效但实现复杂;位图法可读性差,但存储空间受限... 目录三种方法:方法概要数据库排序(http://www.chinasem.cn对数据库设备要求较高)分治法(常

Python将大量遥感数据的值缩放指定倍数的方法(推荐)

《Python将大量遥感数据的值缩放指定倍数的方法(推荐)》本文介绍基于Python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处理,并将所得处理后数据保存为新的遥感影像... 本文介绍基于python中的gdal模块,批量读取大量多波段遥感影像文件,分别对各波段数据加以数值处

使用MongoDB进行数据存储的操作流程

《使用MongoDB进行数据存储的操作流程》在现代应用开发中,数据存储是一个至关重要的部分,随着数据量的增大和复杂性的增加,传统的关系型数据库有时难以应对高并发和大数据量的处理需求,MongoDB作为... 目录什么是MongoDB?MongoDB的优势使用MongoDB进行数据存储1. 安装MongoDB

Python MySQL如何通过Binlog获取变更记录恢复数据

《PythonMySQL如何通过Binlog获取变更记录恢复数据》本文介绍了如何使用Python和pymysqlreplication库通过MySQL的二进制日志(Binlog)获取数据库的变更记录... 目录python mysql通过Binlog获取变更记录恢复数据1.安装pymysqlreplicat

Linux使用dd命令来复制和转换数据的操作方法

《Linux使用dd命令来复制和转换数据的操作方法》Linux中的dd命令是一个功能强大的数据复制和转换实用程序,它以较低级别运行,通常用于创建可启动的USB驱动器、克隆磁盘和生成随机数据等任务,本文... 目录简介功能和能力语法常用选项示例用法基础用法创建可启动www.chinasem.cn的 USB 驱动