数据科学实践中常犯的十二种错误

2024-04-28 13:38

本文主要是介绍数据科学实践中常犯的十二种错误,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

如果是初学者,当你参加数据科学项目时,应避免以下十二种常见错误。


1没有检查你的数据

你需要检查自己即将收集/使用的数据的量与质。“你的工程中大部分的时间,通常是80%的时间,将用于获取和清洗数据,”data.world的数据科学家和知识工程师Jonathan Ortiz如是说。“你需要检查是否记录好了需要用于分析的数据”

如果你正在记录与收集数据,可能会记录错误,记录的方式可能前后不一致,记录的系统可能会改变 “如果每个月内部都有增量,那么当你分析数据或构建模型时,就不能使用整月份数据,”Ortiz警告说,因为系统内部已经发生了变化。

TechTarget首席营销官John Steinert表示,即使你收集的数据正确无误,但是如果数据量过低或独立变量过多,那么也很难用来为B2B市场营销和销售等业务领域创建预测模型。“数据量越大、数据科学工具的效果就越好,预测模型就越强大。因为交易利率很低,所以独立的变量会对交易造成较大影响。不够大的数据集和复杂的相互作用削弱了预测模型的力量。

解决数据量过少的一种方法是购买像purchase-intent这样的数据集,只要你能够找到一个可以应用于你的业务的数据集。另一种方法是使用模拟产生的数据,但Avanade高级数据专家Chintan Shah警告务必要十分谨慎地使用模拟数据。他表示模拟数据可能不会符合我们的假设。”


2没有理解你的数据

你可能对你的数据集将显示的结果有预先判断,但是数据团队应该在使用数据训练数据模型之前花些时间仔细研究数据。Ortiz说:“如果你看到一些违反直觉的东西,说明你的假设可能是错误的,或者数据是错误的。我认为最重要的事情就是研究数据,绘制图表并进行探索性分析。很多人都匆匆略过这一步,甚至完全忽略。但是实际上你需要了解数据是什么样子的。如果事先进行一些探索,你就可以更快地确定这些数据是否能根据专业知识和商业敏锐性告诉你合理有用的结果。


3期望过高

Chintan Shah说,对人工智能的炒作让太多的人相信只要我们向计算机算法扔数据,它就会自己解决所有问题。尽管公司拥有大量的数据,但要将数据转换成可用的格式,还需要有专门的人力。

只关注公司以前做了什么只能使做以前的事的效率提高而不能发现新的事物。“你越是只把过去作为预测未来的依据,你就越不愿意去寻找新的途径,”Steinert说。“即使你用第三方的数据来解决你的产品或服务的需求,它也不能保证你一定能完成这些销售任务。”他补充称:“数据模型可以告诉你,一家公司与你提供的服务相匹配,但它不能告诉你该公司现在是否有需求。”

人们开始对数据科学家进行投资,这些他们以前在各种领域中都从未信任过的人。”Ortiz说:“在他们看来,用数据科学家的观点来回答问题,用数据来解决难题,并推动决策,这是一件很有希望的事。”Ortiz建议,数据科学家应该从小型项目和快速的成功中证明他们能够实现目标,从而向组织展现价值。“应该从一个小目标开始,而不要一开始就挑战技术难题,花一个月之久做一个你认为有巨大价值的大项目。”


4未对新模型进行测试

     如果你已经花费了时间和金钱来构建一个数据模型,那么你希望在任何地方都能使用它来充分提高模型利用率。但是,如果这样做,就无法衡量这个模型的效果。另一方面,如果用户不相信模型,他们可能不会使用它,然后你就不能测试它,Steinert说。

      那么解决方案是什么呢?用一个使用模型的组来确保模型有效,一个不使用它的控制组来对照,Steinert补充道。有一个随机组去寻找模型成立的场合,而对照组则按原先的情况设计。


5只有目标,没有假设

     寻找可以提供特定改进的数据模型是很诱人的,例如,在48小时内解决80%的客户案例,或者在一季度内获得10%的业务增长,但这些指标还不足以应对问题。

     “最好先从假设开始“奥尔蒂斯说。“通常你会看到一条曲线或一条线作为整体度量标准,并且你想要移动它。这可能代表一个伟大的商业目标,但很难想象你需要采取哪些措施才能做到这一点。“通过对照组或探索数据来验证你的假设,即什么能改善模型。“如果你可以在对照组进行分组测试并且样本都具有代表性的情况下运行测试,则可以实际确定你使用的方法是否实际影响了你希望其影响的方法。如果你只是在事后查看数据,那么从假设开始可以帮助缩小范围。我需要将这个指标增加10%;我的假设是什么?可能会影响到什么?然后我可以对数据中的数据进行探索性分析跟踪。在你提出的问题和你正在测试的假设中清楚地说明,可以帮助你减少在这个问题上花费的时间。”


6模型已过时 


如果你有一个适合你的问题的数据模型,你可能认为你可以一直使用它,但是模型需要更新,并且随着时间的推移,你可能需要构建另外的模型。Ortiz警告说:“功能会随着时间而改变。你需要不断地观察其有效性并更新你的模型。”

模型过时有很多原因;世界在变化,你的公司也在变化(尤其是当模型被证明有用的时候)。模型不应该被视为静态的;市场当然不是一成不变的。“如果市场的偏好正在偏离你的旧有模型,它将使你走入歧途。”模型的性能衰退。或者竞争对手从你的市场表现中学习时它就过时了。问题是随着时间的推移,我们该如何发现新的模型?这就要求我们进行一系列实验,以发现新的找到模型的机会。


7不监控最终结果

使用控制组的另一部分作用是测量模型的输出的效果,你需要在整个过程中跟踪它,或者最终针对错误的目标优化。

Steinert指出:有的公司使用机器人来提供电话服务,而且不持续检查机器人是否能够带来更高的客户满意度,只庆幸减少了人力成本。如果客户结束合作是因为机器人无法给他们正确的答案,而不是因为解决了他们的问题,那么客户满意度将大幅下降。


8忽略业务专家的作用

如果你认为需要的所有答案都在数据中,而开发人员或数据科学家可以自己找到它们,那就大错特错了。你必须要确保了解实际业务问题的人参与这项工作中。

Shah解释说:“虽然一个知识渊博、经验丰富的数据科学家最终能够解决手头的问题,但如果业务专家和数据科学家合作来解决问题,问题就会容易得多。”任何数据科学算法的成功都取决于成功的特征。为了获得更好的特征,一个懂行专家总是比一个花哨的算法更有价值。

Ortiz建议,开始项目时,甚至在查看数据之前,要在数据团队和业务专家之间进行对话,以确保每个人都清楚项目要实现什么效果。然后,你可以做探索性的数据分析,看看你是否能够实现它,如果不能,你可能需要用一种新的方式重新表述这个问题,或者采用一个不同的数据源。但这个具体领域的专家应该帮助确定目标是什么以及项目是否符合目标。


9选择过于复杂的工具

机器学习的最前沿是令人兴奋的,新技术可能非常强大,但它们也可能是多余的。Shah指出:“也许像逻辑回归或决策树这样的简单方法就能完成这项工作。” Ortiz对此表示赞同。

人们很容易将大量的计算机资源和复杂的模型用于解决问题。也许我对一个项目的某个方面有着很好的理解,我想测试一个全新的算法,这个算法可以做的比要求的更多。或者我只是想尝试一下是否能找到一个简单的方法来解决这个问题。在使用复杂办法之前,应该将所有简单的办法考虑一遍” Ortiz说道,注意到过拟合更可能发生在像深度学习这样的复杂算法中:过拟合可能使新数据不符合原有模型

你应该与业务专家商量目标然后选择技术。很多数据科学家关注机器学习,机器学习往往关注的是预测。但不是你面临的每一个问题都是预测问题。我们需要关注上季度的销售情况,这可能意味着很多不同的事情。我们是否需要预测新客户的销售额,有可能你只需要知道为什么在上个季度的某一周销售情况不佳。


10选择不合适的模型

有很多数据科学和机器学习的例子,你可以从中学习和适应。“数据科学热度呈指数增长的原因之一是几乎所有算法的开源模型都可用,这使得快速开发模型变得很容易,”Shah解释说。但是这些模型通常是针对特定的用例开发的。他说,如果你从系统中需要的是不同的功能,那么最好构建自己的版本。实现自己的数据清理和功能构建过程。他建议道。“它给你更多的控制权。”


11曲解基本概念和基础原理

当你没有足够的数据用于单独的训练集时,交叉验证可帮助你评估预测模型的准确性。对于交叉验证,你可以分几次设置数据,使用不同的部分训练。然后分次测试模型, 以确定是否无论你使用哪部分数据集进行训练都能获得相同的精度。但是你不能用它来证明你的模型总是和它的交叉验证分数一样准确,Ortiz解释道。一个可归纳的模型是对新传入的数据作出精确反应的模型,但交叉验证永远无法证明这一点。“因为它只使用你已经拥有的数据,它只是能显示你的模型的尽可能准确的数据。”


从根本上说,“相关性不是因果关系;看到两个相关的东西并不意味着一个影响另一个,”他指出。你对数据集进行的探索性绘图可以让你了解它可以预测什么,以及哪些数据值不会告诉你任何事情的相关性。如果你正在跟踪你的电子商务网站上的客户行为,以预测哪些客户将返回,以及何时返回,记录他们登录并不会告诉你任何信息,因为他们已经回到你的站点来做这些事情。登录与返回有高度的相关性,但将其纳入模型是错误的。


12低估用户的理解能力

Ortiz指出,业务用户可能无法自己进行统计分析,但这并不意味着他们不了解错误边际、统计意义和有效性这些指标。通常,当一份分析报告提交给商业团队时,它最终会变成一张只有一个数字的幻灯片。无论是一个准确的数字、一个估计还是一个预测,误差范围是非常重要的。如果在数据分析的基础上做出商业决策,那么就要清楚地说明解释结果来使决策者相信这个系统,不要认为他们在技术上什么都不懂,无法理解结果。


译者注1.本文作者为Mary Branscombe,原文标题为《12 data science mistakes to avoid》,URL:https://www.cio.com/article/3271127/data-science/12-data-science-mistakes-to-avoid.html?nsdr=true&page=2。

2.本文由李昊璟、朝乐门负责翻译、编辑和发布。

本文转自:数据科学DataScience 已获授权;

END

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。


关联阅读:

原创系列文章:

1:从0开始搭建自己的数据运营指标体系(概括篇)

2 :从0开始搭建自己的数据运营指标体系(定位篇)

3 :从0开始搭建自己的数据运营体系(业务理解篇)

4 :数据指标的构建流程与逻辑

5 :系列 :从数据指标到数据运营指标体系

6:   实战 :为自己的公号搭建一个数据运营指标体系

7:  从0开始搭建自己的数据运营指标体系(运营活动分析)

数据运营 关联文章阅读:  

运营入门,从0到1搭建数据分析知识体系    

推荐 :数据分析师与运营协作的9个好习惯

干货 :手把手教你搭建数据化用户运营体系

推荐 :最用心的运营数据指标解读

干货 : 如何构建数据运营指标体系

从零开始,构建数据化运营体系

干货 :解读产品、运营和数据三个基友关系

干货 :从0到1搭建数据运营体系

数据分析、数据产品 关联文章阅读:

干货 :数据分析团队的搭建和思考

关于用户画像那些事,看这一文章就够了

数据分析师必需具备的10种分析思维。

如何构建大数据层级体系,看这一文章就够了

干货 : 聚焦于用户行为分析的数据产品

如何构建大数据层级体系,看这一文章就够了

80%的运营注定了打杂?因为你没有搭建出一套有效的用户运营体系

从底层到应用,那些数据人的必备技能

读懂用户运营体系:用户分层和分群

做运营必须掌握的数据分析思维,你还敢说不会做数据分析

这篇关于数据科学实践中常犯的十二种错误的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/943403

相关文章

详谈redis跟数据库的数据同步问题

《详谈redis跟数据库的数据同步问题》文章讨论了在Redis和数据库数据一致性问题上的解决方案,主要比较了先更新Redis缓存再更新数据库和先更新数据库再更新Redis缓存两种方案,文章指出,删除R... 目录一、Redis 数据库数据一致性的解决方案1.1、更新Redis缓存、删除Redis缓存的区别二

Redis事务与数据持久化方式

《Redis事务与数据持久化方式》该文档主要介绍了Redis事务和持久化机制,事务通过将多个命令打包执行,而持久化则通过快照(RDB)和追加式文件(AOF)两种方式将内存数据保存到磁盘,以防止数据丢失... 目录一、Redis 事务1.1 事务本质1.2 数据库事务与redis事务1.2.1 数据库事务1.

解决mybatis-plus-boot-starter与mybatis-spring-boot-starter的错误问题

《解决mybatis-plus-boot-starter与mybatis-spring-boot-starter的错误问题》本文主要讲述了在使用MyBatis和MyBatis-Plus时遇到的绑定异常... 目录myBATis-plus-boot-starpythonter与mybatis-spring-b

Oracle Expdp按条件导出指定表数据的方法实例

《OracleExpdp按条件导出指定表数据的方法实例》:本文主要介绍Oracle的expdp数据泵方式导出特定机构和时间范围的数据,并通过parfile文件进行条件限制和配置,文中通过代码介绍... 目录1.场景描述 2.方案分析3.实验验证 3.1 parfile文件3.2 expdp命令导出4.总结

更改docker默认数据目录的方法步骤

《更改docker默认数据目录的方法步骤》本文主要介绍了更改docker默认数据目录的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录1.查看docker是否存在并停止该服务2.挂载镜像并安装rsync便于备份3.取消挂载备份和迁

不删数据还能合并磁盘? 让电脑C盘D盘合并并保留数据的技巧

《不删数据还能合并磁盘?让电脑C盘D盘合并并保留数据的技巧》在Windows操作系统中,合并C盘和D盘是一个相对复杂的任务,尤其是当你不希望删除其中的数据时,幸运的是,有几种方法可以实现这一目标且在... 在电脑生产时,制造商常为C盘分配较小的磁盘空间,以确保软件在运行过程中不会出现磁盘空间不足的问题。但在

Java如何接收并解析HL7协议数据

《Java如何接收并解析HL7协议数据》文章主要介绍了HL7协议及其在医疗行业中的应用,详细描述了如何配置环境、接收和解析数据,以及与前端进行交互的实现方法,文章还分享了使用7Edit工具进行调试的经... 目录一、前言二、正文1、环境配置2、数据接收:HL7Monitor3、数据解析:HL7Busines

Mybatis拦截器如何实现数据权限过滤

《Mybatis拦截器如何实现数据权限过滤》本文介绍了MyBatis拦截器的使用,通过实现Interceptor接口对SQL进行处理,实现数据权限过滤功能,通过在本地线程变量中存储数据权限相关信息,并... 目录背景基础知识MyBATis 拦截器介绍代码实战总结背景现在的项目负责人去年年底离职,导致前期规

Redis KEYS查询大批量数据替代方案

《RedisKEYS查询大批量数据替代方案》在使用Redis时,KEYS命令虽然简单直接,但其全表扫描的特性在处理大规模数据时会导致性能问题,甚至可能阻塞Redis服务,本文将介绍SCAN命令、有序... 目录前言KEYS命令问题背景替代方案1.使用 SCAN 命令2. 使用有序集合(Sorted Set)

SpringBoot整合Canal+RabbitMQ监听数据变更详解

《SpringBoot整合Canal+RabbitMQ监听数据变更详解》在现代分布式系统中,实时获取数据库的变更信息是一个常见的需求,本文将介绍SpringBoot如何通过整合Canal和Rabbit... 目录需求步骤环境搭建整合SpringBoot与Canal实现客户端Canal整合RabbitMQSp