19个超赞的数据科学和机器学习工具,编程小白必看!(附资料)

2024-04-14 00:48

本文主要是介绍19个超赞的数据科学和机器学习工具,编程小白必看!(附资料),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

640?wx_fmt=png

作者:AARSHAY JAIN

翻译:王婷

校对:丁楠雅

本文共4700字,建议阅读10+分钟

本文为你介绍GUI驱动的数据科学工具,帮助新手构建高质量的机器学习模型。


引言


编程是数据科学的一个组成部分。事实上,理解编程逻辑、循环和函数的人更有可能成为成功的数据科学家。但那些在学校里从未学习过编程的人怎么办?

 

难道他们就没办法成为一名数据科学家了吗?

 

近年来,随着数据科学的蓬勃发展,许多人都有兴趣进入这个领域。但对编程却一筹莫展。事实上,在我的第一份工作之前,我也是非编程联盟的成员。因此,我明白当一个你从未学过的东西在任何一步都困扰着你的时候,有多么可怕。

 

640?wx_fmt=jpeg

 

好消息是无论你的编程技巧如何,你都有办法成为数据科学家!有一些工具可以避免编程,并提供用户友好的GUI(图形用户界面),因此任何对算法知之甚少的人都可以简单地使用它们来构建高质量的机器学习模型。

 

许多公司(尤其是初创公司)最近推出了GUI驱动的数据科学工具。我尽力在本文中介绍一些重要的工具,并尽可能提供视频。

 

注意:所有提供的信息都是从开源信息源收集的。我们只是展示一些事实而不是观点。我们决不会尝试宣传或为任何产品/服务打广告。


以下是本次介绍的工具列表:

 

1. RapidMiner


链接:

https://rapidminer.com/


介绍视频:

https://www.youtube.com/embed/ma14K56fNAM?feature=oembed&width=500&height=750


RapidMiner(RM)最初于2006年作为一款名为Rapid-I的开源独立软件被启动。多年来,他们以RapidMiner的名字给它命名,并获得了约3500万美元的资金。该工具的旧版本(低于v6)是开源的,但最新版本会有14天的试用期并在此之后需要许可证。

 

RM涵盖了预测建模的整个生命周期,从数据准备到建模,最后验证和部署。GUI基于一个框图方法,与Matlab Simulink非常相似。有预定义的块用作即插即用设备。你只需要以正确的方式连接它们,就可以在没有一行代码的情况下运行各种各样的算法。最重要的是,它们允许将自定义的R和Python脚本集成到系统中。

 

目前的产品包括以下内容:

 

  • RapidMiner Studio:一款可用于数据准备、可视化和统计建模的独立软件。

  • RapidMiner服务器:它是一个企业级环境,具有中央存储库,可以轻松进行团队工作,项目管理和模型部署。

  • RapidMiner Radoop实现以Hadoop为中心的大数据分析功能。

  • RapidMiner Cloud:一个基于云的存储库,可以轻松地在各种设备之间共享信息。


RM目前已经应用于汽车、银行、保险、生命科学、制造业、石油和天然气、零售、电信和公用事业等各个行业。


2. DataRobot

链接:

https://www.datarobot.com/


介绍视频:

https://youtu.be/wZCNKDX1q4o


DataRobot(DR)是一款高度自动化的机器学习平台,由全球最好的Kagglers构建,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。该平台声称已经消除了对数据科学家的需求。这从他们网站的一句话中可以明显看出 - “数据科学需要数学和统计资质、编程技能和商业知识。借助DataRobot,你只需提供商业知识和数据,而我们的尖端自动化负责其余部分。”

 

DR宣称具有以下优点:


  • 模型优化:

    • 平台通过采用文本挖掘、变量类型检测、编码、插补、缩放、转换等自动检测最佳数据预处理和特征工程。

    • 根据误差度量和验证集合分数自动选择超参数。


  • 并行处理:

    • 计算被分给数千个多核服务器。

    • 使用分布式算法来扩展到大型数据集。


  • 署:

    • 只需点击几下即可轻松部署设施(无需编写任何新代码)。

  • 对于软件工程师:

    • Python SDK和API可用于将模型快速集成到工具和软件中。

 

3. BigML

链接:

https://bigml.com/


介绍视频:

https://youtu.be/JVM8qIn3xPQ


BigML提供了一个良好的图形用户界面,可以让用户通过以下6个步骤掌握:

 

  • 来源:使用各种信息来源

  • 数据集:使用定义的源创建数据集

  • 模型:制作预测模型

  • 预测:基于模型生成预测

  • 合成:创建各种模型的合成

  • 评估:针对验证集的非常模型


这些过程显然会以不同的顺序迭代。BigML平台提供了很好的结果可视化,并具有求解分类、回归、聚类、异常检测和关联发现问题的算法。他们提供按月、季度和年度订阅捆绑在一起的几个软件包。他们甚至提供免费套餐,但上传数据集的大小限制为16MB。

 

您可以通过他们的YouTube频道了解他们的界面如何运作。

 

4. Google Cloud AutoML

链接:

https://cloud.google.com/automl/


介绍视频:

https://youtu.be/GbLQE2C181U


Cloud AutoML是Google机器学习组件的一部分,它允许有限ML专业知识的人员来构建高质量模型。作为Cloud AutoML产品组合的一部分,第一款产品是Cloud AutoMLVision。该服务使得训练图像识别模型变得更加简单。它具有拖放界面,可以让您上传图像,训练模型,然后直接在Google Cloud上部署这些模型。

 

Cloud AutoML Vision基于Google的迁移学习和神经架构搜索等技术。这个工具已经被很多组织所使用。看看这篇文章,看看AutoML在两个惊人的现实生活例子的表现,以及它如何产生比任何其他工具更好的结果。

 

5. Paxata

链接:

https://www.paxata.com/


介绍视频:

https://youtu.be/bxxsCLmXmms


Paxata是少数几家专注于数据清洗和预处理的组织之一,而不是机器学习或统计建模部分。这是一个易于使用的MS Excel类应用程序。它还提供了可视化的指导,可以轻松地将数据汇集在一起,查找并修复数据中混杂的噪音或缺失,以及在团队之间共享和重复使用数据项目。与本文中提到的其他工具一样,Paxata取消了编码或脚本,从而克服了处理数据所涉及的技术障碍。

 

Paxata平台遵循以下流程:

 

  • 添加日期:使用广泛的来源获取数据。

  • 探查:使用强大的视觉效果进行数据探查,使用户可以轻松识别数据中的空白。

  • 清理+更改:使用插补等步骤执行数据清理,使用NLP对相似值进行规范化,检测重复值。

  • 形状:制作数据的枢纽,执行分组和聚合。

  • 分享+管理:允许在强有力的身份验证和授权的情况下进行分享和协作。

  • 结合:专有技术称为SmartFusion允许通过1次点击结合数据帧,因为它可以自动检测到最佳组合;多个数据集可以组合成一个AnswerSet。

  • 商务智能工具:可以在常用的商务智能工具中轻松实现最终答案集的可视化;还可以轻松实现数据预处理和可视化之间的迭代。

 

Praxata已经涉足金融服务、消费品和网络领域。如果您的工作需要大量数据清洗,它可能是一个很好的工具。

 

6. Trifacta

链接:

https://www.trifacta.com/


介绍视频:

https://youtu.be/L-jWAsJNmAU


Trifacta是另一家重点关注数据预处理的创业公司。它有3种产品:

 

  • Wrangler:一款免费的独立软件。允许处理多达100MB的数据。

  • WranglerPro:上述的升级版本。它允许单用户和多用户并且数据量限制为40GB。

  • WranglerEnterprise:Trifacta的终极产品。它对处理的数据量没有任何限制,并允许无限制的用户。非常适合大型组织。


Trifacta提供了一个非常直观的GUI来执行数据清洗。它将数据作为输入并按列提供各种统计数据的摘要。另外,对于每一列,它都会自动推荐一些可以通过单击进行选择的转换。可以使用一些预先定义的函数对数据执行各种转换,这些函数可以在界面中轻松调用。

 

Trifacta平台使用以下数据准备步骤:

 

  1. 发现:首先看看数据和分布,以便快速了解您的具体情况。

  2. 结构:为数据分配适当的形态和变量类型并解决异常。

  3. 清理:此步骤包括插补、文本标准化等过程。这是使数据模型准备就绪所必需的一步。

  4. 充实:此步骤有助于提高分析的质量,可以通过添加更多数据源或对现有数据执行一些功能工程来完成。

  5. 验证:此步骤对数据执行最终检测。

  6. 发布:最后将数据导出以供进一步使用。

 

Trifacta主要应用于金融、生命科学和电信行业。

 

7. MLBase

链接:

http://mlbase.org/


介绍视频:

https://youtu.be/W-WPclNo8v0


MLBase是加州大学伯克利分校的AMP(算法机器人)实验室开发的一个开源项目。背后的核心思想是为机器学习应用于大规模问题提供一个简单的解决方案。

 

它有3种产品:

 

  • MLlib:它是Apache Spark中的核心分布式ML库。它最初是作为MLBase项目的一部分开发的,但现在Spark社区也支持它。

  • MLI:用于特征提取和算法开发的实验性API,它引入了高级ML编程抽象。

  • ML优化器:该层旨在自动执行ML管道构建任务。优化器通过包含在MLI和MLlib中的特征提取器和ML算法来解决搜索问题。


8. Auto-WEKA


链接:

http://www.cs.ubc.ca/labs/beta/Projects/autoweka/


介绍视频:

https://youtu.be/LcHw2ph6bss?list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD


Auto-WEKA是一个用Java编写的数据挖掘软件,由新西兰怀卡托大学的机器学习小组开发。这是一个基于GUI的工具,对数据科学初学者非常有用。它的最大优点是它是开源的,开发人员提供了教程和论文来帮助你入门。你可以在AV的文章中了解更多相关信息。目前它主要应用于教育和学术目的。

 

9. Driverless AI

链接:

https://www.h2o.ai/driverless-ai/


介绍视频:

https://youtu.be/KkvWX3FD7yI


Driverless AI是支持自动机器学习的h2o.ai企业的神奇平台。这个链接上可以使用1月试用版的docker映像。您只需使用简单的下拉列表选择文件来训练,测试并指定您想要跟踪模型性能的指标。坐下来,看着界面直观的平台在你的数据集上训练出优秀的结果,并能与一个经验丰富的数据科学家能够提出的好解决方案相比。

 

这些是Driverless AI 的业务功能:

 

  • 它支持XGBOOST,GLM和K-Means等多GPU支持,即使对于大型复杂数据集也能提供出色的训练速度。

  • 自动功能工程,调整和综合各种模型以产生高度准确的预测。

  • 在训练过程中,有解释模型以及用于实时特征重要性排序的面板的强大功能。

 

10. Microsoft Azure ML Studio

链接:

https://studio.azureml.net/


介绍视频:

https://youtu.be/tW1JV6bHXFA


当这个领域有这么多大牌玩家时,微软怎么会落后?Azure ML Studio是一个简单却强大的基于浏览器的ML平台。它有一个可视化的拖放环境,不需要编程。他们已经为新手发布了全面的教程和示例实验,可以帮助他们快速掌握该工具。


它采用简单的五个步骤:

 

  1. 导入数据集。

  2. 如有必要,执行数据清洗和其他预处理步骤。

  3. 将数据分解为训练和测试集。

  4. 应用内置ML算法来训练您的模型。

  5. 评价你的模型,并得到你的预测!

 

11. MLJar

链接:

https://mljar.com/


介绍视频:

https://youtu.be/ijmw94h4qCk


MLJar是一个基于浏览器的平台,用于快速构建和部署机器学习模型。它有一个直观的界面,并允许您并行地训练模型。它具有内置的超参数搜索功能,可以更轻松地部署模型。MLJar提供与NVIDIA的CUDA,python,TensorFlow等的集成。

 

你只需要执行三个步骤来建立一个不错的模型:

 

  • 上传你的数据集。

  • 训练和调整许多机器学习算法并选择最佳的算法。

  • 使用最佳模型进行预测并分享您的结果。

 

目前该工具用于订阅版本。它有一个免费的版本并且有0.25GB的数据集限制。这绝对值得一试。

 

12. Amazon Lex

链接:

https://aws.amazon.com/cn/lex/


介绍视频:

https://youtu.be/d3LYlNqfuzI


Amazon Lex提供了一个易于使用的控制台,可在几分钟内构建自己的聊天机器人。您可以使用Lex在应用程序或网站中构建对话界面。所有你需要做的是提供一些短语,Amazon Lex完成其余步骤!它构建了一个完整的自然语言模型,使用该模型,客户可以使用语音和文本与应用程序进行交互。

 

它还内置了与亚马逊网络服务(AWS)平台的集成。Amazon Lex是一项完全托管服务,因此您的用户参与度不断增加,您无需担心配置硬件和管理基础设施以提高您的机器人体验。

 

13. IBM Wastson Studio


链接:

https://www.ibm.com/cloud/watson-studio


介绍视频:

https://youtu.be/1_W6Y3c2Aeg


本文怎么能少了IBM Watson?它是世界上最知名的品牌之一。IBM Watson Studio为构建和部署学习机和深度学习模型提供了一个美丽的平台。您可以交互式地发现、清理和转换您的数据,使用Jupyter笔记本电脑和RStudio等熟悉的开源工具,访问最流行的库,训练深度神经网络以及大量其他事物。

 

对于刚进入这个领域的人来说,他们提供了一系列视频以简化入门阶段。您可以选择免费试用,并亲自查看这款超棒的工具。以上视频将指导您如何在Watson Studio中创建项目。

 

14. Automatic Statistician


链接:

https://www.automaticstatistician.com/index/

 

640?wx_fmt=png


Automatic Statistician本身不是一个产品,而是一个创建数据探索和分析工具的研究机构。它可以采用各种数据,并以其自然语言处理为核心,生成详细的报告。它由在剑桥和麻省理工学院工作的研究人员开发,并以75万美元的价格赢得了Google的焦点研究奖。

 

它目前仍处于积极发展阶段,但在不久的将来应该密切关注。您可以在这里查看一些关于最终报告的示例。

 

更多工具


  • KNIME (https://www.knime.com/)- 这个工具非常适合训练机器学习模型。最初需要习惯,但是一开始使用就会觉得GUI很棒。它产生的结果与大多数工具相同,也是免费的。

  • FeatureLab (http://www.featurelab.co/)- 它允许使用GUI进行简单的预测建模和部署。最好的卖点之一是自动进行特征工程。

  • MarketSwitch (http://www.experian.com/decision-analytics/marketswitch-optimization.html)- 此工具更侧重于优化而非预测分析。

  • Logical Gluehttp://www.logicalglue.com/) - 从原始数据到模型部署的另一个基于GUI的机器学习平台。

  • Pure Predictive (http://www.purepredictive.com/)- 该工具使用有专利的人工智能系统,该系统可以避免部分数据准备和模型调整;它使用AI将1000个模型组合成他们所谓的“超级模型”。


如果你是第一次听到这些名字,你不是一个人!随着越来越多的数据被收集,自动化机器学习的市场正在扩大。他们在未来几年会被淹没在市场中吗?时间会证明一切。但是,这些优秀的工具可以帮助那些希望开始学习机器学习,或者正在寻找替代方案来添加到他们现有目录的组织。

 

结束语


在本文中,我们已经讨论了几项旨在自动化解决数据科学问题的举措。其中一些处于初期研究阶段,一些是开源的,另一些已经在该行业中应用并有数百万资金。所有这些都对数据科学家的工作构成了潜在威胁,预计这一工作在不久的将来会大幅增长。这些工具最适合那些不熟悉编程和编码的人员。

 

如果你知道在这个领域探索的其他创业公司或计划,请随时在下面发表评论并启发我们!

 

您也可以在Analytics Vidhya的Android APP上阅读篇文章,可以在Google Play上获取它。


原文标题:

19 Data Science and Machine Learning Tools for people who Don’t Know Programming

原文链接:

https://www.analyticsvidhya.com/blog/2018/05/19-data-science-tools-for-people-dont-understand-coding/


译者简介


640?wx_fmt=jpeg

王婷,南京理工大学在读研究生,爱笑得有眼角鱼尾纹的运气不赖的女生。不喜欢呆板、教条、无聊,喜欢接触新事物,参加新活动,融入新环境,结交新朋友,互相学习,取长补短。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:datapi),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

640?wx_fmt=jpeg

点击“阅读原文”拥抱组织

这篇关于19个超赞的数据科学和机器学习工具,编程小白必看!(附资料)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/901677

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

AI绘图怎么变现?想做点副业的小白必看!

在科技飞速发展的今天,AI绘图作为一种新兴技术,不仅改变了艺术创作的方式,也为创作者提供了多种变现途径。本文将详细探讨几种常见的AI绘图变现方式,帮助创作者更好地利用这一技术实现经济收益。 更多实操教程和AI绘画工具,可以扫描下方,免费获取 定制服务:个性化的创意商机 个性化定制 AI绘图技术能够根据用户需求生成个性化的头像、壁纸、插画等作品。例如,姓氏头像在电商平台上非常受欢迎,

大模型研发全揭秘:客服工单数据标注的完整攻略

在人工智能(AI)领域,数据标注是模型训练过程中至关重要的一步。无论你是新手还是有经验的从业者,掌握数据标注的技术细节和常见问题的解决方案都能为你的AI项目增添不少价值。在电信运营商的客服系统中,工单数据是客户问题和解决方案的重要记录。通过对这些工单数据进行有效标注,不仅能够帮助提升客服自动化系统的智能化水平,还能优化客户服务流程,提高客户满意度。本文将详细介绍如何在电信运营商客服工单的背景下进行

基于MySQL Binlog的Elasticsearch数据同步实践

一、为什么要做 随着马蜂窝的逐渐发展,我们的业务数据越来越多,单纯使用 MySQL 已经不能满足我们的数据查询需求,例如对于商品、订单等数据的多维度检索。 使用 Elasticsearch 存储业务数据可以很好的解决我们业务中的搜索需求。而数据进行异构存储后,随之而来的就是数据同步的问题。 二、现有方法及问题 对于数据同步,我们目前的解决方案是建立数据中间表。把需要检索的业务数据,统一放到一张M

关于数据埋点,你需要了解这些基本知识

产品汪每天都在和数据打交道,你知道数据来自哪里吗? 移动app端内的用户行为数据大多来自埋点,了解一些埋点知识,能和数据分析师、技术侃大山,参与到前期的数据采集,更重要是让最终的埋点数据能为我所用,否则可怜巴巴等上几个月是常有的事。   埋点类型 根据埋点方式,可以区分为: 手动埋点半自动埋点全自动埋点 秉承“任何事物都有两面性”的道理:自动程度高的,能解决通用统计,便于统一化管理,但个性化定

使用SecondaryNameNode恢复NameNode的数据

1)需求: NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode 此种方式恢复的数据可能存在小部分数据的丢失。 2)故障模拟 (1)kill -9 NameNode进程 [lytfly@hadoop102 current]$ kill -9 19886 (2)删除NameNode存储的数据(/opt/module/hadoop-3.1.4/data/tmp/dfs/na

异构存储(冷热数据分离)

异构存储主要解决不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 异构存储Shell操作 (1)查看当前有哪些存储策略可以用 [lytfly@hadoop102 hadoop-3.1.4]$ hdfs storagepolicies -listPolicies (2)为指定路径(数据存储目录)设置指定的存储策略 hdfs storagepolicies -setStoragePo

Hadoop集群数据均衡之磁盘间数据均衡

生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(Hadoop3.x新特性) plan后面带的节点的名字必须是已经存在的,并且是需要均衡的节点。 如果节点不存在,会报如下错误: 如果节点只有一个硬盘的话,不会创建均衡计划: (1)生成均衡计划 hdfs diskbalancer -plan hadoop102 (2)执行均衡计划 hd

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06