Orange数据挖掘工具介绍

2024-02-15 11:08

本文主要是介绍Orange数据挖掘工具介绍,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

Orange3 使用
一、Orange3数据挖掘工具的介绍
       官方网址:https://orange.biolab.si/
       正如首页介绍的那样:它是一个面向新手和专家的开源的机器学习和数据可视化工具,带有很多用于数据挖掘或机器学习模型的交互式数据分析工作流程;另外,它绑定了Python语言进行脚本开发。包含一系列数据挖掘流程的组件,比如数据预处理,建模,模型评估以及可视化。
       数据预处理主要包括:数据合并(将两个不同数据集的指定特征合并为同一数据集);数据采样,数据异常点去除以及相关性检验(协方差),rank以及置乱等
       模型主要包括:CN2规则归纳,k近邻,决策树,随机森林,支持向量机,线性回归,逻辑回归,朴素贝叶斯,adaboost,神经网络,随机梯度下降等
        无监督模型有:距离矩阵,t-SNE,层次聚类,K-means,louvain聚类,PCA,MDS等
        另外,还支持文本分析,词云可视化等
        模型评估主要有:交叉检验,混淆矩阵,ROC曲线,lift曲线等
二、Orange get started
    1.官网下载最新版本Orange并安装(没有其他复杂操作,直接下一步即可,若想修改安装位置可自定义修改)
       说明:Orange自带最新或最近版本的Python环境,对于复杂的数据集,若Orange自带组件处理不便时,通常先将文件数据连接至<Python Script>,通过Python处理后再转换成Orange.Tabel()形式进行后续操作,具体的使用Python进行处理的方法及代码可参考官方文档:
http://docs.orange.biolab.si/3/data-mining-library/tutorial/data.html
       另外,该文档还包括一系列使用Python(Orange)进行数据挖掘的一系列编程教程。想要深入了解并掌握Orange Python进行数据挖掘需要花时间仔细阅读并联系,这里不再赘述。【当然,如果你已经安装了Python3以上版本,你也可以直接pip install Orange3使用Python shell进行编程(前提是你已经对Orange的数据结构及相关函数比较熟悉),官方文档:http://docs.orange.biolab.si/3/data-mining-library/#tutorial】
    2.Orange软件的使用
    准备工作:
    (1)添加附加组件:你需要在Options中找到Add-ons


    
  

点击后会弹出下图所示窗口,

其中Filter栏是Orange自带的部分组件(打对勾的为已下载,可根据需要自行下载);如果想安装其他组件,可如下图所示点击Add more,输入要下载的包名【类似Python pycharm添加Python包的步骤】

    (2)对于Orange的简单操作,官方文档:https://orange.biolab.si/getting-started/,给出了许多数据挖掘分析的一些例子,具体的可以在打开Orange3软件后,弹出如下图所示面板,点击Examples,

    3.细节描述


   
    如上图所示,SQL Table为连接数据库的组件,但对于首次安装Orange的用户,点击后,右侧栏中该图标会出现红色三角符号,点击会提示错误,please install a backend to use this widget,即缺少SQL的编译器【Orange只支持PostgreSQL和SQL Server两种数据库】
    这里重点说明一下Orange连接PostgreSQL数据库的操作:
    (1)首先,需要下载PostgreSQL的配置文件psycopg2
        这里给出解决办法,https://blog.biolab.si/2018/02/16/how-to-enable-sql-widget-in-orange/
        这里为Python3.6版本,也可去https://pypi.org/搜索psycopg2找到对应版本下载
        MacOS下载
        https://pypi.python.org/packages/8c/a5/0e61d6f4a140a6e06a9ba40266c4b49123d834f1f97fe9a5ae0b6e45112b/psycopg2-2.7.4-cp36-cp36m-macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64.macosx_10_10_intel.macosx_10_10_x86_64.whl#md5=1f2b2137c65dc50c16b341774cd822eb
        Windows下载:https://pypi.python.org/packages/f9/77/e29b792740ddec37a2d49431efa6c707cf3869c0cc7f28c7411bb6e96d91/psycopg2-2.7.4-cp36-cp36m-win_amd64.whl#md5=119eb3ab86ea8486ab10ef4ea3f67f15
        Linux下载:https://pypi.python.org/packages/92/15/92b5c363243376ce9cb879bbec561bba196694eb663a6937b4cb967e230e/psycopg2-2.7.4-cp36-cp36m-manylinux1_x86_64.whl#md5=8288ce1eedf0b70e5f1d8c982fad5a41
    (2)下载完成后,打开上述Add-ons,将该.whl文件拖拉至组件栏中,会看到Psycopg已经安装,此时SQL widget依然不能使用,因为还未安装PostGreSQL数据库,
    下载地址为:https://www.postgresql.org/,下载对应系统的版本并安装,安装的过程与MySQL类似,需要编辑用户名和密码(务必记住),另外,对于PostgreSQL的界面化管理工具可选用最近版本的Navicate Premium,另外,PostgreSQL是一款强大的开源数据库,想要详细了解可查阅:http://www.postgresqltutorial.com/,或搜索相关博客。
    反之,你只想简单的用作连接Orange的插件,则在Navicate Premium中可直接将MySQL数据库中的表直接拖拽复制到PostgreSQL数据库中,
【注:直接将不属于PostgreSQL的数据库文件导入PostgreSQL会报错(比如:ERROR: unrecognized configuration parameter "foreign_key_checks" , Time: 0.0,因为不同数据库存储数据的格式,结构不同)】
如下图所示,

 然后,选择Copy Here(Structure and Data),弹出下图(右)所示界面,点击next。。。


当然,也可使用同样的方法将PostgreSQL中的表复制到MySQL中。
到此,准备工作基本完成。
对于每个组件的使用,可参考官方文档http://docs.biolab.si/3/visual-programming/index.html。也
可点击工具后,点击‘?’号,如下图所示


下面是Python Script在整个项目中的大致位置。

这篇关于Orange数据挖掘工具介绍的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/711215

相关文章

性能测试介绍

性能测试是一种测试方法,旨在评估系统、应用程序或组件在现实场景中的性能表现和可靠性。它通常用于衡量系统在不同负载条件下的响应时间、吞吐量、资源利用率、稳定性和可扩展性等关键指标。 为什么要进行性能测试 通过性能测试,可以确定系统是否能够满足预期的性能要求,找出性能瓶颈和潜在的问题,并进行优化和调整。 发现性能瓶颈:性能测试可以帮助发现系统的性能瓶颈,即系统在高负载或高并发情况下可能出现的问题

水位雨量在线监测系统概述及应用介绍

在当今社会,随着科技的飞速发展,各种智能监测系统已成为保障公共安全、促进资源管理和环境保护的重要工具。其中,水位雨量在线监测系统作为自然灾害预警、水资源管理及水利工程运行的关键技术,其重要性不言而喻。 一、水位雨量在线监测系统的基本原理 水位雨量在线监测系统主要由数据采集单元、数据传输网络、数据处理中心及用户终端四大部分构成,形成了一个完整的闭环系统。 数据采集单元:这是系统的“眼睛”,

Hadoop数据压缩使用介绍

一、压缩原则 (1)运算密集型的Job,少用压缩 (2)IO密集型的Job,多用压缩 二、压缩算法比较 三、压缩位置选择 四、压缩参数配置 1)为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器 2)要在Hadoop中启用压缩,可以配置如下参数

高效录音转文字:2024年四大工具精选!

在快节奏的工作生活中,能够快速将录音转换成文字是一项非常实用的能力。特别是在需要记录会议纪要、讲座内容或者是采访素材的时候,一款优秀的在线录音转文字工具能派上大用场。以下推荐几个好用的录音转文字工具! 365在线转文字 直达链接:https://www.pdf365.cn/ 365在线转文字是一款提供在线录音转文字服务的工具,它以其高效、便捷的特点受到用户的青睐。用户无需下载安装任何软件,只

图神经网络模型介绍(1)

我们将图神经网络分为基于谱域的模型和基于空域的模型,并按照发展顺序详解每个类别中的重要模型。 1.1基于谱域的图神经网络         谱域上的图卷积在图学习迈向深度学习的发展历程中起到了关键的作用。本节主要介绍三个具有代表性的谱域图神经网络:谱图卷积网络、切比雪夫网络和图卷积网络。 (1)谱图卷积网络 卷积定理:函数卷积的傅里叶变换是函数傅里叶变换的乘积,即F{f*g}

【Linux 从基础到进阶】Ansible自动化运维工具使用

Ansible自动化运维工具使用 Ansible 是一款开源的自动化运维工具,采用无代理架构(agentless),基于 SSH 连接进行管理,具有简单易用、灵活强大、可扩展性高等特点。它广泛用于服务器管理、应用部署、配置管理等任务。本文将介绍 Ansible 的安装、基本使用方法及一些实际运维场景中的应用,旨在帮助运维人员快速上手并熟练运用 Ansible。 1. Ansible的核心概念

C++——stack、queue的实现及deque的介绍

目录 1.stack与queue的实现 1.1stack的实现  1.2 queue的实现 2.重温vector、list、stack、queue的介绍 2.1 STL标准库中stack和queue的底层结构  3.deque的简单介绍 3.1为什么选择deque作为stack和queue的底层默认容器  3.2 STL中对stack与queue的模拟实现 ①stack模拟实现

超强的截图工具:PixPin

你是否还在为寻找一款功能强大、操作简便的截图工具而烦恼?市面上那么多工具,常常让人无从选择。今天,想给大家安利一款神器——PixPin,一款真正解放双手的截图工具。 想象一下,你只需要按下快捷键就能轻松完成多种截图任务,还能快速编辑、标注甚至保存多种格式的图片。这款工具能满足这些需求吗? PixPin不仅支持全屏、窗口、区域截图等基础功能,它还可以进行延时截图,让你捕捉到每个关键画面。不仅如此

Mysql BLOB类型介绍

BLOB类型的字段用于存储二进制数据 在MySQL中,BLOB类型,包括:TinyBlob、Blob、MediumBlob、LongBlob,这几个类型之间的唯一区别是在存储的大小不同。 TinyBlob 最大 255 Blob 最大 65K MediumBlob 最大 16M LongBlob 最大 4G

FreeRTOS-基本介绍和移植STM32

FreeRTOS-基本介绍和STM32移植 一、裸机开发和操作系统开发介绍二、任务调度和任务状态介绍2.1 任务调度2.1.1 抢占式调度2.1.2 时间片调度 2.2 任务状态 三、FreeRTOS源码和移植STM323.1 FreeRTOS源码3.2 FreeRTOS移植STM323.2.1 代码移植3.2.2 时钟中断配置 一、裸机开发和操作系统开发介绍 裸机:前后台系