五个鲜为人知,但又不可不知的机器学习开源项目

2024-03-25 19:38

本文主要是介绍五个鲜为人知,但又不可不知的机器学习开源项目,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

0?wx_fmt=jpeg

借着人工智能的热潮,各种机器学习项目也迎来了一个爆发期。其中有一些因为背后的巨头支持或者稳定可靠的性能而广为人知,例如Tensorflow、Caffe和Theano等。但实际上,有为数更多的项目却并不为人所知。在这些相对小众的项目中,是否隐藏着一些版本迭代积极,且具有一定参考价值的项目?答案显然是肯定的。

本文将介绍的这五个小众项目来自不同的生态系统和编程语言,并且版本更新活跃,具有一定的参考价值。或许你会觉得了解这些小众的项目并没有太多实际意义,但本文的原作者Matthew Mayo,一位资深的数据科学家和无监督学习领域的大牛认为,仔细学习这些项目的实现细节和编码方式,将帮助开发者对他们自己的项目产生一些具有积极意义的想法,因此仍然是大有裨益的。

原文来自KDnuggets,以下项目排名不分先后,雷锋网编译。

1. Hyperopt-sklearn

Hyperopt-sklearn是基于scikit-learn项目的一个子集,其全称是:Hyper-parameter optimization for scikit-learn,即针对scikit-learn项目的超级参数优化工具。由于scikit-learn是基于Python的机器学习开源框架,因此Hyperopt-sklearn也基于Python语言。

Hyperopt-sklearn的文档称:对于开发者而言,针对不同的训练数据挑选一个合适的分类器(classifier)通常是困难的。而且即使选好了分类器,后面的参数调试过程也相当乏味和耗时。更严重的是,还有许多情况是开发者好不容易调试好了选定的分类器,却发现一开始的选择本身就是错误的,这本身就浪费了大量的精力和时间。针对该问题,Hyperopt-sklearn提供了一种解决方案。

Hyperopt-sklearn支持各种不同的搜索算法(包括随机搜索、Tree of Parzen Estimators、Annealing等),可以搜索所有支持的分类器(KNeightborsClassifier、KNeightborsClassifier、SGDClassifier等)或者在给定的分类器下搜索所有可能的参数配置,并评估最优选择。并且Hyperopt-sklearn还支持多种预处理流程,包括TfidfVectorizer,Normalzier和OneHotEncoder等。

那么Hyperopt-sklearn的实际效果究竟如何?下表分别展示了使用scikit-learn默认参数和Hyperopt-sklearn优化参数运行的分类器的F-score分数,数据源来自20个不同的新闻组稿件。可以看到,经过优化的分类器的平均得分都要高于默认参数的情况。

0?wx_fmt=jpeg

另外,Hyperopt-sklearn的编码量也很小,并且维护团队还提供了丰富的参考样例。

主页:http://hyperopt.github.io/hyperopt-sklearn/

2. Dlib

0?wx_fmt=jpeg

Dlib的目标用户并没有Hyperopt-sklearn细分,它是一个基于C++语言的通用的机器学习和数据分析库。值得一提的是,虽然Dlib的确是由C++实现的,但它却提供了针对Python语言的API。

Dlib的官网称:Dlib是一个现代的C++工具包,实现了大量机器学习的相关算法和工具,可用于在C++环境下创建复杂的软件来解决现实问题。目前,Dlib在工业界和学术界都得到了广泛的应用,包括机器人,嵌入式设备,移动电话和大规模的高性能计算环境等。

Dlib的帮助文档非常规范,针对每个API接口的解释也相当全面,而且Dlib还提供了非常详细的入门参考。更为难能可贵的是,Dlib的博客更新也非常频繁,官方人员经常通过博客分享基于Dlib实现的有趣的应用项目。实际上,Dlib也并非随着近两年的人工智能热潮才发起的项目,相对而言,它的历史非常悠久,早在2002年,Dlib的维护团队就已经开始着手开发了。

鉴于Dlib包含了为数众多的算法实现,因此原文作者认为Dlib的运行效率应该与scikit-learn接近,甚至有可能超越后者。

主页:http://dlib.net/

3. N++

N++同样基于C++环境,相对其他项目而言,它是一个非常小巧易用的神经网络实现库。这一点主要体现在,N++并不需要复杂的安装过程,使用时只需要在C++代码中通过#include语句对所需的库文件做一个声明就可以了。

其官网称:N++是一个简短、自包含(self-contained)、易于使用的基于C++环境的神经网络工具包。它实现了包括神经网络和基本线性代数运算在内的一些矩阵类。该项目的主要目的是为了相互学习和交流,但基于MNIST数据库的一些初步测试结果却表明N++在某些实际应用项目中的表现同样出色。

N++的配套文档并不多,但它却对矩阵类的相关用法进行了详细解释。另外,N++官方还公布了一些对神经网络进行设置和查询的代码片段,而且由于这些代码相对其他实现都非常简短,因此N++特别适合于那些想要了解简单的神经网络实现或者刚从其他编程语言转到C++环境的开发者。

主页:https://github.com/stagadish/NNplusplus

4. LightGBM

LightGBM是基于微软DMTK(Microsoft Distributed Machine Learning Toolkit)开源项目的一个子集,它的全称是:Light Gradient Boosting Machine,专注于各种梯度提升(Gradient Boosting)算法的实现,包括GBDT,GBRT,GBM和MART等。

0?wx_fmt=jpeg

官网描述称:基于公开数据集的测试结果表明,LightGBM无论在模型训练的速度、准确性还是内存消耗等各方面都要优于其他的梯度提升算法实现。此外,LightGBM还可以通过在特定设置中使用多台机器进行并行训练的方式来实现线性加速(linear speed-up)。

LightGBM本身由C++和Python两种语言实现,微软为开发者提供了完整的帮助文档和入门参考。背靠科技巨头微软的鼎力支持,LightGBM自然也是一个非常值得关注的项目。

主页:https://github.com/Microsoft/LightGBM

5. Sklearn-pandas

0?wx_fmt=jpeg

与前面的几个项目不同,Sklearn-pandas既可以视为一个通用型的机器学习工具包,也可是视为一些特定算法的实现。它在具体的机器学习任务中主要充当支持者的角色。

这里所谓支持者的角色,按照其官网的解释即是说:Sklearn-pandas在Scikit-Learn和pandas之间提供了一个互通的桥梁(这一点从项目的名称也能看出)。Scikit-Learn上文已经提过,这里pandas是指一个开源的基于Python实现的数据分析工具。

具体的说,Sklearn-pandas的桥梁作用主要体现在以下两个方面:

1) 提供将DataFrame列映射到transformations的方法,这些列此后还可以重新组合成特征(features);

2) 以pandas DataFrame为输入,为scikit-learn旧版本的管道交叉验证(cross-validate a pipeline)提供兼容性支持。

Sklearn-pandas的版本更新活跃,也是一个非常值得关注的开源项目。

主页:https://github.com/paulgb/sklearn-pandas

来源:kdnuggets,雷锋网编译

这篇关于五个鲜为人知,但又不可不知的机器学习开源项目的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/846037

相关文章

HarmonyOS学习(七)——UI(五)常用布局总结

自适应布局 1.1、线性布局(LinearLayout) 通过线性容器Row和Column实现线性布局。Column容器内的子组件按照垂直方向排列,Row组件中的子组件按照水平方向排列。 属性说明space通过space参数设置主轴上子组件的间距,达到各子组件在排列上的等间距效果alignItems设置子组件在交叉轴上的对齐方式,且在各类尺寸屏幕上表现一致,其中交叉轴为垂直时,取值为Vert

Ilya-AI分享的他在OpenAI学习到的15个提示工程技巧

Ilya(不是本人,claude AI)在社交媒体上分享了他在OpenAI学习到的15个Prompt撰写技巧。 以下是详细的内容: 提示精确化:在编写提示时,力求表达清晰准确。清楚地阐述任务需求和概念定义至关重要。例:不用"分析文本",而用"判断这段话的情感倾向:积极、消极还是中性"。 快速迭代:善于快速连续调整提示。熟练的提示工程师能够灵活地进行多轮优化。例:从"总结文章"到"用

这15个Vue指令,让你的项目开发爽到爆

1. V-Hotkey 仓库地址: github.com/Dafrok/v-ho… Demo: 戳这里 https://dafrok.github.io/v-hotkey 安装: npm install --save v-hotkey 这个指令可以给组件绑定一个或多个快捷键。你想要通过按下 Escape 键后隐藏某个组件,按住 Control 和回车键再显示它吗?小菜一碟: <template

【前端学习】AntV G6-08 深入图形与图形分组、自定义节点、节点动画(下)

【课程链接】 AntV G6:深入图形与图形分组、自定义节点、节点动画(下)_哔哩哔哩_bilibili 本章十吾老师讲解了一个复杂的自定义节点中,应该怎样去计算和绘制图形,如何给一个图形制作不间断的动画,以及在鼠标事件之后产生动画。(有点难,需要好好理解) <!DOCTYPE html><html><head><meta charset="UTF-8"><title>06

如何用Docker运行Django项目

本章教程,介绍如何用Docker创建一个Django,并运行能够访问。 一、拉取镜像 这里我们使用python3.11版本的docker镜像 docker pull python:3.11 二、运行容器 这里我们将容器内部的8080端口,映射到宿主机的80端口上。 docker run -itd --name python311 -p

学习hash总结

2014/1/29/   最近刚开始学hash,名字很陌生,但是hash的思想却很熟悉,以前早就做过此类的题,但是不知道这就是hash思想而已,说白了hash就是一个映射,往往灵活利用数组的下标来实现算法,hash的作用:1、判重;2、统计次数;

阿里开源语音识别SenseVoiceWindows环境部署

SenseVoice介绍 SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测多语言识别: 采用超过 40 万小时数据训练,支持超过 50 种语言,识别效果上优于 Whisper 模型。富文本识别:具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。高效推

零基础学习Redis(10) -- zset类型命令使用

zset是有序集合,内部除了存储元素外,还会存储一个score,存储在zset中的元素会按照score的大小升序排列,不同元素的score可以重复,score相同的元素会按照元素的字典序排列。 1. zset常用命令 1.1 zadd  zadd key [NX | XX] [GT | LT]   [CH] [INCR] score member [score member ...]

【机器学习】高斯过程的基本概念和应用领域以及在python中的实例

引言 高斯过程(Gaussian Process,简称GP)是一种概率模型,用于描述一组随机变量的联合概率分布,其中任何一个有限维度的子集都具有高斯分布 文章目录 引言一、高斯过程1.1 基本定义1.1.1 随机过程1.1.2 高斯分布 1.2 高斯过程的特性1.2.1 联合高斯性1.2.2 均值函数1.2.3 协方差函数(或核函数) 1.3 核函数1.4 高斯过程回归(Gauss

在cscode中通过maven创建java项目

在cscode中创建java项目 可以通过博客完成maven的导入 建立maven项目 使用快捷键 Ctrl + Shift + P 建立一个 Maven 项目 1 Ctrl + Shift + P 打开输入框2 输入 "> java create"3 选择 maven4 选择 No Archetype5 输入 域名6 输入项目名称7 建立一个文件目录存放项目,文件名一般为项目名8 确定