首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
madlib专题
Madlib库
随着应用数据的增长,在大规模数据集上进行统计分析和机器学习越来越成为一个巨大的挑战。目前,适用于统计分析/机器学习的语言/库有很多,如专为数据分析用途而设计的R语言,Python语言的机器学习库Scikits,支持分布式环境扩展的有基于Map-Reduce实现的Mahout,以及分布式内存计算框架Spark上的机器学习库MLlib等等。目前Spark框架也推出了R语言的接口SprakR。但是,本
阅读更多...
理论+实例,带你入门Greenplum机器学习框架MADlib
本文由瀚高基础软件社区作者赫庆贺创作贡献 概述 本文介绍Greenplum和MADlib在机器学习方面的基本概念、架构和原理。并结合MNIST数据集完成对0-9阿拉伯数字的图形识别的应用实例。旨在为数据库开发者和DBA提供简单机器学习的了解和入门的方式。 一、知识与软件准备 1.1 Greenplum Greenplum是全球首个开源MPP数据库,内核基于PostgreSQL。作
阅读更多...
HAWQ + MADlib 玩转数据挖掘之(四)——低秩矩阵分解实现推荐算法
一、潜在因子(Latent Factor)推荐算法 本算法整理自知乎上的回答 @nick lee。应用领域:“网易云音乐歌单个性化推荐”、“豆瓣电台音乐推荐”等。 这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中,在实际应用中比现在排名第一的 @邰原朗所介绍的算法误差(RMSE)会小不少,
阅读更多...