Spark Mllib数据挖掘入门九——特征提取和转换

2024-06-02 14:08

本文主要是介绍Spark Mllib数据挖掘入门九——特征提取和转换,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

与数据降维相同,特征提取和转换也是处理大数据的一种常用方法和手段,其目的是创建新的能够代替原始数据的特征集,更加合理有效地展现数据的重要内容。特征提取指的是由原始数据集在一定算法操作后创建和生成的新的特征集,这种特征集能够较好地反映原始数据集的内容,同时在结构上大大简化。
MLlib中目前使用的特征提取和转换方法主要有TF-IDF、词向量化、正则化、特征选择等。

1.TF-IDF

MLlib中使用TF-IDF算法作为文本特征提取算法。常用的关键词搜索就采用了一个非常简单的搜索算法,即本节中需要介绍的TF-IDF算法。
一般认为,一篇文章的关键词是其在文章中出现最多的词,因此关键词提取一个最简单的思路就是提取在文章中出现最多的词,即“词频”(Term Frequency, TF)的提取。
用统计语言表示,对所提取的每个词可以分配一个权重用于表示其重要性程度,一般情况下,常见词作为关键词所分配的权重较小,而不常见的词作为关键词分配的权重较大。这个权重叫做“逆文档频率”(Inverse Document Frequency, IDF),它的大小与一个词的常见程度成反比。

2.词向量化工具

现实中的语言文本问题要转化为机器学习或数据挖掘的问题,第一步肯定是要找一种方法把这些符号数字化,即要将语言文本翻译成机器能够认识的语言。
计算机在处理海量的文本信息时,一个重要的处理方法就是将文本信息向量化表示,即将每个文本中包含的词语进行向量化存储。
MLlib中为了能够处理海量的文本,采用的是一种低维向量的方法来表示词组。这样做的最大的好处是,对于选定的词组在向量空间中能够更加紧密地靠近,从而对文本特征提取和转换提供好处。

3.卡方检验

卡方检验是用途非常广泛的一种假设检验方法,它在分类资料统计推断中一般用于检验一个样本是否符合预期的一个分布。其计算原理就是,把待测定的数据分布分成几个互不相交的区域,每个区域的理论概率可知,之后查看测定结果值落在这些区域的频率,是否跟理论概率差不多。
一般来说卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定了卡方值的大小。卡方值越大,越不符合,偏差越小,卡方值就越小,越趋于符合,若量值完全相等时,卡方值就为0,表明理论值完全符合。

这篇关于Spark Mllib数据挖掘入门九——特征提取和转换的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024179

相关文章

Spring Security 从入门到进阶系列教程

Spring Security 入门系列 《保护 Web 应用的安全》 《Spring-Security-入门(一):登录与退出》 《Spring-Security-入门(二):基于数据库验证》 《Spring-Security-入门(三):密码加密》 《Spring-Security-入门(四):自定义-Filter》 《Spring-Security-入门(五):在 Sprin

数论入门整理(updating)

一、gcd lcm 基础中的基础,一般用来处理计算第一步什么的,分数化简之类。 LL gcd(LL a, LL b) { return b ? gcd(b, a % b) : a; } <pre name="code" class="cpp">LL lcm(LL a, LL b){LL c = gcd(a, b);return a / c * b;} 例题:

Java 创建图形用户界面(GUI)入门指南(Swing库 JFrame 类)概述

概述 基本概念 Java Swing 的架构 Java Swing 是一个为 Java 设计的 GUI 工具包,是 JAVA 基础类的一部分,基于 Java AWT 构建,提供了一系列轻量级、可定制的图形用户界面(GUI)组件。 与 AWT 相比,Swing 提供了许多比 AWT 更好的屏幕显示元素,更加灵活和可定制,具有更好的跨平台性能。 组件和容器 Java Swing 提供了许多

【IPV6从入门到起飞】5-1 IPV6+Home Assistant(搭建基本环境)

【IPV6从入门到起飞】5-1 IPV6+Home Assistant #搭建基本环境 1 背景2 docker下载 hass3 创建容器4 浏览器访问 hass5 手机APP远程访问hass6 更多玩法 1 背景 既然电脑可以IPV6入站,手机流量可以访问IPV6网络的服务,为什么不在电脑搭建Home Assistant(hass),来控制你的设备呢?@智能家居 @万物互联

poj 2104 and hdu 2665 划分树模板入门题

题意: 给一个数组n(1e5)个数,给一个范围(fr, to, k),求这个范围中第k大的数。 解析: 划分树入门。 bing神的模板。 坑爹的地方是把-l 看成了-1........ 一直re。 代码: poj 2104: #include <iostream>#include <cstdio>#include <cstdlib>#include <al

MySQL-CRUD入门1

文章目录 认识配置文件client节点mysql节点mysqld节点 数据的添加(Create)添加一行数据添加多行数据两种添加数据的效率对比 数据的查询(Retrieve)全列查询指定列查询查询中带有表达式关于字面量关于as重命名 临时表引入distinct去重order by 排序关于NULL 认识配置文件 在我们的MySQL服务安装好了之后, 会有一个配置文件, 也就

音视频入门基础:WAV专题(10)——FFmpeg源码中计算WAV音频文件每个packet的pts、dts的实现

一、引言 从文章《音视频入门基础:WAV专题(6)——通过FFprobe显示WAV音频文件每个数据包的信息》中我们可以知道,通过FFprobe命令可以打印WAV音频文件每个packet(也称为数据包或多媒体包)的信息,这些信息包含该packet的pts、dts: 打印出来的“pts”实际是AVPacket结构体中的成员变量pts,是以AVStream->time_base为单位的显

C语言指针入门 《C语言非常道》

C语言指针入门 《C语言非常道》 作为一个程序员,我接触 C 语言有十年了。有的朋友让我推荐 C 语言的参考书,我不敢乱推荐,尤其是国内作者写的书,往往七拼八凑,漏洞百出。 但是,李忠老师的《C语言非常道》值得一读。对了,李老师有个官网,网址是: 李忠老师官网 最棒的是,有配套的教学视频,可以试看。 试看点这里 接下来言归正传,讲解指针。以下内容很多都参考了李忠老师的《C语言非

MySQL入门到精通

一、创建数据库 CREATE DATABASE 数据库名称; 如果数据库存在,则会提示报错。 二、选择数据库 USE 数据库名称; 三、创建数据表 CREATE TABLE 数据表名称; 四、MySQL数据类型 MySQL支持多种类型,大致可以分为三类:数值、日期/时间和字符串类型 4.1 数值类型 数值类型 类型大小用途INT4Bytes整数值FLOAT4By

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering)

Spark MLlib模型训练—聚类算法 PIC(Power Iteration Clustering) Power Iteration Clustering (PIC) 是一种基于图的聚类算法,用于在大规模数据集上进行高效的社区检测。PIC 算法的核心思想是通过迭代图的幂运算来发现数据中的潜在簇。该算法适用于处理大规模图数据,特别是在社交网络分析、推荐系统和生物信息学等领域具有广泛应用。Spa