Spark Mllib数据挖掘入门九——特征提取和转换

2024-06-02 14:08

本文主要是介绍Spark Mllib数据挖掘入门九——特征提取和转换,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

与数据降维相同,特征提取和转换也是处理大数据的一种常用方法和手段,其目的是创建新的能够代替原始数据的特征集,更加合理有效地展现数据的重要内容。特征提取指的是由原始数据集在一定算法操作后创建和生成的新的特征集,这种特征集能够较好地反映原始数据集的内容,同时在结构上大大简化。
MLlib中目前使用的特征提取和转换方法主要有TF-IDF、词向量化、正则化、特征选择等。

1.TF-IDF

MLlib中使用TF-IDF算法作为文本特征提取算法。常用的关键词搜索就采用了一个非常简单的搜索算法,即本节中需要介绍的TF-IDF算法。
一般认为,一篇文章的关键词是其在文章中出现最多的词,因此关键词提取一个最简单的思路就是提取在文章中出现最多的词,即“词频”(Term Frequency, TF)的提取。
用统计语言表示,对所提取的每个词可以分配一个权重用于表示其重要性程度,一般情况下,常见词作为关键词所分配的权重较小,而不常见的词作为关键词分配的权重较大。这个权重叫做“逆文档频率”(Inverse Document Frequency, IDF),它的大小与一个词的常见程度成反比。

2.词向量化工具

现实中的语言文本问题要转化为机器学习或数据挖掘的问题,第一步肯定是要找一种方法把这些符号数字化,即要将语言文本翻译成机器能够认识的语言。
计算机在处理海量的文本信息时,一个重要的处理方法就是将文本信息向量化表示,即将每个文本中包含的词语进行向量化存储。
MLlib中为了能够处理海量的文本,采用的是一种低维向量的方法来表示词组。这样做的最大的好处是,对于选定的词组在向量空间中能够更加紧密地靠近,从而对文本特征提取和转换提供好处。

3.卡方检验

卡方检验是用途非常广泛的一种假设检验方法,它在分类资料统计推断中一般用于检验一个样本是否符合预期的一个分布。其计算原理就是,把待测定的数据分布分成几个互不相交的区域,每个区域的理论概率可知,之后查看测定结果值落在这些区域的频率,是否跟理论概率差不多。
一般来说卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定了卡方值的大小。卡方值越大,越不符合,偏差越小,卡方值就越小,越趋于符合,若量值完全相等时,卡方值就为0,表明理论值完全符合。

这篇关于Spark Mllib数据挖掘入门九——特征提取和转换的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1024179

相关文章

python实现svg图片转换为png和gif

《python实现svg图片转换为png和gif》这篇文章主要为大家详细介绍了python如何实现将svg图片格式转换为png和gif,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录python实现svg图片转换为png和gifpython实现图片格式之间的相互转换延展:基于Py

使用Python实现图像LBP特征提取的操作方法

《使用Python实现图像LBP特征提取的操作方法》LBP特征叫做局部二值模式,常用于纹理特征提取,并在纹理分类中具有较强的区分能力,本文给大家介绍了如何使用Python实现图像LBP特征提取的操作方... 目录一、LBP特征介绍二、LBP特征描述三、一些改进版本的LBP1.圆形LBP算子2.旋转不变的LB

C#实现将Excel表格转换为图片(JPG/ PNG)

《C#实现将Excel表格转换为图片(JPG/PNG)》Excel表格可能会因为不同设备或字体缺失等问题,导致格式错乱或数据显示异常,转换为图片后,能确保数据的排版等保持一致,下面我们看看如何使用C... 目录通过C# 转换Excel工作表到图片通过C# 转换指定单元格区域到图片知识扩展C# 将 Excel

C++使用printf语句实现进制转换的示例代码

《C++使用printf语句实现进制转换的示例代码》在C语言中,printf函数可以直接实现部分进制转换功能,通过格式说明符(formatspecifier)快速输出不同进制的数值,下面给大家分享C+... 目录一、printf 原生支持的进制转换1. 十进制、八进制、十六进制转换2. 显示进制前缀3. 指

使用Python开发一个带EPUB转换功能的Markdown编辑器

《使用Python开发一个带EPUB转换功能的Markdown编辑器》Markdown因其简单易用和强大的格式支持,成为了写作者、开发者及内容创作者的首选格式,本文将通过Python开发一个Markd... 目录应用概览代码结构与核心组件1. 初始化与布局 (__init__)2. 工具栏 (setup_t

Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码

《Java中Date、LocalDate、LocalDateTime、LocalTime、时间戳之间的相互转换代码》:本文主要介绍Java中日期时间转换的多种方法,包括将Date转换为LocalD... 目录一、Date转LocalDateTime二、Date转LocalDate三、LocalDateTim

Python实现AVIF图片与其他图片格式间的批量转换

《Python实现AVIF图片与其他图片格式间的批量转换》这篇文章主要为大家详细介绍了如何使用Pillow库实现AVIF与其他格式的相互转换,即将AVIF转换为常见的格式,比如JPG或PNG,需要的小... 目录环境配置1.将单个 AVIF 图片转换为 JPG 和 PNG2.批量转换目录下所有 AVIF 图

详解如何通过Python批量转换图片为PDF

《详解如何通过Python批量转换图片为PDF》:本文主要介绍如何基于Python+Tkinter开发的图片批量转PDF工具,可以支持批量添加图片,拖拽等操作,感兴趣的小伙伴可以参考一下... 目录1. 概述2. 功能亮点2.1 主要功能2.2 界面设计3. 使用指南3.1 运行环境3.2 使用步骤4. 核

Spring Boot + MyBatis Plus 高效开发实战从入门到进阶优化(推荐)

《SpringBoot+MyBatisPlus高效开发实战从入门到进阶优化(推荐)》本文将详细介绍SpringBoot+MyBatisPlus的完整开发流程,并深入剖析分页查询、批量操作、动... 目录Spring Boot + MyBATis Plus 高效开发实战:从入门到进阶优化1. MyBatis

Java实现时间与字符串互相转换详解

《Java实现时间与字符串互相转换详解》这篇文章主要为大家详细介绍了Java中实现时间与字符串互相转换的相关方法,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录一、日期格式化为字符串(一)使用预定义格式(二)自定义格式二、字符串解析为日期(一)解析ISO格式字符串(二)解析自定义