修改mahout的分类指标

2024-08-22 17:32
文章标签 分类 指标 修改 mahout

本文主要是介绍修改mahout的分类指标,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!


mahout的默认分类指标

0.9版的分类统计如下图

mahout-0.9-classify-result

0.10及0.11的分类统计如下

mahout-0.11-classsify-result.png

可以看到,相比较0.9版,新版的mahout增加了指标查准率(Weighted precision)和查全率(Weighted recall)。


修改mahout的分类指标

在此基础上,我们可以添加新的指标,比如最小查准率(Min precision ),最大查准率(Max precision),最小查全率(Min recall),最大查全率(Max recall)。以下是在mahout0.9中添加新指标的具体步骤。

因为我们安装mahout后,默认只有各种jar包,没有源码,所以首先下载mahout的源码–mahout-distribution-0.9-src.tar.gz,找到类“ConfusionMatrix”和“ResultAnalyzer”。之后在eclipse中新建工程,创建与上述类路径一致的包“org.apache.mahout.classifier”,并添加上述类和导入需要的包。

之后,对照mahout最新版本–mahout修改,为ConfusionMatrix添加函数getMinPrecision计算最小查准率。

// precisions最后一个总为0,所以只取前n-1个的最小值public double getMinPrecision() {double precision = 0.0;double minPrecision = 100.0;double[] precisions = new double[numLabels()];int index = 0;for (String label : labelMap.keySet()) {precisions[index] = getPrecision(label);index++;}int length = index;for (index = 0; index < length-1 ; index++) {precision = precisions[index];if(precision < minPrecision)minPrecision = precision;}return minPrecision;}

在ResultAnalyzer中增加相应输出

 returnString.append(StringUtils.rightPad("Min precision", 40)).append(StringUtils.leftPad(decimalFormatter.format(confusionMatrix.getMinPrecision()), 10)).append('\n');

至此,源文件已修改完成,在eclipse中选中“Source->Clean up->Finish”进行编译。

在文件系统中找到mahout-examples-0.9-job.jar包,若为快速安装,则该包在安装目录下,若为CDH安装,则在类似于“/opt/cloudera/parcels/CDH-5.3.8-1.cdh5.3.8.p0.5/jars”的目录下。将包中的ConfusionMatrix.class和ResultAnalyzer.class用新编译的class替换掉即可。

我将自己修改后的包放在了CSDN资源上–mahout-examples-0.9-job.jar(修改版。


修改效果

修改jar包后,重新运行,得到结果如下所示

mahout-classify-resultl-modify

这篇关于修改mahout的分类指标的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1096925

相关文章

解读GC日志中的各项指标用法

《解读GC日志中的各项指标用法》:本文主要介绍GC日志中的各项指标用法,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、基础 GC 日志格式(以 G1 为例)1. Minor GC 日志2. Full GC 日志二、关键指标解析1. GC 类型与触发原因2. 堆

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

SQL Server修改数据库名及物理数据文件名操作步骤

《SQLServer修改数据库名及物理数据文件名操作步骤》在SQLServer中重命名数据库是一个常见的操作,但需要确保用户具有足够的权限来执行此操作,:本文主要介绍SQLServer修改数据... 目录一、背景介绍二、操作步骤2.1 设置为单用户模式(断开连接)2.2 修改数据库名称2.3 查找逻辑文件名

Oracle修改端口号之后无法启动的解决方案

《Oracle修改端口号之后无法启动的解决方案》Oracle数据库更改端口后出现监听器无法启动的问题确实较为常见,但并非必然发生,这一问题通常源于​​配置错误或环境冲突​​,而非端口修改本身,以下是系... 目录一、问题根源分析​​​二、保姆级解决方案​​​​步骤1:修正监听器配置文件 (listener.

Linux中修改Apache HTTP Server(httpd)默认端口的完整指南

《Linux中修改ApacheHTTPServer(httpd)默认端口的完整指南》ApacheHTTPServer(简称httpd)是Linux系统中最常用的Web服务器之一,本文将详细介绍如何... 目录一、修改 httpd 默认端口的步骤1. 查找 httpd 配置文件路径2. 编辑配置文件3. 保存

Nginx 413修改上传文件大小限制的方法详解

《Nginx413修改上传文件大小限制的方法详解》在使用Nginx作为Web服务器时,有时会遇到客户端尝试上传大文件时返回​​413RequestEntityTooLarge​​... 目录1. 理解 ​​413 Request Entity Too Large​​ 错误2. 修改 Nginx 配置2.1

Python对PDF书签进行添加,修改提取和删除操作

《Python对PDF书签进行添加,修改提取和删除操作》PDF书签是PDF文件中的导航工具,通常包含一个标题和一个跳转位置,本教程将详细介绍如何使用Python对PDF文件中的书签进行操作... 目录简介使用工具python 向 PDF 添加书签添加书签添加嵌套书签Python 修改 PDF 书签Pytho

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型

Docker镜像修改hosts及dockerfile修改hosts文件的实现方式

《Docker镜像修改hosts及dockerfile修改hosts文件的实现方式》:本文主要介绍Docker镜像修改hosts及dockerfile修改hosts文件的实现方式,具有很好的参考价... 目录docker镜像修改hosts及dockerfile修改hosts文件准备 dockerfile 文

Python实现无痛修改第三方库源码的方法详解

《Python实现无痛修改第三方库源码的方法详解》很多时候,我们下载的第三方库是不会有需求不满足的情况,但也有极少的情况,第三方库没有兼顾到需求,本文将介绍几个修改源码的操作,大家可以根据需求进行选择... 目录需求不符合模拟示例 1. 修改源文件2. 继承修改3. 猴子补丁4. 追踪局部变量需求不符合很