通过weka.jar包来进行数据预处理

2024-06-20 17:08

本文主要是介绍通过weka.jar包来进行数据预处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

打开eclipse ,在对应的工程下右击,选择Build Path ->选择Configure Build Path  ->选择Libraries  ->点击Add External JARs  ->然后到你的jar包所在路径选择它。即可。

一、特征选择


[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3. import weka.attributeSelection.ASEvaluation;  
  4. import weka.attributeSelection.InfoGainAttributeEval;  
  5. import weka.attributeSelection.Ranker;  
  6. import weka.core.Instances;  
  7. import weka.core.converters.ConverterUtils.DataSink;  
  8. import weka.core.converters.ConverterUtils.DataSource;  
  9. import weka.filters.Filter;  
  10. import weka.filters.supervised.attribute.AttributeSelection;  
  11.   
  12.   
  13. /**feature selection via weka 
  14.  *  
  15.  * @author wenbaoli 
  16.  * 
  17.  */  
  18. public class featureSelect {  
  19.   
  20.     /** 
  21.      *  
  22.      * @param arg 
  23.      */  
  24.     public static void main(String[] arg){  
  25.           
  26.         try {  
  27.   
  28.             System.out.println("++++++++++++Example3:Feature Selection Via Weka.+++++++++");  
  29.               
  30.             System.out.println("Step1:load data...");  
  31.             String fn = "E:/weka/data/iris.arff";  
  32.             DataSource source = new DataSource(fn);  
  33.             Instances instances = source.getDataSet();  
  34.               
  35.             System.out.println("Step2:feature selction...");  
  36.             featureSelect fs = new featureSelect();  
  37.               
  38.             int k = 2;  
  39.             AttributeSelection as = new AttributeSelection();  
  40.               
  41.             Ranker rank = new Ranker();  
  42.             rank.setThreshold(0.0);  
  43.             rank.setNumToSelect(k);  
  44.               
  45.             ASEvaluation ae = new InfoGainAttributeEval();  
  46.           
  47.             as.setEvaluator(ae);  
  48.             as.setSearch(rank);  
  49.             as.setInputFormat(instances);  
  50.             Instances reductData = Filter.useFilter(instances, as);  
  51.               
  52.             System.out.println("Step3:保存规约后的数据到新文件...");  
  53.             DataSink.write("E:/weka/data/iris_reducted.arff", reductData);  
  54.             System.out.println("Finished...");  
  55.               
  56.               
  57.         } catch (Exception e) {  
  58.             e.printStackTrace();  
  59.         }     
  60.     }  
  61.       
  62. }  

二、缺失值处理

[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3. import weka.core.Instances;  
  4. import weka.core.converters.ConverterUtils.DataSink;  
  5. import weka.core.converters.ConverterUtils.DataSource;  
  6.   
  7.   
  8. /**Missing value Handling via weka 
  9.  *  
  10.  * @author wenbaoli 
  11.  * 
  12.  */  
  13. public class missingHandle {  
  14.   
  15.     /** 
  16.      *  
  17.      * @param arg 
  18.      */  
  19.     public static void main(String[] arg) {  
  20.           
  21.         try {  
  22.             System.out.println("+++++++++++++Example 2 :Missing Value Handling.++++++++++++++");  
  23.               
  24.             System.out.println("Step1:load data...");  
  25.               
  26.             String fn = "E:weka/data/labor.arff";  
  27.               
  28.             DataSource source = new DataSource(fn);  
  29.               
  30.             Instances instances = source.getDataSet();  
  31.             int dim = instances.numAttributes();  
  32.             int num = instances.numInstances();  
  33.               
  34.             System.out.println("Step2:缺失值处理...");  
  35.             double[] meanV = new double[dim];  
  36.             for (int i = 0; i < meanV.length; i++) {  
  37.                 meanV[i] = 0;  
  38.                 int count = 0;  
  39.                 for (int j = 0; j < num; j++) {  
  40.                     if(!instances.instance(j).isMissing(i)){  
  41.                         meanV[i] += instances.instance(j).value(i);  
  42.                         count++;  
  43.                     }  
  44.                 }  
  45.                 meanV[i] = meanV[i]/count;  
  46.                 System.out.println(meanV[i]);  
  47.             }  
  48.               
  49.               
  50.             for (int i = 0; i < meanV.length; i++) {  
  51.                 meanV[i] = 0;  
  52.                 int count = 0;  
  53.                 for (int j = 0; j < num; j++) {  
  54.                     if(instances.instance(j).isMissing(i)){  
  55.                         instances.instance(j).setValue(i, meanV[i]);  
  56.                     }  
  57.                 }  
  58.                   
  59.                   
  60.             }  
  61.               
  62.             System.out.println("Step3:保存数据到新文件...");  
  63.               
  64.             DataSink.write("E:weka/data/labor_missingValueHandled.arff", instances);  
  65.             System.out.println("Finished.");  
  66.         } catch (Exception e) {  
  67.             e.printStackTrace();  
  68.         }  
  69.           
  70.           
  71.     }  
  72. }  

三、归一化处理

[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3.   
  4.   
  5. import weka.core.Attribute;  
  6. import weka.core.Instance;  
  7. import weka.core.Instances;  
  8. import weka.core.converters.ConverterUtils.DataSink;  
  9. import weka.core.converters.ConverterUtils.DataSource;  
  10. import weka.filters.Filter;  
  11. import weka.filters.unsupervised.attribute.Normalize;  
  12.   
  13.   
  14. /**normalize data via weka 
  15.  *  
  16.  * @author wenbaoli 
  17.  * 
  18.  */  
  19. public class normalizeTest {  
  20.   
  21.     /** 
  22.      *  
  23.      * @param arg 
  24.      */  
  25.     public static void main(String[] arg) {  
  26.           
  27.           
  28.         String file = "cpu.arff";  
  29.         String file_norm = "norm_" + file;  
  30.         //对数据进行归一化  
  31.         try {  
  32.         System.out.println("+++++++++++++Example 1 : Normalize Data via weka.+++++++++");  
  33.           
  34.         System.out.println("Step1:读取数据...");  
  35.         DataSource source = new DataSource("E:/Weka/data/" + file);  
  36.         Instances instances = source.getDataSet();  
  37.           
  38.         System.out.println("Step2:原数据打印...");  
  39.         System.out.println("---------------------------------");  
  40.         int attributeNo = instances.numAttributes();  
  41.         for (int i = 0; i < attributeNo; i++) {  
  42.             Attribute attr = instances.attribute(i);  
  43.             System.out.print(attr.name() + "\t");  
  44.               
  45.         }  
  46.         System.out.println();  
  47.           
  48.         int instanceNo = instances.numInstances();  
  49.         for (int i = 0; i < instanceNo; i++) {  
  50.             Instance ins = instances.instance(i);  
  51.             System.out.print(ins.toString() + "\t");  
  52.             System.out.println();  
  53.         }  
  54.           
  55.         System.out.println("Step3:归一化...");  
  56.         Normalize norm = new Normalize();  
  57.         norm.setInputFormat(instances);  
  58.           
  59.         //归一化关键步骤:  
  60.         Instances newInstances = Filter.useFilter(instances, norm);  
  61.           
  62.         System.out.println("Step4:归一化之后的数据(打印)...");  
  63.         System.out.println("---------------------------------");  
  64.           
  65.         //打印属性名  
  66.         int numOfAttributes = newInstances.numAttributes();  
  67.         for (int i = 0; i < numOfAttributes; i++) {  
  68.             Attribute attribute = newInstances.attribute(i);  
  69.             System.out.print(attribute.name() + "\t");  
  70.               
  71.         }  
  72.         System.out.println();  
  73.           
  74.         //打印实例  
  75.         int numOfInstance = newInstances.numInstances();  
  76.         for (int i = 0; i < numOfInstance ; i++) {  
  77.             Instance instance = newInstances.instance(i);  
  78.             System.out.print(instance.toString() + "\t");  
  79.             System.out.println();  
  80.         }  
  81.         //发现一个问题:这把标签label也给归一化了。。。。。。。。。。这样可以吗???????  
  82.           
  83.         System.out.println("Step5:保存归一化的新数据到新文件...");  
  84.         System.out.println("-----------------------");  
  85.         DataSink.write("E:/Weka/data/" +file_norm, newInstances);  
  86.         System.out.println("Congratulations.");  
  87.         } catch (Exception e) {  
  88.             e.printStackTrace();  
  89.         }  
  90.           
  91.           
  92.     }  
  93. }  

这篇关于通过weka.jar包来进行数据预处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1078738

相关文章

SpringBoot结合Docker进行容器化处理指南

《SpringBoot结合Docker进行容器化处理指南》在当今快速发展的软件工程领域,SpringBoot和Docker已经成为现代Java开发者的必备工具,本文将深入讲解如何将一个SpringBo... 目录前言一、为什么选择 Spring Bootjavascript + docker1. 快速部署与

Linux在线解压jar包的实现方式

《Linux在线解压jar包的实现方式》:本文主要介绍Linux在线解压jar包的实现方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录linux在线解压jar包解压 jar包的步骤总结Linux在线解压jar包在 Centos 中解压 jar 包可以使用 u

linux解压缩 xxx.jar文件进行内部操作过程

《linux解压缩xxx.jar文件进行内部操作过程》:本文主要介绍linux解压缩xxx.jar文件进行内部操作,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、解压文件二、压缩文件总结一、解压文件1、把 xxx.jar 文件放在服务器上,并进入当前目录#

SpringBoot中如何使用Assert进行断言校验

《SpringBoot中如何使用Assert进行断言校验》Java提供了内置的assert机制,而Spring框架也提供了更强大的Assert工具类来帮助开发者进行参数校验和状态检查,下... 目录前言一、Java 原生assert简介1.1 使用方式1.2 示例代码1.3 优缺点分析二、Spring Fr

Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式

《Java通过驱动包(jar包)连接MySQL数据库的步骤总结及验证方式》本文详细介绍如何使用Java通过JDBC连接MySQL数据库,包括下载驱动、配置Eclipse环境、检测数据库连接等关键步骤,... 目录一、下载驱动包二、放jar包三、检测数据库连接JavaJava 如何使用 JDBC 连接 mys

SQL中如何添加数据(常见方法及示例)

《SQL中如何添加数据(常见方法及示例)》SQL全称为StructuredQueryLanguage,是一种用于管理关系数据库的标准编程语言,下面给大家介绍SQL中如何添加数据,感兴趣的朋友一起看看吧... 目录在mysql中,有多种方法可以添加数据。以下是一些常见的方法及其示例。1. 使用INSERT I

Python使用vllm处理多模态数据的预处理技巧

《Python使用vllm处理多模态数据的预处理技巧》本文深入探讨了在Python环境下使用vLLM处理多模态数据的预处理技巧,我们将从基础概念出发,详细讲解文本、图像、音频等多模态数据的预处理方法,... 目录1. 背景介绍1.1 目的和范围1.2 预期读者1.3 文档结构概述1.4 术语表1.4.1 核

MySQL 删除数据详解(最新整理)

《MySQL删除数据详解(最新整理)》:本文主要介绍MySQL删除数据的相关知识,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录一、前言二、mysql 中的三种删除方式1.DELETE语句✅ 基本语法: 示例:2.TRUNCATE语句✅ 基本语

MyBatisPlus如何优化千万级数据的CRUD

《MyBatisPlus如何优化千万级数据的CRUD》最近负责的一个项目,数据库表量级破千万,每次执行CRUD都像走钢丝,稍有不慎就引起数据库报警,本文就结合这个项目的实战经验,聊聊MyBatisPl... 目录背景一、MyBATis Plus 简介二、千万级数据的挑战三、优化 CRUD 的关键策略1. 查

python实现对数据公钥加密与私钥解密

《python实现对数据公钥加密与私钥解密》这篇文章主要为大家详细介绍了如何使用python实现对数据公钥加密与私钥解密,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 目录公钥私钥的生成使用公钥加密使用私钥解密公钥私钥的生成这一部分,使用python生成公钥与私钥,然后保存在两个文