通过weka.jar包来进行数据预处理

2024-06-20 17:08

本文主要是介绍通过weka.jar包来进行数据预处理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

打开eclipse ,在对应的工程下右击,选择Build Path ->选择Configure Build Path  ->选择Libraries  ->点击Add External JARs  ->然后到你的jar包所在路径选择它。即可。

一、特征选择


[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3. import weka.attributeSelection.ASEvaluation;  
  4. import weka.attributeSelection.InfoGainAttributeEval;  
  5. import weka.attributeSelection.Ranker;  
  6. import weka.core.Instances;  
  7. import weka.core.converters.ConverterUtils.DataSink;  
  8. import weka.core.converters.ConverterUtils.DataSource;  
  9. import weka.filters.Filter;  
  10. import weka.filters.supervised.attribute.AttributeSelection;  
  11.   
  12.   
  13. /**feature selection via weka 
  14.  *  
  15.  * @author wenbaoli 
  16.  * 
  17.  */  
  18. public class featureSelect {  
  19.   
  20.     /** 
  21.      *  
  22.      * @param arg 
  23.      */  
  24.     public static void main(String[] arg){  
  25.           
  26.         try {  
  27.   
  28.             System.out.println("++++++++++++Example3:Feature Selection Via Weka.+++++++++");  
  29.               
  30.             System.out.println("Step1:load data...");  
  31.             String fn = "E:/weka/data/iris.arff";  
  32.             DataSource source = new DataSource(fn);  
  33.             Instances instances = source.getDataSet();  
  34.               
  35.             System.out.println("Step2:feature selction...");  
  36.             featureSelect fs = new featureSelect();  
  37.               
  38.             int k = 2;  
  39.             AttributeSelection as = new AttributeSelection();  
  40.               
  41.             Ranker rank = new Ranker();  
  42.             rank.setThreshold(0.0);  
  43.             rank.setNumToSelect(k);  
  44.               
  45.             ASEvaluation ae = new InfoGainAttributeEval();  
  46.           
  47.             as.setEvaluator(ae);  
  48.             as.setSearch(rank);  
  49.             as.setInputFormat(instances);  
  50.             Instances reductData = Filter.useFilter(instances, as);  
  51.               
  52.             System.out.println("Step3:保存规约后的数据到新文件...");  
  53.             DataSink.write("E:/weka/data/iris_reducted.arff", reductData);  
  54.             System.out.println("Finished...");  
  55.               
  56.               
  57.         } catch (Exception e) {  
  58.             e.printStackTrace();  
  59.         }     
  60.     }  
  61.       
  62. }  

二、缺失值处理

[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3. import weka.core.Instances;  
  4. import weka.core.converters.ConverterUtils.DataSink;  
  5. import weka.core.converters.ConverterUtils.DataSource;  
  6.   
  7.   
  8. /**Missing value Handling via weka 
  9.  *  
  10.  * @author wenbaoli 
  11.  * 
  12.  */  
  13. public class missingHandle {  
  14.   
  15.     /** 
  16.      *  
  17.      * @param arg 
  18.      */  
  19.     public static void main(String[] arg) {  
  20.           
  21.         try {  
  22.             System.out.println("+++++++++++++Example 2 :Missing Value Handling.++++++++++++++");  
  23.               
  24.             System.out.println("Step1:load data...");  
  25.               
  26.             String fn = "E:weka/data/labor.arff";  
  27.               
  28.             DataSource source = new DataSource(fn);  
  29.               
  30.             Instances instances = source.getDataSet();  
  31.             int dim = instances.numAttributes();  
  32.             int num = instances.numInstances();  
  33.               
  34.             System.out.println("Step2:缺失值处理...");  
  35.             double[] meanV = new double[dim];  
  36.             for (int i = 0; i < meanV.length; i++) {  
  37.                 meanV[i] = 0;  
  38.                 int count = 0;  
  39.                 for (int j = 0; j < num; j++) {  
  40.                     if(!instances.instance(j).isMissing(i)){  
  41.                         meanV[i] += instances.instance(j).value(i);  
  42.                         count++;  
  43.                     }  
  44.                 }  
  45.                 meanV[i] = meanV[i]/count;  
  46.                 System.out.println(meanV[i]);  
  47.             }  
  48.               
  49.               
  50.             for (int i = 0; i < meanV.length; i++) {  
  51.                 meanV[i] = 0;  
  52.                 int count = 0;  
  53.                 for (int j = 0; j < num; j++) {  
  54.                     if(instances.instance(j).isMissing(i)){  
  55.                         instances.instance(j).setValue(i, meanV[i]);  
  56.                     }  
  57.                 }  
  58.                   
  59.                   
  60.             }  
  61.               
  62.             System.out.println("Step3:保存数据到新文件...");  
  63.               
  64.             DataSink.write("E:weka/data/labor_missingValueHandled.arff", instances);  
  65.             System.out.println("Finished.");  
  66.         } catch (Exception e) {  
  67.             e.printStackTrace();  
  68.         }  
  69.           
  70.           
  71.     }  
  72. }  

三、归一化处理

[java]  view plain copy
print ?
  1. package learning;  
  2.   
  3.   
  4.   
  5. import weka.core.Attribute;  
  6. import weka.core.Instance;  
  7. import weka.core.Instances;  
  8. import weka.core.converters.ConverterUtils.DataSink;  
  9. import weka.core.converters.ConverterUtils.DataSource;  
  10. import weka.filters.Filter;  
  11. import weka.filters.unsupervised.attribute.Normalize;  
  12.   
  13.   
  14. /**normalize data via weka 
  15.  *  
  16.  * @author wenbaoli 
  17.  * 
  18.  */  
  19. public class normalizeTest {  
  20.   
  21.     /** 
  22.      *  
  23.      * @param arg 
  24.      */  
  25.     public static void main(String[] arg) {  
  26.           
  27.           
  28.         String file = "cpu.arff";  
  29.         String file_norm = "norm_" + file;  
  30.         //对数据进行归一化  
  31.         try {  
  32.         System.out.println("+++++++++++++Example 1 : Normalize Data via weka.+++++++++");  
  33.           
  34.         System.out.println("Step1:读取数据...");  
  35.         DataSource source = new DataSource("E:/Weka/data/" + file);  
  36.         Instances instances = source.getDataSet();  
  37.           
  38.         System.out.println("Step2:原数据打印...");  
  39.         System.out.println("---------------------------------");  
  40.         int attributeNo = instances.numAttributes();  
  41.         for (int i = 0; i < attributeNo; i++) {  
  42.             Attribute attr = instances.attribute(i);  
  43.             System.out.print(attr.name() + "\t");  
  44.               
  45.         }  
  46.         System.out.println();  
  47.           
  48.         int instanceNo = instances.numInstances();  
  49.         for (int i = 0; i < instanceNo; i++) {  
  50.             Instance ins = instances.instance(i);  
  51.             System.out.print(ins.toString() + "\t");  
  52.             System.out.println();  
  53.         }  
  54.           
  55.         System.out.println("Step3:归一化...");  
  56.         Normalize norm = new Normalize();  
  57.         norm.setInputFormat(instances);  
  58.           
  59.         //归一化关键步骤:  
  60.         Instances newInstances = Filter.useFilter(instances, norm);  
  61.           
  62.         System.out.println("Step4:归一化之后的数据(打印)...");  
  63.         System.out.println("---------------------------------");  
  64.           
  65.         //打印属性名  
  66.         int numOfAttributes = newInstances.numAttributes();  
  67.         for (int i = 0; i < numOfAttributes; i++) {  
  68.             Attribute attribute = newInstances.attribute(i);  
  69.             System.out.print(attribute.name() + "\t");  
  70.               
  71.         }  
  72.         System.out.println();  
  73.           
  74.         //打印实例  
  75.         int numOfInstance = newInstances.numInstances();  
  76.         for (int i = 0; i < numOfInstance ; i++) {  
  77.             Instance instance = newInstances.instance(i);  
  78.             System.out.print(instance.toString() + "\t");  
  79.             System.out.println();  
  80.         }  
  81.         //发现一个问题:这把标签label也给归一化了。。。。。。。。。。这样可以吗???????  
  82.           
  83.         System.out.println("Step5:保存归一化的新数据到新文件...");  
  84.         System.out.println("-----------------------");  
  85.         DataSink.write("E:/Weka/data/" +file_norm, newInstances);  
  86.         System.out.println("Congratulations.");  
  87.         } catch (Exception e) {  
  88.             e.printStackTrace();  
  89.         }  
  90.           
  91.           
  92.     }  
  93. }  

这篇关于通过weka.jar包来进行数据预处理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1078738

相关文章

使用 sql-research-assistant进行 SQL 数据库研究的实战指南(代码实现演示)

《使用sql-research-assistant进行SQL数据库研究的实战指南(代码实现演示)》本文介绍了sql-research-assistant工具,该工具基于LangChain框架,集... 目录技术背景介绍核心原理解析代码实现演示安装和配置项目集成LangSmith 配置(可选)启动服务应用场景

如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解

《如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别详解》:本文主要介绍如何通过海康威视设备网络SDK进行Java二次开发摄像头车牌识别的相关资料,描述了如何使用海康威视设备网络SD... 目录前言开发流程问题和解决方案dll库加载不到的问题老旧版本sdk不兼容的问题关键实现流程总结前言作为

SpringBoot中使用 ThreadLocal 进行多线程上下文管理及注意事项小结

《SpringBoot中使用ThreadLocal进行多线程上下文管理及注意事项小结》本文详细介绍了ThreadLocal的原理、使用场景和示例代码,并在SpringBoot中使用ThreadLo... 目录前言技术积累1.什么是 ThreadLocal2. ThreadLocal 的原理2.1 线程隔离2

springboot将lib和jar分离的操作方法

《springboot将lib和jar分离的操作方法》本文介绍了如何通过优化pom.xml配置来减小SpringBoot项目的jar包大小,主要通过使用spring-boot-maven-plugin... 遇到一个问题,就是每次maven package或者maven install后target中的ja

Python利用PIL进行图片压缩

《Python利用PIL进行图片压缩》有时在发送一些文件如PPT、Word时,由于文件中的图片太大,导致文件也太大,无法发送,所以本文为大家介绍了Python中图片压缩的方法,需要的可以参考下... 有时在发送一些文件如PPT、Word时,由于文件中的图片太大,导致文件也太大,无法发送,所有可以对文件中的图

Redis的数据过期策略和数据淘汰策略

《Redis的数据过期策略和数据淘汰策略》本文主要介绍了Redis的数据过期策略和数据淘汰策略,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一... 目录一、数据过期策略1、惰性删除2、定期删除二、数据淘汰策略1、数据淘汰策略概念2、8种数据淘汰策略

轻松上手MYSQL之JSON函数实现高效数据查询与操作

《轻松上手MYSQL之JSON函数实现高效数据查询与操作》:本文主要介绍轻松上手MYSQL之JSON函数实现高效数据查询与操作的相关资料,MySQL提供了多个JSON函数,用于处理和查询JSON数... 目录一、jsON_EXTRACT 提取指定数据二、JSON_UNQUOTE 取消双引号三、JSON_KE

如何使用Spring boot的@Transactional进行事务管理

《如何使用Springboot的@Transactional进行事务管理》这篇文章介绍了SpringBoot中使用@Transactional注解进行声明式事务管理的详细信息,包括基本用法、核心配置... 目录一、前置条件二、基本用法1. 在方法上添加注解2. 在类上添加注解三、核心配置参数1. 传播行为(

Python给Excel写入数据的四种方法小结

《Python给Excel写入数据的四种方法小结》本文主要介绍了Python给Excel写入数据的四种方法小结,包含openpyxl库、xlsxwriter库、pandas库和win32com库,具有... 目录1. 使用 openpyxl 库2. 使用 xlsxwriter 库3. 使用 pandas 库

Java实战之自助进行多张图片合成拼接

《Java实战之自助进行多张图片合成拼接》在当今数字化时代,图像处理技术在各个领域都发挥着至关重要的作用,本文为大家详细介绍了如何使用Java实现多张图片合成拼接,需要的可以了解下... 目录前言一、图片合成需求描述二、图片合成设计与实现1、编程语言2、基础数据准备3、图片合成流程4、图片合成实现三、总结前