利用朴素贝叶斯和多线程做垃圾邮件分类

2024-02-17 13:18

本文主要是介绍利用朴素贝叶斯和多线程做垃圾邮件分类,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据来源:http://www2.aueb.gr/users/ion/data/enron-spam/
利用网站提供的三万多封邮件做一个分类,训练参数,利用个人电脑4核8G训练数据样本5000个,利用交叉验证得出的训练误差为1.63%,当数据样本上升为30000利用个人电脑训练老是被Linux给kill掉,后用了8个线程还是没能解决好,只是当做学习之用,后期就不在优化了,附上个人渣代码

#~/usr/bin/python
# coding:utf-8
import random
import os
import re
import numpy
import math
import profile
import threading
import timedef textParse(bigString):listOfTokens = re.split(r'\W*', bigString)return [tok.lower() for tok in listOfTokens if len(tok) > 2]def createVocabList(docList):vocabSet = set([])for document in docList:vocabSet = vocabSet | set(document)return list(vocabSet)def getFullTestVec():print 'starting get full test Vec ......'docList = []classList = []basepath = os.getcwd()hampath = basepath + '/ham/'filesNameList = os.listdir(hampath)for eachFile in filesNameList:with open(hampath + eachFile, 'r') as f:docList.append(textParse(f.read()))classList.append(0)spampath = basepath + '/spam/'filesNameList = os.listdir(spampath)for eachFile in filesNameList:with open(spampath + eachFile, 'r') as f:docList.append(textParse(f.read()))classList.append(1)vocabList = createVocabList(docList)print 'over geting full text!!!'return docList, vocabList, classListdef setOfWords2Vec(vocabList, inputSet):returnVec = [0] * len(vocabList)for word in inputSet:if word in vocabList:returnVec[vocabList.index(word)] = 1return returnVecdef trainNB0(trainMatrix, trainCategory):  # 训练参数,得到一个参数矩阵,对应着各个单词对应分类的出现频率numTrainDocs = len(trainMatrix)numWords = len(trainMatrix[0])pAbusive = sum(trainCategory) / float(numTrainDocs)p0Num = numpy.ones(numWords)p1Num = numpy.ones(numWords)p0Denom = 2p1Denom = 2for i in range(numTrainDocs):if trainCategory[i] == 1:p1Num += trainMatrix[i]p1Denom += sum(trainMatrix[i])else:p0Num += trainMatrix[i]p0Denom += sum(trainMatrix[i])p1Vec = numpy.log(p1Num / p1Denom)p0Vec = numpy.log(p0Num / p0Denom)return p0Vec, p1Vec, pAbusivedef classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):p1 = sum(vec2Classify * p1Vec) + numpy.log(pClass1)  # element-wise multp0 = sum(vec2Classify * p0Vec) + numpy.log(1.0 - pClass1)if p1 > p0:return 1else:return 0def holdOutCrossValidation(docList, vocabList, classList):testList = []testClass = []trainList = docList[:]trainClass = classList[:]lenOfTestList = len(docList) / 5lenOfDocList = len(docList)print 'start geting train words vec and test words vec......'for index in range(lenOfTestList):randomIndex = int(random.uniform(0, lenOfDocList))lenOfDocList -= 1testList.append(docList[randomIndex])testClass.append(classList[randomIndex])del(trainList[randomIndex])del(trainClass[randomIndex])print 'start calc args......'tmpCnt = 0sumCnt = len(docList)trainMat = []for eachDoc in trainList:trainMat.append(setOfWords2Vec(vocabList, eachDoc))tmpCnt += 1print tmpCnt, ' / ', sumCntp0Vec, p1Vec, pSpam = trainNB0(numpy.array(trainMat), numpy.array(trainClass))print 'p0: ', p0VecerrorCnt = 0print 'start calc cross validation......'for indexOfTestList in range(0, len(testList)):eachDocMat = setOfWords2Vec(vocabList, testList[indexOfTestList])if classifyNB(numpy.array(eachDocMat), p0Vec, p1Vec, pSpam) != testClass[indexOfTestList]:errorCnt += 1print 'len: ', len(trainList)return float(errorCnt) / len(testList)class Test(threading.Thread):def __init__(self):threading.Thread.__init__(self)# self._run_num = numdef run(self):global mutex, docList_G, vocabList_G, classList_Gthreadname = threading.currentThread().getName()# for x in xrange(0, int(self._run_num)):print 'thread name: ', threadnamemutex.acquire()holdOutCrossValidation(docList_G, vocabList_G, classList_G)mutex.release()global docList_G, vocabList_G, classList_G, mutex
docList_G, vocabList_G, classList_G = getFullTestVec()threads = []
num = 8
mutex = threading.Lock()for x in xrange(0, num):threads.append(Test())for t in threads:t.start()for t in threads:t.join()

这篇关于利用朴素贝叶斯和多线程做垃圾邮件分类的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/717872

相关文章

Javaee多线程之进程和线程之间的区别和联系(最新整理)

《Javaee多线程之进程和线程之间的区别和联系(最新整理)》进程是资源分配单位,线程是调度执行单位,共享资源更高效,创建线程五种方式:继承Thread、Runnable接口、匿名类、lambda,r... 目录进程和线程进程线程进程和线程的区别创建线程的五种写法继承Thread,重写run实现Runnab

使用Python实现可恢复式多线程下载器

《使用Python实现可恢复式多线程下载器》在数字时代,大文件下载已成为日常操作,本文将手把手教你用Python打造专业级下载器,实现断点续传,多线程加速,速度限制等功能,感兴趣的小伙伴可以了解下... 目录一、智能续传:从崩溃边缘抢救进度二、多线程加速:榨干网络带宽三、速度控制:做网络的好邻居四、终端交互

MySQL中的索引结构和分类实战案例详解

《MySQL中的索引结构和分类实战案例详解》本文详解MySQL索引结构与分类,涵盖B树、B+树、哈希及全文索引,分析其原理与优劣势,并结合实战案例探讨创建、管理及优化技巧,助力提升查询性能,感兴趣的朋... 目录一、索引概述1.1 索引的定义与作用1.2 索引的基本原理二、索引结构详解2.1 B树索引2.2

python多线程并发测试过程

《python多线程并发测试过程》:本文主要介绍python多线程并发测试过程,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录一、并发与并行?二、同步与异步的概念?三、线程与进程的区别?需求1:多线程执行不同任务需求2:多线程执行相同任务总结一、并发与并行?1、

Python多进程、多线程、协程典型示例解析(最新推荐)

《Python多进程、多线程、协程典型示例解析(最新推荐)》:本文主要介绍Python多进程、多线程、协程典型示例解析(最新推荐),本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定... 目录一、multiprocessing(多进程)1. 模块简介2. 案例详解:并行计算平方和3. 实现逻

Pandas使用AdaBoost进行分类的实现

《Pandas使用AdaBoost进行分类的实现》Pandas和AdaBoost分类算法,可以高效地进行数据预处理和分类任务,本文主要介绍了Pandas使用AdaBoost进行分类的实现,具有一定的参... 目录什么是 AdaBoost?使用 AdaBoost 的步骤安装必要的库步骤一:数据准备步骤二:模型

Java使用多线程处理未知任务数的方案介绍

《Java使用多线程处理未知任务数的方案介绍》这篇文章主要为大家详细介绍了Java如何使用多线程实现处理未知任务数,文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编一起学习一下... 知道任务个数,你可以定义好线程数规则,生成线程数去跑代码说明:1.虚拟线程池:使用 Executors.newVir

JAVA封装多线程实现的方式及原理

《JAVA封装多线程实现的方式及原理》:本文主要介绍Java中封装多线程的原理和常见方式,通过封装可以简化多线程的使用,提高安全性,并增强代码的可维护性和可扩展性,需要的朋友可以参考下... 目录前言一、封装的目标二、常见的封装方式及原理总结前言在 Java 中,封装多线程的原理主要围绕着将多线程相关的操

Python中多线程和多进程的基本用法详解

《Python中多线程和多进程的基本用法详解》这篇文章介绍了Python中多线程和多进程的相关知识,包括并发编程的优势,多线程和多进程的概念、适用场景、示例代码,线程池和进程池的使用,以及如何选择合适... 目录引言一、并发编程的主要优势二、python的多线程(Threading)1. 什么是多线程?2.

SpringBoot中使用 ThreadLocal 进行多线程上下文管理及注意事项小结

《SpringBoot中使用ThreadLocal进行多线程上下文管理及注意事项小结》本文详细介绍了ThreadLocal的原理、使用场景和示例代码,并在SpringBoot中使用ThreadLo... 目录前言技术积累1.什么是 ThreadLocal2. ThreadLocal 的原理2.1 线程隔离2