利用朴素贝叶斯和多线程做垃圾邮件分类

2024-02-17 13:18

本文主要是介绍利用朴素贝叶斯和多线程做垃圾邮件分类,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

数据来源:http://www2.aueb.gr/users/ion/data/enron-spam/
利用网站提供的三万多封邮件做一个分类,训练参数,利用个人电脑4核8G训练数据样本5000个,利用交叉验证得出的训练误差为1.63%,当数据样本上升为30000利用个人电脑训练老是被Linux给kill掉,后用了8个线程还是没能解决好,只是当做学习之用,后期就不在优化了,附上个人渣代码

#~/usr/bin/python
# coding:utf-8
import random
import os
import re
import numpy
import math
import profile
import threading
import timedef textParse(bigString):listOfTokens = re.split(r'\W*', bigString)return [tok.lower() for tok in listOfTokens if len(tok) > 2]def createVocabList(docList):vocabSet = set([])for document in docList:vocabSet = vocabSet | set(document)return list(vocabSet)def getFullTestVec():print 'starting get full test Vec ......'docList = []classList = []basepath = os.getcwd()hampath = basepath + '/ham/'filesNameList = os.listdir(hampath)for eachFile in filesNameList:with open(hampath + eachFile, 'r') as f:docList.append(textParse(f.read()))classList.append(0)spampath = basepath + '/spam/'filesNameList = os.listdir(spampath)for eachFile in filesNameList:with open(spampath + eachFile, 'r') as f:docList.append(textParse(f.read()))classList.append(1)vocabList = createVocabList(docList)print 'over geting full text!!!'return docList, vocabList, classListdef setOfWords2Vec(vocabList, inputSet):returnVec = [0] * len(vocabList)for word in inputSet:if word in vocabList:returnVec[vocabList.index(word)] = 1return returnVecdef trainNB0(trainMatrix, trainCategory):  # 训练参数,得到一个参数矩阵,对应着各个单词对应分类的出现频率numTrainDocs = len(trainMatrix)numWords = len(trainMatrix[0])pAbusive = sum(trainCategory) / float(numTrainDocs)p0Num = numpy.ones(numWords)p1Num = numpy.ones(numWords)p0Denom = 2p1Denom = 2for i in range(numTrainDocs):if trainCategory[i] == 1:p1Num += trainMatrix[i]p1Denom += sum(trainMatrix[i])else:p0Num += trainMatrix[i]p0Denom += sum(trainMatrix[i])p1Vec = numpy.log(p1Num / p1Denom)p0Vec = numpy.log(p0Num / p0Denom)return p0Vec, p1Vec, pAbusivedef classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):p1 = sum(vec2Classify * p1Vec) + numpy.log(pClass1)  # element-wise multp0 = sum(vec2Classify * p0Vec) + numpy.log(1.0 - pClass1)if p1 > p0:return 1else:return 0def holdOutCrossValidation(docList, vocabList, classList):testList = []testClass = []trainList = docList[:]trainClass = classList[:]lenOfTestList = len(docList) / 5lenOfDocList = len(docList)print 'start geting train words vec and test words vec......'for index in range(lenOfTestList):randomIndex = int(random.uniform(0, lenOfDocList))lenOfDocList -= 1testList.append(docList[randomIndex])testClass.append(classList[randomIndex])del(trainList[randomIndex])del(trainClass[randomIndex])print 'start calc args......'tmpCnt = 0sumCnt = len(docList)trainMat = []for eachDoc in trainList:trainMat.append(setOfWords2Vec(vocabList, eachDoc))tmpCnt += 1print tmpCnt, ' / ', sumCntp0Vec, p1Vec, pSpam = trainNB0(numpy.array(trainMat), numpy.array(trainClass))print 'p0: ', p0VecerrorCnt = 0print 'start calc cross validation......'for indexOfTestList in range(0, len(testList)):eachDocMat = setOfWords2Vec(vocabList, testList[indexOfTestList])if classifyNB(numpy.array(eachDocMat), p0Vec, p1Vec, pSpam) != testClass[indexOfTestList]:errorCnt += 1print 'len: ', len(trainList)return float(errorCnt) / len(testList)class Test(threading.Thread):def __init__(self):threading.Thread.__init__(self)# self._run_num = numdef run(self):global mutex, docList_G, vocabList_G, classList_Gthreadname = threading.currentThread().getName()# for x in xrange(0, int(self._run_num)):print 'thread name: ', threadnamemutex.acquire()holdOutCrossValidation(docList_G, vocabList_G, classList_G)mutex.release()global docList_G, vocabList_G, classList_G, mutex
docList_G, vocabList_G, classList_G = getFullTestVec()threads = []
num = 8
mutex = threading.Lock()for x in xrange(0, num):threads.append(Test())for t in threads:t.start()for t in threads:t.join()

这篇关于利用朴素贝叶斯和多线程做垃圾邮件分类的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/717872

相关文章

基于人工智能的图像分类系统

目录 引言项目背景环境准备 硬件要求软件安装与配置系统设计 系统架构关键技术代码示例 数据预处理模型训练模型预测应用场景结论 1. 引言 图像分类是计算机视觉中的一个重要任务,目标是自动识别图像中的对象类别。通过卷积神经网络(CNN)等深度学习技术,我们可以构建高效的图像分类系统,广泛应用于自动驾驶、医疗影像诊断、监控分析等领域。本文将介绍如何构建一个基于人工智能的图像分类系统,包括环境

认识、理解、分类——acm之搜索

普通搜索方法有两种:1、广度优先搜索;2、深度优先搜索; 更多搜索方法: 3、双向广度优先搜索; 4、启发式搜索(包括A*算法等); 搜索通常会用到的知识点:状态压缩(位压缩,利用hash思想压缩)。

SWAP作物生长模型安装教程、数据制备、敏感性分析、气候变化影响、R模型敏感性分析与贝叶斯优化、Fortran源代码分析、气候数据降尺度与变化影响分析

查看原文>>>全流程SWAP农业模型数据制备、敏感性分析及气候变化影响实践技术应用 SWAP模型是由荷兰瓦赫宁根大学开发的先进农作物模型,它综合考虑了土壤-水分-大气以及植被间的相互作用;是一种描述作物生长过程的一种机理性作物生长模型。它不但运用Richard方程,使其能够精确的模拟土壤中水分的运动,而且耦合了WOFOST作物模型使作物的生长描述更为科学。 本文让更多的科研人员和农业工作者

多线程解析报表

假如有这样一个需求,当我们需要解析一个Excel里多个sheet的数据时,可以考虑使用多线程,每个线程解析一个sheet里的数据,等到所有的sheet都解析完之后,程序需要提示解析完成。 Way1 join import java.time.LocalTime;public class Main {public static void main(String[] args) thro

Java 多线程概述

多线程技术概述   1.线程与进程 进程:内存中运行的应用程序,每个进程都拥有一个独立的内存空间。线程:是进程中的一个执行路径,共享一个内存空间,线程之间可以自由切换、并发执行,一个进程最少有一个线程,线程实际数是在进程基础之上的进一步划分,一个进程启动之后,进程之中的若干执行路径又可以划分成若干个线程 2.线程的调度 分时调度:所有线程轮流使用CPU的使用权,平均分配时间抢占式调度

Java 多线程的基本方式

Java 多线程的基本方式 基础实现两种方式: 通过实现Callable 接口方式(可得到返回值):

JAVA- 多线程

一,多线程的概念 1.并行与并发 并行:多个任务在同一时刻在cpu 上同时执行并发:多个任务在同一时刻在cpu 上交替执行 2.进程与线程 进程:就是操作系统中正在运行的一个应用程序。所以进程也就是“正在进行的程序”。(Windows系统中,我们可以在任务管理器中看 到进程) 线程:是程序运行的基本执行单元。当操作系统执行一个程序时, 会在系统中建立一个进程,该进程必须至少建立一个线

用Pytho解决分类问题_DBSCAN聚类算法模板

一:DBSCAN聚类算法的介绍 DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,DBSCAN算法的核心思想是将具有足够高密度的区域划分为簇,并能够在具有噪声的空间数据库中发现任意形状的簇。 DBSCAN算法的主要特点包括: 1. 基于密度的聚类:DBSCAN算法通过识别被低密

多线程篇(阻塞队列- LinkedBlockingDeque)(持续更新迭代)

目录 一、LinkedBlockingDeque是什么 二、核心属性详解 三、核心方法详解 addFirst(E e) offerFirst(E e) putFirst(E e) removeFirst() pollFirst() takeFirst() 其他 四、总结 一、LinkedBlockingDeque是什么 首先queue是一种数据结构,一个集合中

PMP–一、二、三模–分类–14.敏捷–技巧–看板面板与燃尽图燃起图

文章目录 技巧一模14.敏捷--方法--看板(类似卡片)1、 [单选] 根据项目的特点,项目经理建议选择一种敏捷方法,该方法限制团队成员在任何给定时间执行的任务数。此方法还允许团队提高工作过程中问题和瓶颈的可见性。项目经理建议采用以下哪种方法? 易错14.敏捷--精益、敏捷、看板(类似卡片)--敏捷、精益和看板方法共同的重点在于交付价值、尊重人、减少浪费、透明化、适应变更以及持续改善等方面。