腾讯企业邮箱、qq企业邮箱、企业邮箱——电子邮件分类的最优机器学习算法
电子邮件的分类是一个机器学习问题,属于监督学习的范畴。
这个关于电子邮件分类的小项目的灵感来自J.K.罗琳以笔名出版的一本书。Udacity的“机器学习导论”提供了算法和项目的全面研究:https://www.udacity.com/course/introto machine learing-- ud120
几年前,罗琳写了一本叫《布谷鸟》的书,作者是罗伯特·加尔布雷斯。这本书获得了一些好评,但没有人关注它,直到一位匿名人士在推特上说这是J.K.罗琳。伦敦《星期日泰晤士报》邀请了两位专家来比较《布谷鸟》的语言模式与罗琳的《临时空缺》以及其他几位作家的作品。在他们的分析强烈指出罗琳是作者后,《泰晤士报》直接询问出版商他们是否是同一个人,出版商证实了这一点。这本书一夜之间很受欢迎。
电子邮件分类基于相同的基本概念。通过浏览电子邮件的文本,我们将使用机器学习算法来预测这封电子邮件是否是由某个人写的。
数据集
数据集可以从以下GitHub存储库获得:https://github.com/MahnoorJaved98/Email-Classification
在这个数据集中,我们有一组电子邮件,其中一半是由来自同一公司的一个人(SARA)写的,另一半是另一个人(Chris)写的。数据基于字符串列表。每个字符串都是经过一些基本预处理后的电子邮件文本。
根据文本对信息进行分类。我们将逐一使用以下算法:朴素贝叶斯,支持向量机,决策树,随机森林,KNN和AdaBoost分类器。
存储库有两个pickle文件:word_ Data和email_ authors。
预处理Python文件用于处理pickle文件中的数据。它将数据分成10%的测试数据和90%的训练数据。
简单的贝叶斯
朴素贝叶斯方法是一种基于贝叶斯定理的监督学习算法。在给定类变量值的情况下,假设每对特征独立于条件,贡献相等。贝叶斯定理是计算条件概率的一个简单的数学公式。
朴素贝叶斯是朴素贝叶斯的一种,它假设特征的可能性是高斯的。假设与每个特征相关的连续值按高斯分布分布。在绘图中,它给出一个钟形曲线对称的特征值的平均值。
我们将在scikit学习库中使用高斯朴素贝叶斯算法对两位作者的电子邮件进行分类。
下面是您可以在任何Python ide上实现的Python代码,以确保在您的系统上安装了所需的库。
import sysfrom time import time .path。追加(“C: \ \ \ \用户惠普桌面\ \ \ \毫升代码\ \”)从email_预处理进口预处理进口numpy NPා算法是进口sklearn sklearn图书馆。naive_ bayes从sklearn导入gaussiannb。指标导入accuracy_得分ා初始化测试和训练集ා函数进行预处理是email_ preprocess.py进口features_火车,features_测试,labels_火车,labels_测试=预处理()ා定义分类器CLF =高斯nb() #预测的训练和测试时间t0 = () CLF。print("\nTraining time:", round(time()-t0, 3), "s\n")t1 = time()pred = clf。预测(features_测试)打印(“预测:“圆(时间()——T1, 3), s / N)ා算法的计算精度和印刷打印(“朴素贝叶斯的准确性:准确性)_评分(pred labels_运行代码,得到以下结果:
9203. 那难道不好吗?甚至算法的训练时间和预测时间都是相当合理的。
支持向量机
支持向量机也是一种用于分类、回归和异常检测的监督学习。数据点按平面分为两类,支持向量机算法将数据点分为两类。支持向量机有一个直接决策边界。支持向量机算法具有通用性,可以为决策函数分配不同的核函数。
SVM算法是基于两类超平面的分离,区间越大,分类越好(也称为区间最大化)。
我们的分类器是一个线性核C支持向量分类器,C = 1
import sysfrom time import time .path。从email_ preprocess import preprocessfrom sklearn添加("C:\\用户\\HP\\桌面\\ML代码\\")。svm从sklearn导入SVCfrom。metrics import accuracy_ score### features_ Train和features_ Test是训练集的特征,Test set_ Train和labels_ Test是对应的标签专长
腾讯企业邮箱、qq企业邮箱与微信完美结合的企业QQ邮箱,腾讯QQ企业邮箱上安全、稳定、高效、便捷,企业qq邮箱每账号每年100元起,企业邮箱用户越多越优惠,腾讯企业邮箱首页:www.tjwlt.com.如有疑问,请致电400-889-0304。
 
专业、安全、专属定制的企业邮箱服务
  • 电话咨询

  • 400-889-0304