我们日常学习以及工作中会收到非常多的邮件,除了与学习工作相关的邮件,还会收到许多垃圾邮件,包括广告邮件、欺诈邮件等等。本任务通过邮件中包含的文本内容来判断该邮件是正常邮件(ham)还是垃圾邮件(spam),来实现自动化垃圾邮件过滤,是一种典型的文本分类任务。
如邮件“Had your mobile 11 months or more? U R entitled to Update to the latest colour mobiles with camera for Free! Call The Mobile Update Co FREE on 08002986030”,以上内容关于手机广告,属于垃圾邮件,因此需要被分到“spam”类。
数据集:https://download.csdn.net/download/qq_38735017/87065565
运行环境:在Python3.6.5环境下测试了本教程代码。需要的第三方模块和版本包括:
pandas == 0.23.0
matplotlib == 2.2.2
scikit-learn == 0.19.1
nltk == 3.3.0
可以使用pip命令安装上述模块并指定版本,pip install tqdm==
上一篇:RabbitMQ初步到精通-第四章-RabbitMQ工作模式-Routing
下一篇:【TFS-CLUB社区 第6期赠书活动】〖uni-app跨平台开发与应用从入门到实践〗等你来拿,参与评论,即可有机获得