资讯专栏INFORMATION COLUMN

邮件信息抽取

codercao / 2944人阅读

摘要:公司的一个项目,首先需要过滤一下邮件邮件的主要内容就是应聘信息当然会产生很多的垃圾邮件,比如智联招聘发的广告猎头邮件和网易广告等这里首先要过滤一下邮件,把没有用处的垃圾邮件过滤掉本着先易后难的原则,首先使用简单的过滤方法简单的说就是根据标题

公司的一个项目,首先需要过滤一下邮件
邮件的主要内容就是应聘信息
当然会产生很多的垃圾邮件,比如智联招聘发的广告、猎头邮件和网易广告等
这里首先要过滤一下邮件,把没有用处的垃圾邮件过滤掉

本着先易后难的原则,首先使用简单的过滤方法
简单的说就是根据标题中的关键词,发件人邮箱来过滤邮件
这样的过滤方法其实过滤的准确性还是挺高的

当然啦,准确率和召回率可能还是要差一点的

经过初步过滤之后,接下来要做的就是信息的抽取

这个东西难度较大,
抽取的东西有地址、人名、公司名、职位、联系方式等
机器识别毕竟无法达到人类的高度

本次开发中主要使用python来做,这里写一下python项目需要注意的问题

1、不要滥用try ... except .....

 感觉这个问题很严重,如果滥用,而且还没处理好的话,出了问题根   
 本就无法调试,返回错误如果不对的话根本就无法追踪

2、要注意编码问题

 在使用python处理中文的时候,编码问题是格外重要,不过python的
 编码还是比较简单,我遇到的有gbk、gb18030、gb2312、utf8这几
 种使用的时候统一转为utf8比较方便

3、时间的处理

 这个还是比较麻烦的,邮件中的时间都是字符串类型,关键是要知道
 怎么去转化,例如:
 Wed, 2 Mar 2016 14:31:24 +0800 (CST)
 这里面的Wed, 2 Mar 2016 14:31:24部分,可以通过以下方式来做
 time.strptime("Wed, 2 Mar 2016 14:31:24", "%a,%d %b %Y %H:%M:%S")
 这样也能生成一个time的对象
 缺点就是需要截取一部分,而且不知道时间格式是否会变化,如果变化的话那也是要出问题的
 
 这里面email模块提供了一个解析的方法
 from email import utils
 utils.mktime_tz(utils.parsedate_tz(timestr))
 这样返回的是时间戳,然后再用
 time.localtime(stamptime)
 就可以返回正常的时间格式了
 其实email的utils方法提供了很多的解析邮件的方法,比如:
 utils.parseaddr()就可以把msg.get("From")里面的内容解析成邮箱 

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37784.html

相关文章

  • 邀好友赢大奖!快来抽取你的 2019 新年上上签!

    摘要:为保证活动的公平公正,对任何恶意刷量的行为,七牛云有停止发放抽奖机会及收回奖励资源的权利。邀好友,抽好签,赢好礼进入七牛云官网立即参与牛小七提前祝大家年,新年快乐 还有不到一个星期,2019 年就将正式「官宣」。值此之际,七牛云特别推出【好运+好礼】新年上上签活动~不仅有好运好彩头,还有超多惊喜好礼等你拿。天猫购物卡、七牛云产品优惠包、樱桃机械键盘、终极大奖 iPhone Xs 256...

    dailybird 评论0 收藏0
  • CodeIgniter框架中抽取部分类库做问题追踪的思路

    摘要:背景由于各种原因,没有接入完整的调用链追踪,。显然,有基本的操作。抽取整个对象的所有对象实例队列中的结果不足框架中不可避免的使用了操作,或者其他业务代码中也使用。这样导致钩子函数无法正常完成他的使用。 背景 由于各种原因,没有接入完整的调用链追踪,(┬_┬)。但是我们自身再通过php的curl调用各端接口时,会请求多次。那么有没有一种方法可以在不植入业务代码的前提下,捕捉到这些curl...

    沈俭 评论0 收藏0
  • thinkphp5+swoole实现异步邮件群发(SMTP方式)

    摘要:图中其他两个文件和是邮件发送类的核心文件,为了简化调用,抽取了出来,详细的用法和参数设置,可以参考的使用说明注意点在此步骤中,我们需要注意几点是你设置的邮件发送的账号是否已经开启并且找对对应的安全协议和端口号。 1、环境说明 阿里云centos7thinkphp5.0.11swoole2.0.8 2、tp实现邮件发送 在项目下建立如下的文件目录:showImg(https://segm...

    tuniutech 评论0 收藏0
  • scrapy 进阶使用

    摘要:下载器负责获取页面,然后将它们交给引擎来处理。内置了一些下载器中间件,这些中间件将在后面介绍。下载器中间件下载器中间件可以在引擎和爬虫之间操纵请求和响应对象。爬虫中间件与下载器中间件类似,启用爬虫中间件需要一个字典来配置。 前段时间我写了一篇《scrapy快速入门》,简单介绍了一点scrapy的知识。最近我的搬瓦工让墙了,而且我又学了一点mongodb的知识,所以这次就来介绍一些scr...

    The question 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<