资讯专栏INFORMATION COLUMN

Tornado数据分析及数据可视化(一)

Simon / 3621人阅读

摘要:仅值班时间及前后半个小时内打卡有效。上班下班均须打卡,缺打卡则视为未值班。分析表格我的指纹考勤机可以一次导出最多一个月的打卡记录。有一个问题是,这一个月可能横跨两个月,也可能横跨一年。分析当月当年的考勤记录同理,不过可能稍微复杂一些。

前面的话

今天公司突然有个紧急任务是读取excel表格,然后清洗并展示里面的数据。
分配给我的任务是!!!

写网页前端表单=。=

妈蛋,可是我很想分析一下数据啊!!!

然后突然想起来协会(大学的社团)的指纹考勤机一直没怎么用好,要不就把打卡数据拷出来分析吧!!做成每天、每周、每月、每年的考勤记录分析!!!
恰好前几天上级让我学习可视化,顺带练练手。

哟西,开干!

所用拓展模块

xlrd:

</>复制代码

  1. Python语言中,读取Excel的扩展工具。可以实现指定表单、指定单元格的读取。
  2. 使用前须安装。
  3. 下载地址:https://pypi.python.org/pypi/xlrd
  4. 解压后cd到解压目录,执行 python setup.py install 即可

datetime:

</>复制代码

  1. Python内置用于操作日期时间的模块

拟实现功能模块

读xls文件并录入数据库

根据年、月、日三个参数获取当天的值班情况

饼状图(当天完成值班任务人数/当天未完成值班任务人数)

瀑布图(当天所有值班人员的值班情况)

根据年、月两个参数获取当月的值班情况

根据年参数获取当年的值班情况

值班制度

每天一共有6班:

8:00 - 9:45

9:45 - 11:20

13:30 - 15:10

15:10 - 17:00

17:00 - 18:35

19:00 - 22:00

每个人每天最多值一班。

仅值班时间及前后半个小时内打卡有效。

上班、下班均须打卡,缺打卡则视为未值班。

分析Excel表格

我的指纹考勤机可以一次导出最多一个月的打卡记录。有一个问题是,这一个月可能横跨两个月,也可能横跨一年。比如:2015年03月21日-2015年04月20日2014年12月15日-2015年01月05日。所以写处理方法的时候一定要注意这个坑。

导出的表格如图所示:

</>复制代码

  1. =。=看起来好像基本没人值班,对,就是这样。

  2. 大家都好懒T。T
  3. Sign...

简单分析一下,

考勤记录表是文件的第三个sheet

第三行有起止时间

第四行是所有日期的数字

接下来每两行:第一行为用户信息;第二行为考勤记录

思路

决定用3collection分别储存相关信息:

user:用户信息,包含idnamedept

record:考勤记录,包含id(用户id)、y(年)、m(月)、d(日)、check(打卡记录)

duty:值班安排,包含id(星期数,例:1表示星期一)、list(值班人员id列表)、user_id:["start_time","end_time"](用户值班开始时间和结束时间)

读取xls文件,将新的考勤记录新的用户存入数据库。

根据年月日参数查询对应record,查询当天的值班安排,匹配获得当天值班同学考勤记录。将值班同学的打卡时间值班时间比对,判断是否正常打卡,计算实际值班时长实际值班百分比

之后输出json格式数据,用echarts生成图表。

分析当月当年的考勤记录同理,不过可能稍微复杂一些。

</>复制代码

  1. 所有的讲解和具体思路都放在源码注释里,请继续往下看源码吧~

源码

</>复制代码

  1. main.py

</>复制代码

  1. #!/usr/bin/env python
  2. # -*- coding: utf-8 -*-
  3. import os.path
  4. import tornado.auth
  5. import tornado.escape
  6. import tornado.httpserver
  7. import tornado.ioloop
  8. import tornado.options
  9. import tornado.web
  10. from tornado.options import define, options
  11. import pymongo
  12. import time
  13. import datetime
  14. import xlrd
  15. define("port", default=8007, help="run on the given port", type=int)
  16. class Application(tornado.web.Application):
  17. def __init__(self):
  18. handlers = [
  19. (r"/", MainHandler),
  20. (r"/read", ReadHandler),
  21. (r"/day", DayHandler),
  22. ]
  23. settings = dict(
  24. template_path=os.path.join(os.path.dirname(__file__), "templates"),
  25. static_path=os.path.join(os.path.dirname(__file__), "static"),
  26. debug=True,
  27. )
  28. conn = pymongo.Connection("localhost", 27017)
  29. self.db = conn["kaoqin"]
  30. tornado.web.Application.__init__(self, handlers, **settings)
  31. class MainHandler(tornado.web.RequestHandler):
  32. def get(self):
  33. pass
  34. class ReadHandler(tornado.web.RequestHandler):
  35. def get(self):
  36. #获取collection
  37. coll_record = self.application.db.record
  38. coll_user = self.application.db.user
  39. #读取excel表格
  40. table = xlrd.open_workbook("/Users/ant/Webdev/python/excel/data.xls")
  41. #读取打卡记录sheet
  42. sheet=table.sheet_by_index(2)
  43. #读取打卡月份范围
  44. row3 = sheet.row_values(2)
  45. m1 = int(row3[2][5:7])
  46. m2 = int(row3[2][18:20])
  47. #设置当前年份
  48. y = int(row3[2][0:4])
  49. #设置当前月份为第一个月份
  50. m = m1
  51. #读取打卡日期范围
  52. row4 = sheet.row_values(3)
  53. #初始化上一天
  54. lastday = row4[0]
  55. #遍历第四行中的日期
  56. for d in row4:
  57. #如果日期小于上一个日期
  58. #说明月份增大,则修改当前月份为第二个月份
  59. if d < lastday:
  60. m = m2
  61. #如果当前两个月份分别为12月和1月
  62. #说明跨年了,所以年份 +1
  63. if m1 == 12 and m2 == 1:
  64. y = y + 1
  65. #用n计数,范围为 3 到(总行数/2+1)
  66. #(总行数/2+1)- 3 = 总用户数
  67. #即遍历所有用户
  68. for n in range(3, sheet.nrows/2+1):
  69. #取该用户的第一行,即用户信息行
  70. row_1 = sheet.row_values(n*2-2)
  71. #获取用户id
  72. u_id = row_1[2]
  73. #获取用户姓名
  74. u_name = row_1[10]
  75. #获取用户部门
  76. u_dept = row_1[20]
  77. #查询该用户
  78. user = coll_user.find_one({"id":u_id})
  79. #如果数据库中不存在该用户则创建新用户
  80. if not user:
  81. user = dict()
  82. user["id"] = u_id
  83. user["name"] = u_name
  84. user["dept"] = u_dept
  85. coll_user.insert(user)
  86. #取该用户的第二行,即考勤记录行
  87. row_2 = sheet.row_values(n*2-1)
  88. #获取改当前日期的下标
  89. idx = row4.index(d)
  90. #获取当前用户当前日期的考勤记录
  91. check_data = row_2[idx]
  92. #初始化空考勤记录列表
  93. check = list()
  94. #5个字符一组,遍历考勤记录并存入考勤记录列表
  95. for i in range(0,len(check_data)/5):
  96. check.append(check_data[i*5:i*5+5])
  97. #查询当前用户当天记录
  98. record = coll_record.find_one({"y":y, "m":m, "d":d, "id":user["id"]})
  99. #如果记录存在则更新记录
  100. if record:
  101. for item in check:
  102. #将新的考勤记录添加进之前的记录
  103. if item not in record["check"]:
  104. record["check"].append(item)
  105. coll_record.save(record)
  106. #如果记录不存在则插入新纪录
  107. else:
  108. record = {"y":y, "m":m, "d":d, "id":user["id"], "check":check}
  109. coll_record.insert(record)
  110. class DayHandler(tornado.web.RequestHandler):
  111. def get(self):
  112. #获取年月日参数
  113. y = self.get_argument("y",None)
  114. m = self.get_argument("m",None)
  115. d = self.get_argument("d",None)
  116. #判断参数是否设置齐全
  117. if y and m and d:
  118. #将参数转换为整型数,方便使用
  119. y = int(y)
  120. m = int(m)
  121. d = int(d)
  122. #获取当天所有记录
  123. coll_record = self.application.db.record
  124. record = coll_record.find({"y":y, "m":m, "d":d})
  125. #获取当天为星期几
  126. weekday = datetime.datetime(y,m,d).strftime("%w")
  127. #获取当天值班表
  128. coll_duty = self.application.db.duty
  129. duty = coll_duty.find_one({"id":int(weekday)})
  130. #初始化空目标记录(当天值班人员记录)
  131. target = list()
  132. #遍历当天所有记录
  133. for item in record:
  134. #当该记录的用户当天有值班任务时,计算并存入target数组
  135. if int(item["id"]) in duty["list"]:
  136. #通过用户id获取该用户值班起止时间
  137. start = duty[item["id"]][0]
  138. end = duty[item["id"]][1]
  139. #计算值班时长/秒
  140. date1 = datetime.datetime(y,m,d,int(start[:2]),int(start[-2:]))
  141. date2 = datetime.datetime(y,m,d,int(end[:2]),int(end[-2:]))
  142. item["length"] = (date2 - date1).seconds
  143. #初始化实际值班百分比
  144. item["per"] = 0
  145. #初始化上下班打卡时间
  146. item["start"] = 0
  147. item["end"] = 0
  148. #遍历该用户打卡记录
  149. for t in item["check"]:
  150. #当比值班时间来得早
  151. if t < start:
  152. #计算时间差
  153. date1 = datetime.datetime(y,m,d,int(start[:2]),int(start[-2:]))
  154. date2 = datetime.datetime(y,m,d,int(t[:2]),int(t[-2:]))
  155. dif = (date1 - date2).seconds
  156. #当打卡时间在值班时间前半小时内
  157. if dif <= 1800:
  158. #上班打卡成功
  159. item["start"] = start
  160. elif t < end:
  161. #如果还没上班打卡
  162. if not item["start"]:
  163. #则记录当前时间为上班打卡时间
  164. item["start"] = t
  165. else:
  166. #否则记录当前时间为下班打卡时间
  167. item["end"] = t
  168. else:
  169. #如果已经上班打卡
  170. if item["start"]:
  171. #计算时间差
  172. date1 = datetime.datetime(y,m,d,int(end[:2]),int(end[-2:]))
  173. date2 = datetime.datetime(y,m,d,int(t[:2]),int(t[-2:]))
  174. dif = (date1 - date2).seconds
  175. #当打卡时间在值班时间后半小时内
  176. if dif <= 1800:
  177. #下班打卡成功
  178. item["end"] = end
  179. #当上班下班均打卡
  180. if item["start"] and item["end"]:
  181. #计算实际值班时长
  182. date1 = datetime.datetime(y,m,d,int(item["start"][:2]),int(item["start"][-2:]))
  183. date2 = datetime.datetime(y,m,d,int(item["end"][:2]),int(item["end"][-2:]))
  184. dif = (date2 - date1).seconds
  185. #计算(实际值班时长/值班时长)百分比
  186. item["per"] = int(dif/float(item["length"]) * 100)
  187. else:
  188. #未正常上下班则视为未值班
  189. item["start"] = 0
  190. item["end"] = 0
  191. #将记录添加到target数组中
  192. target.append(item)
  193. #输出数据
  194. self.render("index.html",
  195. target = target
  196. )
  197. def main():
  198. tornado.options.parse_command_line()
  199. http_server = tornado.httpserver.HTTPServer(Application())
  200. http_server.listen(options.port)
  201. tornado.ioloop.IOLoop.instance().start()
  202. if __name__ == "__main__":
  203. main()

</>复制代码

  1. index.html

</>复制代码

  1. {
  2. {% for item in target %}
  3. {
  4. "id":{{ item["id"] }},
  5. "start":{{ item["start"] }},
  6. "end":{{ item["end"] }},
  7. "length":{{ item["length"] }},
  8. "per":{{ item["per"] }}
  9. }
  10. {% end %}
  11. }
最后

暂时只写到读文件和查询某天值班情况,之后会继续按照之前的计划把这个小应用写完的。

因为涉及到一堆小伙伴的隐私,所以没有把测试文件发上来。不过如果有想实际运行看看的同学可以跟我说,我把文件发给你。

可能用到的一条数据库插入语句:db.duty.insert({"id":5,"list":[1,2],1:["19:00","22:00"],2:["19:00","22:00"]})

希望对像我一样的beginner们有帮助!

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/37507.html

相关文章

  • 自制简单的诗歌搜索系统

    摘要:项目简介本文将介绍一个笔者自己的项目自制简单的诗歌搜索系统。该项目使用的模块为其中,模块和模块用来制作爬虫,爬取网上的诗歌。 项目简介   本文将介绍一个笔者自己的项目:自制简单的诗歌搜索系统。该系统主要的实现功能如下:指定一个关键词,检索出包含这个关键词的诗歌,比如关键词为白云,则检索出的诗歌可以为王维的《送别》,内容为下马饮君酒,问君何所之?君言不得意,归卧南山陲。但去莫复问,白云...

    SegmentFault 评论0 收藏0
  • Python:Tornado章:异步协程基础:第节:同步与异步I/O

    摘要:上一篇文章开篇下一篇文章第一章异步及协程基础第二节关键字协程是种推荐的编程方式,使用协程可以开发出简捷高效的异步处理代码。同步操作,导致进程阻塞,直到操作完成异步操作,不会导致请求进程阻塞。 上一篇文章:Python:Tornado 开篇下一篇文章:Python:Tornado 第一章:异步及协程基础:第二节:Python关键字yield 协程是Tornado种推荐的编程方式,使用协...

    Anleb 评论0 收藏0
  • SegmentFault 技术周刊 Vol.30 - 学习 Python 来做些神奇好玩的事情吧

    摘要:学习笔记七数学形态学关注的是图像中的形状,它提供了一些方法用于检测形状和改变形状。学习笔记十一尺度不变特征变换,简称是图像局部特征提取的现代方法基于区域图像块的分析。本文的目的是简明扼要地说明的编码机制,并给出一些建议。 showImg(https://segmentfault.com/img/bVRJbz?w=900&h=385); 前言 开始之前,我们先来看这样一个提问: pyth...

    lifesimple 评论0 收藏0
  • tornado配合celeryrabbitmq实现web request异步非阻塞

    摘要:主要是为了实现系统之间的双向解耦而实现的。问题及优化队列过长问题使用上述方案的异步非阻塞可能会依赖于的任务队列长度,若队列中的任务过多,则可能导致长时间等待,降低效率。 Tornado和Celery介绍 1.Tornado Tornado是一个用python编写的一个强大的、可扩展的异步HTTP服务器,同时也是一个web开发框架。tornado是一个非阻塞式web服务器,其速度相当快。...

    番茄西红柿 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<