功能式Python中的探索性数据分析

phodal 发布于2019-07-30 16:35 / 1324人阅读

摘要：在中运行不同的实验似乎比试图在中进行这种探索性的操作更有效。理论上，我们可以在中做很多的探索。我们如何继续第一步是获取格式的原始数据。这些列将包含来自使用该代理键的一个请求的一行数据。这是重构的另一部分。数据的最终显示保持完全分离。

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~

这里有一些技巧来处理日志文件提取。假设我们正在查看一些Enterprise Splunk提取。我们可以用Splunk来探索数据。或者我们可以得到一个简单的提取并在Python中摆弄这些数据。

在Python中运行不同的实验似乎比试图在Splunk中进行这种探索性的操作更有效。主要是因为我们可以无所限制地对数据做任何事。我们可以在一个地方创建非常复杂的统计模型。

理论上，我们可以在Splunk中做很多的探索。它有各种报告和分析功能。

但是，使用Splunk需要假设我们知道我们正在寻找什么。在很多情况下，我们不知道我们在寻找什么：我们正在探索。可能会有一些迹象表明，一些RESTful API处理速度很慢，但还不止于此。我们如何继续？

第一步是获取CSV格式的原始数据。怎么办？

读取原始数据

我们将首先用一些附加函数来包装一个CSV.DictReader对象。

面向对象的纯粹主义者会反对这个策略。 “为什么不扩展DictReader？”他们问。我没有一个很好的答案。我倾向于函数式编程和组件的正交性。对于一个纯粹的面向对象的方法，我们不得不使用更复杂的混合来实现这一点。

我们处理日志的一般框架是这样的。

with open("somefile.csv") as source:
rdr = csv.DictReader(source)

这使我们可以读取CSV格式的Splunk提取物。我们可以迭代阅读器中的行。这是诀窍＃1。这不是非常棘手，但我喜欢它。

with open("somefile.csv") as source:
    rdr = csv.DictReader(source)
    for row in rdr:
        print( "{host} {ResponseTime} {source}{Service}".format_map(row) )

我们可以 - 在一定程度上 - 以有用的格式报告原始数据。如果我们想粉饰一下输出，我们可以改变格式字符串。那就可能是“{主机：30s} {回复时间：8s} {来源：s}”或类似的东西。

过滤

常见的情况是我们提取了太多，但其实只需要看一个子集。我们可以更改Splunk过滤器，但是，在完成我们的探索之前，过量使用过滤器令人讨厌。在Python中过滤要容易得多。一旦我们了解到需要什么，就可以在Splunk中完成。

with open("somefile.csv") as source:
    rdr = csv.DictReader(source)
    rdr_perf_log = (row for row in rdr if row["source"] == "perf_log")
    for row in rdr_perf_log:
        print( "{host} {ResponseTime} {Service}".format_map(row) )

我们已经加入了一个生成器表达式来过滤源行，能够处理一个有意义的子集。

投影

在某些情况下，我们会添加额外的源数据列，这些列我们并不想使用。所以将通过对每一行进行投影来消除这些数据。

原则上，Splunk从不产生空列。但是，RESTful API日志可能会导致数据集中包含大量列标题，这些列标题是基于请求URI一部分的代理键。这些列将包含来自使用该代理键的一个请求的一行数据。对于其他行，在这一列中没有任何用处。所以要删除这些空列。

我们也可以用一个生成器表达式来做到这一点，但是它会变得有点长。生成器函数更容易阅读。

def project(reader):
    for row in reader:
        yield {k:v for k,v in row.items() if v}

我们已经从原始阅读器中的一部分项目构建了一个新的行字典。我们可以使用它来包装我们的过滤器的输出。

with open("somefile.csv") as source:
    rdr = csv.DictReader(source)
    rdr_perf_log = (row for row in rdr if row["source"] == "perf_log")
    for row in project(rdr_perf_log):
        print( "{host} {ResponseTime} {Service}".format_map(row) )

这将减少在for语句内部可见的未使用的列。

符号更改

row["source"]符号会变得比较笨重。使用types.SimpleNamespace比用字典更好。这使得我们可以使用row.source。

这是一个很酷的技巧来创造更有用的东西。

rdr_ns= (types.SimpleNamespace(**row) forrowinreader)

我们可以将其折叠成这样的步骤序列。

with open("somefile.csv") as source:
    rdr = csv.DictReader(source)
    rdr_perf_log = (row for row in rdr if row["source"] == "perf_log")
    rdr_proj = project(rdr_perf_log)
    rdr_ns = (types.SimpleNamespace(**row) for row in rdr_proj)
    for row in rdr_ns:
        print( "{host} {ResponseTime} {Service}".format_map(vars(row)) )

请注意我们对format_map（）方法的小改动。从SimpleNamespace的属性中，我们添加了vars（）函数来提取字典。

我们可以用其他函数把它写成一个函数来保留句法对称性。

def ns_reader(reader):
    return (types.SimpleNamespace(**row) for row in reader)

的确，我们可以把它写成一个像函数一样使用的lambda结构

ns_reader = lambda reader: (types.SimpleNamespace(**row) for row in reader)

虽然ns_reader（）函数和ns_reader（）lambda的使用方式相同，但为lambda编写文档字符串和doctest单元测试稍微困难一些。出于这个原因，应该避免使用lambda结构。

我们可以使用map（lambda row：types.SimpleNamespace（** row），reader）。有些人喜欢这个发生器表达式。

我们可以用一个适当的for语句和一个内部的yield语句，但是从一个小的东西里写大的语句似乎没有什么好处。

我们有很多选择，因为Python提供了如此多的函数式编程功能。虽然我们不会经常把Python视作一种功能性语言。但我们有多种方法来处理简单的映射。

映射：转换和派生数据

我们经常会有一个非常明显的数据转换列表。此外，我们将有一个衍生的数据项目越来越多的列表。衍生项目将是动态的，并基于我们正在测试的不同假设。每当我们有一个实验或问题，我们可能会改变派生的数据。

这些步骤中的每一个：过滤，投影，转换和派生都是map-reduce管道的“map”部分的阶段。我们可以创建一些较小的函数，并将其应用于map（）。因为我们正在更新一个有状态的对象，所以我们不能使用一般的map（）函数。如果我们想实现一个更纯粹的函数式编程风格，我们将使用一个不可变的namedtuple而不是一个可变的SimpleNamespace。

def convert(reader):
    for row in reader:
        row._time = datetime.datetime.strptime(row.Time, "%Y-%m-%dT%H:%M:%S.%F%Z")
        row.response_time = float(row.ResponseTime)
        yield row

在我们探索的过程中，我们将调整这个转换函数的主体。也许我们将从一些最小的转换和派生开始。我们将用一些“这些是正确的？”的问题来继续探索。当我们发现不工作时，我们会从中取出一些。

我们的整体处理过程如下所示：

with open("somefile.csv") as source:
    rdr = csv.DictReader(source)
    rdr_perf_log = (row for row in rdr if row["source"] == "perf_log")
    rdr_proj = project(rdr_perf_log)
    rdr_ns = (types.SimpleNamespace(**row) for row in rdr_proj)
    rdr_converted = convert(rdr_ns)
    for row in rdr_converted:
        row.start_time = row._time - datetime.timedelta(seconds=row.response_time)
        row.service = some_mapping(row.Service)
        print( "{host:30s} {start_time:%H:%M:%S} {response_time:6.3f} {service}".format_map(vars(row)) )

请注意语句主体的变化。convert（）函数产生我们确定的值。我们已经在for循环中添加了一些额外的变量，我们不能100％确定。在更新convert（）函数之前，我们会看看它们是否有用（甚至是正确的）。

减量

在减量方面，我们可以采取稍微不同的加工方式。我们需要重构我们之前的例子，并把它变成一个生成器函数。

def converted_log(some_file):
    with open(some_file) as source:
        rdr = csv.DictReader(source)
        rdr_perf_log = (row for row in rdr if row["source"] == "perf_log")
        rdr_proj = project(rdr_perf_log)
        rdr_ns = (types.SimpleNamespace(**row) for row in rdr_proj)
        rdr_converted = convert(rdr_ns)
        for row in rdr_converted:
            row.start_time = row._time - datetime.timedelta(seconds=row.response_time)
            row.service = some_mapping(row.Service)
            yield row

接着用一个yield代替了print（）。

这是重构的另一部分。

for row in converted_log("somefile.csv"):
    print( "{host:30s} {start_time:%H:%M:%S} {response_time:6.3f} {service}".format_map(vars(row)) )

理想情况下，我们所有的编程都是这样的。我们使用生成器函数来生成数据。数据的最终显示保持完全分离。这使我们可以更自由地重构和改变处理。

现在我们可以做一些事情，例如将行收集到Counter（）对象中，或者可能计算一些统计信息。我们可以使用defaultdict（list）按服务对行进行分组。

by_service= defaultdict(list)
for row in converted_log("somefile.csv"):
    by_service[row.service] = row.response_time
for svc in sorted(by_service):
    m = statistics.mean( by_service[svc] )
    print( "{svc:15s} {m:.2f}".format_map(vars()) )

我们决定在这里创建具体的列表对象。我们可以使用itertools按服务分组响应时间。它看起来像是正确的函数式编程，但是这种实施在Pythonic函数式编程形式中指出了一些限制。要么我们必须对数据进行排序（创建列表对象），要么在分组数据时创建列表。为了做好几个不同的统计，通过创建具体的列表来分组数据通常更容易。

我们现在正在做两件事情，而不是简单地打印行对象。

创建一些局部变量，如svc和m。我们可以很容易地添加变化或其他措施。

使用没有参数的vars（）函数，它会从局部变量中创建一个字典。

这个使用vars（）而没有参数的行为就像locals（）一样是一个方便的技巧。它允许我们简单地创建我们想要的任何局部变量，并将它们包含在格式化输出中。我们可以侵入我们认为可能相关的各种统计方法中。

既然我们的基本处理循环是针对converted_log（“somefile.csv”）中的行，我们可以通过一个小小的，易于修改的脚本探索很多处理选择。我们可以探索一些假设来确定为什么某些RESTful API处理速度慢，而其他处理速度则很快。

问答 
如何在Python中分析内存使用情况？
相关阅读
基于Python实现的微信好友数据分析
Python数据分析和数据挖掘学习路线图
一文入门Python数据分析库Pandas

此文已由作者授权腾讯云+社区发布，原文链接：https://cloud.tencent.com/dev...

云服务器 GPU云服务器 python数据探索版中的新增功能探索性数据分析探索性空间数据分析

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/41749.html

8步从Python白板到专家，从基础到深度学习

摘要：去吧，参加一个在上正在举办的实时比赛吧试试你所学到的全部知识微软雅黑深度学习终于看到这个，兴奋吧现在，你已经学到了绝大多数关于机器学习的技术，是时候试试深度学习了。微软雅黑对于深度学习，我也是个新手，就请把这些建议当作参考吧。如果你想做一个数据科学家，或者作为一个数据科学家你想扩展自己的工具和知识库，那么，你来对地方了。这篇文章的目的，是给刚开始使用Python进行数据分析的人，指明一条全...

Zachary 2019-04-25 18:00 评论0 收藏0
蠎周刊 2015 年度最赞

摘要：蠎周刊年度最赞亲俺们又来回顾又一个伟大的年份儿包去年最受欢迎的文章和项目如果你错过了几期就这一期不会丢失最好的嗯哼还为你和你的准备了一批纪念裇从这儿获取任何时候如果想分享好物给大家在这儿提交喜欢我们收集的任何意见建议通过来吧原文 Title: 蠎周刊 2015 年度最赞Date: 2016-01-09 Tags: Weekly,Pycoder,Zh Slug: issue-198-to...

young.li 2019-07-24 18:32 评论0 收藏0
儿童节 | 让你在“我的世界”，“添码”行空

摘要：目前，京东云助力教育版落地，可提供等编程语言的学习。而这几种语言也是专门针对适龄儿童的教育而选择的，便于学生通过积木式的可视化过程进行学习。点击京东云可了解更多信息。让每一个小孩，都可以在成长过程中轻松快乐，添码行空。 showImg(https://segmentfault.com/img/bVbtxeg?w=1264&h=216); showImg(https://segmentf...

chengjianhua 2019-08-23 17:57 评论0 收藏0
[原]深入对比数据科学工具箱：Python和R 的 Web 编辑器

摘要：概述工欲善其事必先利其器，如果现在要评选数据科学中最好用的编辑器注意一定是可以通过访问的，和一定是角逐的最大热门，正确使用编辑器可以很大地提升我们的工作效率。概述 showImg(https://segmentfault.com/img/bVAdol); 工欲善其事必先利其器，如果现在要评选数据科学中最好用的Web 编辑器（注意一定是可以通过Web访问的），RStudio和Jupyt...

RobinQu 2019-07-25 10:40 评论0 收藏0