如何玩转网络安全下的深度学习？最全的学习资料清单看这里

leanote 发布于2019-04-25 18:07 / 2865人阅读

摘要：近日，外媒刊登了一篇机器学习与网络安全相关的资料大汇总，文中列出了相关数据源的获取途径，优秀的论文和书籍，以及丰富的教程。这个视频介绍了如何将机器学习应用于网络安全探测，时长约小时。

近日，外媒 KDnuggets 刊登了一篇机器学习与网络安全相关的资料大汇总，文中列出了相关数据源的获取途径，优秀的论文和书籍，以及丰富的教程。大部分都是作者在日常工作和学习中亲自使用并认为值得安利的纯干货。

数据源

SecRepo.com 网站，该网站汇聚了大量的与机器学习和网络安全相关的数据源，并提供免费下载。据网站首页介绍，所有可用的数据源包含两个部分：一是网站方面自己整理的，二是来自第三方的。其内容包括互联网扫描数据，恶意软件源码，以及和网络安全相关的系统日志等。

论文

1. Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks

本文来自卡内基梅隆大学，分析了通用符号密码的脆弱性，以及目前常见的密码健壮性检验的各种缺点，甚至给出了他们在实验室利用神经网络算法攻破各种符号密码的具体步骤，非常强大。

2. Outside the Closed World: On Using Machine Learning for Network Intrusion Detection

本文来自加州伯克利大学，分析了利用机器学习探测网络安全的优势和劣势，并给出了一些改善这些劣势的解决方案。

3. Anomalous Payload-Based Network Intrusion Detection

通常一个互联网上的恶意请求都会在真正的恶意代码外部包装一层善意的外衣，这大大阻碍了相关探测程序的正常工作。来自哥伦比亚大学的Ke Wang和Salvatore J. Stolfo两位学者在本文中给出了一种全新的探测恶意代码中有效代码段的方法，并在实测中达到了接近100%正确率和0.1%的误报率。

4. Malicious PDF detection using metadata and structural features

当前，随着防范措施的升级，恶意代码隐藏在PDF和Word等文本文件中的例子屡见不鲜，用户防不胜防。在本文中，来自乔治梅森大学的学者介绍了一种通过机器学习技术探测恶意文本文件的技术，特别是内含恶意代码的PDF文件。

5. Adversarial support vector machine learning

来自德州大学，介绍了两种利用机器学习技术探测网络恶意攻击的分析模型，即无边界攻击模型（free-range attack model）和限制边界攻击模型（restrained attack model）。

6. Exploiting machine learning to subvert your spam filter

垃圾邮件过滤系统不算什么高新技术，但如何提升过滤的准确性一直是一个难题。本文中来自加州伯克利大学的学者们介绍了一种基于机器学习开发的垃圾邮件过滤器，为垃圾邮件的过滤提供了一种全新的实现思路。

以下论文来自 covert.io 网站，该网站的论文（或博客）数量庞大，但并不像上文提到的那些论文一样全部来自美国高校，covert.io 的文章也来自各大科技公司和研究所。

7. CAMP: Content-Agnostic Malware Protection

来自谷歌，介绍了一种名为CAMP的恶意软件保护系统，该系统能够通过对二进制可执行文件的探测，确保互联网的软件应用安全。

8. Building a Dynamic Reputation System for DNS

DNS服务器一直是互联网中非常重要的组成部分，针对目前越来越流行的DNS攻击，来自乔治亚理工学院的学者介绍了一种名为Notos的动态的域名信誉系统，可以有效防范各种针对DNS服务器的匿名的网络黑客攻击。

9. Detecting malware domains at the upper dns hierarchy

本文介绍了一种名为Kopis的新型域名检测系统，可以有效探测互联网上包含恶意攻击代码的域名，由网络安全公司Damballa、乔治亚理工学院和乔治亚大学联合研发。

10. From Throw-away Traffic To Bots – Detecting The Rise Of DGA-based Malware

本文同样来自Damballa公司和乔治亚大学，介绍了一种针对僵尸网络的新技术，该技术够探测来自动态域名系统的恶意攻击，整合了聚合和分类两类算法。

11. EXPOSURE: Finding Malicious Domains Using Passive DNS Analysis

DNS服务器成为了越来越多黑客的攻击对象，本文介绍了一种名为EXPOSURE的域名分析系统，可以针对大批量的域名恶意访问进行探测，由Eurecom研究所、波士顿东北大学和加州大学共同研发。

12. Polonium: Tera-Scale Graph Mining for Malware Detection

本文来自网络安全公司Symantec、卡内基梅隆大学，介绍了一个名为Polonium的高效的可扩展的恶意软件探测系统。

13. Nazca: Detecting Malware Distribution in Large-Scale Networks

大量用户在现实生活中下载并安装恶意软件的行为通常包含一定的规律性。来自加州大学圣巴巴拉分校、Narus公司的学者们将这些无人问津的数据利用起来，提出了一个名为Nazca的网络安全探测系统。

14. Anagram: A Content Anomaly Detector Resistant to Mimicry Attack

来自哥伦比亚大学，介绍了一个名为Anagram的异常数据报文探测器。

书籍

讲述数据科学和机器学习在网络安全领域的应用的书籍并不多，作者只介绍了以下两本。

1. Data Mining and Machine Learning in Cybersecurity

作者是来自路易斯安那理工大学的Sumeet Dua博士和Xian Du博士，探讨了目前普遍存在的网络安全问题以及较先进的机器学习和数据挖掘解决方案。

2. Machine Learning and Data Mining for Computer Security

编者是来自乔治城大学的Marcus A. Maloof，该书系统介绍了数据挖掘和机器学习技术在计算机安全领域的研究成果。

雷锋网注：目前两本书都没有中文版，纸质版在亚马逊上的售价都超过1000人民币，第一本有Kindle电子版。

演讲

原文作者收集了如下一些关于机器学习和网络安全的演讲，演讲者们要么是来自相关领域的公司副总、技术负责人，要么是各大高校的研究人员、博士或者教授。（雷锋网注：国内访问需要科学上网。）

1. Using Machine Learning to Support Information Security

视频系统介绍了机器学习在信息安全领域的应用，时长约1小时。

2. Defending Networks with Incomplete Information

要在限定的时间内（通常是24小时）对恶意攻击做出反应通常需要耗费巨大的人力和物力，但是如果利用机器学习的方法，首先对网络攻击进行优先级和攻击方式分类，甚至处理一些简单的套路式的攻击，则可以大大降低网络安全工程师的工作强度。本视频就介绍了这一思路的具体应用，时长约47分钟。

3. Applying Machine Learning to Network Security Monitoring

这个视频介绍了如何将机器学习应用于网络安全探测，时长约1小时。

4. Measuring the IQ of your Threat Intelligence Feed

目前互联网上存在着各种各样的网络安全的探测系统，但是用户对它们褒贬不一，究竟如何判断一个探测系统的可靠性，视频介绍了一种实用的判断方法，时长约40分钟。

5. Data-Driven Threat Intelligence: Metrics On Indicator Dissemination And Sharing

视频介绍了数据驱动下的安全情报分析，特别是和社交网络分享和传播相关的，时长约48分钟。

6. Applied Machine Learning for Data Exfil and Other Fun Topics

为了帮助网络安全相关的研究者、分析师和极客爱好者了解机器学习，以及如何将机器学习应用在网络安全中领域中，例如数据泄露，本视频做了详细介绍，时长约43分钟。

7. Secure Because Math: A Deep-Dive on ML-Based Monitoring

视频介绍了以机器学习技术为基础的互联网监控，时长约46分钟。

8. Machine Duping 101: Pwning Deep Learning Systems

44分钟教你攻克一个深度学习系统，必看系列。

9. Weaponizing Data Science for Social Engineering

视频介绍了社交网络中的恶意攻击行为和数据科学对此可能发挥的作用，时长约44分钟。

10. Defeating Machine Learning What Your Security Vendor Is Not Telling You

还是关于攻破机器学习的话题，视频介绍了如何攻破以机器学习为基础的互联网安全产品，时长约50分钟。

11. CrowdSource: Crowd Trained Machine Learning Model for Malware Capability Det

视频介绍了如何利用机器学习模型来探测互联网安全，时长约28分钟。

12. Defeating Machine Learning: Systemic Deficiencies for Detecting Malware

系统的“缺陷”也能用来探测恶意软件？这个视频用45分钟为你详细讲解利用机器学习和系统“缺陷”来探测恶意软件的方法。

13. Packet Capture Village – Theodora Titonis – How Machine Learning Finds Malware

视频介绍了如何利用机器学习探测移动端恶意软件，时长约44分钟。

14. Build an Antivirus in 5 Min – Fresh Machine Learning

视频用5分钟介绍了如何用互联网上开源的机器学习框架编写一个全新的防病毒程序。

15. Hunting for Malware with Machine Learning

视频介绍了针对企业用户的自动化恶意软件探测系统，时长约48分钟。

项目和教程

1. Click Security Data Hacking Project

该项目包含了一系列与IPython、Pandas、Scikit Learn相关的练习，包含笔记和原代码，每个练习都会故意设置一些常见的代码错误、数据库错误和逻辑错误供使用者改正。该系列教程几乎是机器学习在信息安全领域应用的必学教程。

2. Using Neural Networks to generate human readable passwords

链接中是一位大神自己编写的一个基于Keras框架和python语言的密码生成器，利用了深度神经网络原理，在保证密码安全性的同时也保证了易读性。该项目的代码已经在Github上开源，可以结合上文提到的论文《Fast, Lean, and Accurate: Modeling Password Guessability Using Neural Networks》一起学习。

3. Machine Learning based Password Strength Classification

该项目关于用机器学习算法判断一个已知密码的健壮性，代码已经在Github上开源。

4. Using Machine Learning to Detect Malicious URLs

该项目关于如何利用机器学习探测恶意的互联网链接地址，据称可以达到98%的正确率。

5. Big Data and Data Science for Security and Fraud Detection

这是一篇综述文章，文中介绍了多个国家/地区/大公司正在使用或研发的大数据分析工具和技术，这些技术结合了文本挖掘、机器学习或者网络分析，能够在早期阶段对网络安全威胁进行检测和预防。

6. Using deep learning to break a Captcha system

这是一篇博客文章，介绍了如何利用深度学习技术破解烦人的验证码系统，作者在文中给出了部分关键功能模块的源代码，并且在文末还给出了许多参考链接。

7. Data Mining for Cyber Security

这是斯坦福大学开设的一个系列公开课，关于数据挖掘在互联网安全中的应用。在链接中可以直接看到课程安排，下载到讲师演讲的文本记录、PPT，查看课后作业的题目和此前同学上传的答案，以及课后的深入阅读列表。这一课程可能是数据科学目前在网络安全领域已经公开的较好的课程之一。

其他

1. System predicts 85 percent of cyber-attacks using input from human experts

这是一篇研究成果介绍的文章，介绍了来自MIT计算机科学与人工智能实验室（CSAIL）和一家机器学习初创公司PatternEx的研究成果：一个名为AI2的人工智能平台，能够根据人类网络安全专家输入的数据，对当前网络可能遭到的安全威胁做出预测，正确率高达85%，超越了目前已知的其他同类预测系统。文中通过文字和视频的方式讲解了这一预测系统的基本工作原理。

2. MLSec

这是一个开源项目相关的网站，该网站聚合了一系列将机器学习技术应用于网络安全领域的开源项目，同时还开设了博客文章和社区讨论频道，帮助开发者对这些项目深入理解。

3. An Introduction to Machine Learning for Cybersecurity and Threat Hunting

这是一篇深度文章，通过与几位数据科学大牛访谈的形式，详细介绍了机器学习和网络安全的关系以及相关应用。

以上只是这位外国大牛的总结，如果你手里也有一些值得安利的干货和资源，不妨在文末留言分享出来吧！

附原文作者简介：Faizan Ahmad，Fulbright 计划大学生，目前在巴基斯坦国立计算机与新兴科学大学（National University of Computer and Emerging Sciences）学习，同时在巴基斯坦的拉合尔管理科学大学（Lahore University of Management Sciences）担任研究助理，主攻计算机和网络安全研究方向。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

云服务器 GPU云服务器深度学习看什么深度学习看这一篇深度学习中的网络深度学习如何学习

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4445.html

从小白程序员一路晋升为大厂高级技术专家我看过哪些书籍？（建议收藏）

摘要：大家好，我是冰河有句话叫做投资啥都不如投资自己的回报率高。马上就十一国庆假期了，给小伙伴们分享下，从小白程序员到大厂高级技术专家我看过哪些技术类书籍。大家好，我是...

sf_wangchong 2021-09-29 09:35 评论0 收藏0
机器学习

摘要：用离散信一文清晰讲解机器学习中梯度下降算法包括其变式算法无论是要解决现实生活中的难题，还是要创建一款新的软件产品，我们最终的目标都是使其达到最优状态。提高驾驶技术：用GAN去除(爱情)动作片中的马赛克和衣服作为一名久经片场的老司机，早就想写一些探讨驾驶技术的文章。这篇就介绍利用生成式对抗网络（GAN）的两个基本驾驶技能： 1) 去除(爱情)动作片中的马赛克 2) 给(爱情)动作片中...

wums 2019-06-26 18:19 评论0 收藏0
正则表达式

摘要：最全正则表达式总结验证号手机号中文邮编身份证地址等是正则表达式的缩写，作用是对字符串执行模式匹配。学习目标了解正则表达式语法在中使用正则表达式在中使 JS高级技巧本篇是看的《JS高级程序设计》第23章《高级技巧》做的读书分享。本篇按照书里的思路根据自己的理解和经验，进行扩展延伸，同时指出书里的一些问题。将会讨论安全的类型检测、惰性载入函数、冻结对象、定时器等话题。1. 安全的类型检测...

yibinnn 2019-08-21 17:57 评论0 收藏0
分享AI有道干货 | 126 篇 AI 原创文章精选（ML、DL、资源、教程）

摘要：值得一提的是每篇文章都是我用心整理的，编者一贯坚持使用通俗形象的语言给我的读者朋友们讲解机器学习深度学习的各个知识点。今天，红色石头特此将以前所有的原创文章整理出来，组成一个比较合理完整的机器学习深度学习的学习路线图，希望能够帮助到大家。一年多来，公众号【AI有道】已经发布了 140+ 的原创文章了。内容涉及林轩田机器学习课程笔记、吴恩达 deeplearning.ai 课程笔记、机...

jimhs 2019-06-26 18:57 评论0 收藏0