{eval=Array;=+count(Array);}
推荐的学习书单
1.《统计学习基础 数据挖掘、推理与预测》
尽管应用的是统计学方法,但强调的是概念,而不是数学。《统计学习基础:数据挖掘、推理与预测》内容广泛,从有指导的学习(预测),到无指导的学习;从神经网络、支持向量机,到分类树、提升等主题,应有尽有,许多例子还附以彩图,是同类书籍中介绍最全面的。计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。
2.《模式分类》第二版
除了保留了第1版的关于统计模式识别和结构模式识别的主要内容以外,读者将会发现新增了许多近25年来的新理论和新方法,其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等。
3.《推荐系统实践》
过大量代码和图表全面系统地阐述了和推荐系统有关的理论基础,介绍了评价推荐系统优劣的各种标准(比如覆盖率、满意度)和方法(比如AB测试),总结了当今互联网领域中各种和推荐有关的产品和服务。
4.《深入搜索引擎–海量信息的压缩、索引和查询》
理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
5.《概率论与数理统计》
这本书不用过多介绍了吧,普遍大学里大一时期的教科书,只恨当年没听课啊,现在正在慢慢啃。
6.《大数据:互联网大规模数据挖掘与分布式处理》
主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。
7.《Web数据挖掘》
信息检索领域的书籍,该书深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。《Web数据挖掘》为读者提供了坚实的技术背景和最新的知识。
8.《数据之巅》
对大数据追根溯源,提出当前信息技术的发展,已经让中国获得了后发优势,中国要在大数据时代的全球竞争中胜出,必须把大数据从科技符号提升成为文化符号,在全社会倡导数据文化。
9.《深入浅出统计学》
本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等,完整涵盖AP考试范围。
10.《矩阵分析》
本书从数学分析的角度论述矩阵分析的经典方法和现代方法,取材新,有一定的深度,并给出在多元微积分、复分析、微分方程、量优化、逼近理论中的许多重要应用。主要内容包括:特征值、特征向量和相似性,酉等价和正规矩阵,标准形,Hermite矩阵和对称矩阵,向量范数和矩阵范数,特征值和估计和扰动,正定矩阵,非负矩阵。
11.《统计学习方法》
本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。
12.《机器学习导论》
对机器学习的定义和应用实例进行了介绍,涵盖了监督学习。贝叶斯决策理论。参数方法、多元方法、维度归约、聚类、非参数方法、决策树。线性判别式、多层感知器,局部模型、隐马尔可夫模型。分类算法评估和比较,组合多学习器以及增强学习等。
《机器学习及其应用》:全书共分14章,内容涉及因果推断、流形学习与降维、迁移学习、类别不平衡学习、演化聚类、多标记学习、排序学习、半监督学习等技术和协同过滤、社区推荐、机器翻译等应用,以及互联网应用对机。
谢谢邀请!
大数据的基础学科有三个,分别是数学、统计学和计算机学,所以学习大数据首先要具备一定的数学基础,包括高等数学、线性代数、概率论和离散数学,然后是基础的统计学基础和计算机基础。
虽然大数据的岗位比较多,遍布数据的采集、整理、存储、安全、分析、呈现等方面,但是比较核心的大数据岗位包括大数据平台研发、大数据应用开发和大数据分析等,这些岗位虽然在知识结构上有一定的区别,但是基本的大数据知识是一定要具备的,下面做一个介绍。
第一:算法设计。大数据的核心是数据价值化,数据分析则是数据价值化的重要途径,而算法设计则是数据分析的核心,因此算法设计在大数据知识体系中具有重要的地位。算法设计的书籍比较多,推荐读一下《算法导论》,这是一本比较经典的算法设计类书籍。
第二:编程语言。算法设计之后就需要进行算法实现,算法实现就需要掌握编程语言,能够实现算法的编程语言有很多,包括R、Python、Java等都可以,推荐系统学习一下Python语言,采用Python完成算法实现在目前的大数据和机器学习领域是一个比较普遍的选择。
第三:大数据平台。大数据平台是大数据应用的基础,目前比较常见的大数据平台包括Hadoop和Spark。Hadoop平台已经被业界使用多年,已经形成了一个比较完善的生态体系,建议从Hadoop开始学起。
第四:机器学习。机器学习与大数据的关系越来越密切,目前在大数据分析领域经常采用机器学习的方式。通过大数据进入机器学习领域,再全面进入人工智能领域也是目前一个比较常见的学习路线。
大数据的学习需要一个系统的过程,另外最好在学习的过程中能结合实际案例进行,这样会有一个更好的效果。
作者简介:中国科学院大学计算机专业研究生导师,从事IT行业多年,研究方向包括动态软件体系结构、大数据、人工智能相关领域,有多年的一线研发经验。
欢迎关注作者,欢迎咨询计算机相关问题。
给大家推荐一份大数据书单
Flink是大数据处理领域最近冉冉升起的一颗新星,它可以基于Hadoop进行开发和使用,与Hadoop紧密结合。本书旨在帮助读者从零开始快速掌握Flink的基本原理与核心功能,
并具有以下特点:
这是一本Flink入门级图书,力求详细而完整地描述Flink基础理论与实际操作。
采用Flink 1.6版本写作,案例丰富实用,做到学以致用。
细节与案例兼顾,深入浅出展现Flink技术精髓。
51CTO热门网课配套教材,可与网课结合学习,快速提升大数据开发技能。
[美] 约西亚 L.卡尔森(Josiah,L.,Carlson) 著,黄健宏 译
豆瓣评分8.0
李子骅 著
《Redis入门指南(第2版)》是一本Redis的入门指导书籍,以通俗易懂的方式介绍了Redis基础与实践方面的知识,包括历史与特性、在开发和生产环境中部署运行Redis、数据类型与命令、使用Redis实现队列、事务、复制、管道、持久化、优化Redis存储空间等内容,并采用任务驱动的方式介绍了PHP、Ruby、Python和Node.js这4种语言的Redis客户端库的使用方法。
[美] 乔治·特鲁希略(George Trujillo) 著,陈鹏,肖明兴 译
本书旨在帮助读者了解和掌握不同虚拟化Hadoop选择的优缺点、虚拟化Hadoop的配置及其注意事项。本书共分15章,主要内容包括Hadoop平台在企业转型中扮演的重要角色、Hadoop基础概念、YARN与HDFS、现代数据平台、数据采集、Hadoop SQL引擎、Hadoop中的多租户、虚拟化基础、虚拟化Hadoop实践、虚拟化Hadoop、虚拟化Hadoop主服务器、虚拟化Hadoop工作节点、私有云中的Hadoop即服务、Hadoop安装以及Hadoop Linux配置。
[美] Lars George 著,代志远,刘佳,蒋杰 译
Apache HBase项目管理委员会主席Michael Stack作序推荐。作者Lars George是HBase Committer,HBase文档的主要贡献者,Cloudera公司解决方案架构师,主要为Hadoop和HBase提供技术支持、咨询和培训工作。这是一本介绍HBase内部机制的书,是HBase开发指南。本书探讨了如何通过使用与HBase高度集成的Hadoop将HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;使用本地Java客户端,或者通过提供了REST、Avro和Thrift应用编程接口的网关服务器来访问HBase;了解HBase架构的细节,包括存储格式、预写日志、后台进程等;在HBase中集成MapReduce框架;了解如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等。 本书适合使用HBase进行数据库开发的高级数据库研发人员阅读。
想从零开始的人,就不要过于依赖大数据。理由,大数据会制约你的想象力,桎梏你的开发能力。大数据对从零开始的人来说,只可借鉴利用,绝不可重用。常规领域里的应用,那是另一说。哈哈。对吧?
第一阶段:大数据基础语言的学习
推荐书籍:
本书为我们带来了共78条程序员必备的经验法则,针对你每天都会遇到的编程问题提出了有效、实用的解决方案。 书中的每一章都包含几个"条目",以简洁的形式呈现,自成独立的短文,它们提出了具体的建议,对于Java平台精妙之处的独到见解,以及优秀的代码范例。每个条目的综合描述和解释都阐明了应该怎么做,不应该怎么做,以及为什么。
第二阶段: Linux&Hadoop生态体系Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架
推荐书籍:
在大数据的背景下,我很少看到关于数据建模,数据层,数据处理需求分析以及数据架构和存储实现问题。这本书却提供了令人耳目一新的全面解决方案。
《Hadoop权威指南(中文版)》从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。
《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。
第三阶段: 分布式计算推荐书籍:
《Spark 快速大数据分析》是一本为Spark 初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark 的用法,它对Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。
本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的应用,帮助读者解锁Spark机器学习算法的复杂性,通过数据分析产生有价值的数据洞察力。
第四阶段: 大数据项目实战数据获取、数据处理、数据分析、数据展现、数据应用
第五阶段:大数据分析 —AI(人工智能)主要是讲解Data Analyze数据分析基础、数据可视化、sklearn中三类朴素贝叶斯算法以及python机器学习等提升个人能力的内容!
0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答0
回答9
回答