资讯专栏INFORMATION COLUMN

在一头扎进机器学习前应该知道的那些事儿

moven_j / 1922人阅读

摘要:当掌握机器学习基本知识以及清楚自己所要处理的任务后,应用机器学习就不会那么难了。因此,在学习和应用机器学习之前,我们首先应该明确自己的任务是什么,以及适合使用哪种机器学习方法来完成。

摘要: 本文简单总结了机器学习的几大任务及其对应的方法,方便初学者根据自己的任务选择合适的方法。当掌握机器学习基本知识以及清楚自己所要处理的任务后,应用机器学习就不会那么难了。

机器学习一直是一个火热的研究领域,深度学习方法的提出又为这个领域添了一把火,使得很多人对该领域感兴趣并想投身于该领域的研究之中。那么,对于想从事机器学习领域的人来说,有哪些是应该首先了解的内容呢?本文将简单的介绍下机器学习的基本相关知识。
机器学习是指使计算机系统使用统计技术学习数据的过程,而不需要具体的编程程序。该方法是一个主动学习的算法,使得它能够从数据中学习并进行预测。机器学习与计算统计、数学优化以及数据学习密切相关,通常被用来进行预测、分析等任务。机器学习一般用于处理两类任务:

有监督学习:输入给计算机的示例带有标签(期望输出),基于标签调整建立的模型,以学习输入到输出的映射规则。

无监督学习:输入给计算机的示例没有标签,建立的模型必须通过自身学习产生输出。无监督学习涉及到从数据中发现隐藏的模式,包含特征学习。

机器学习这个术语对于大多非该领域的人来说听起来很高级,但其实不然。只要你清楚机器学习的基本概念以及相关方法后,机器学习其实很简单,即根据相关任务,选择合适的机器学习方法,让机器学习并处理特征以完成相应的任务。因此,在学习和应用机器学习之前,我们首先应该明确自己的任务是什么,以及适合使用哪种机器学习方法来完成。
如果我们想了解算法背后的基本理论以及其工作原理,那么精通概率与统计、线性代数和微积分对我们而言显得至关重要。此外,了解诸如Python等编程语言将使你能够容易得实现相关算法,理论基础与编程能力二者在手,机器学习我有。此外,理解相关的数学知识和应用也是很有必要的,无论是通过线下自学或者是网络在线培训等学习方法,都必须实践,实践可以增加自己对基本知识的理解,同时也能锻炼其编程能力。
在学习机器学习之前,掌握以下知识是很有必要的:

线性代数

微积分

概率论

程序设计

最优化理论

下面是一些最常见的机器学习任务以及相关方法,对其理解后方便在后续工程中应用。

回归

回归主要涉及连续变量或数值变量的估计,比如估计房价、股票价格、产品价格等使用回归估计。即根据相关的数据建立回归曲线,对新的数据进行预测估计。以下机器学习方法用于解决回归问题:

核回归(Kernel regression)

支持向量回归(Support vector regression)

高斯过程回归(Gaussian process regression)

线性回归(Linear regression)

LASSO回归(Least absolute shrinkage and selection operator)

回归树(Regression tree)

分类

分类与离散变量或数据类别的预测有关。比如区分垃圾邮件、病人患有哪种疾病、交易是否属于欺诈行为等任务,都是使用分类方法处理的。以下方法可以用于解决分类问题:

核判别分析(Kernel discriminant analysis)

人工神经网络(Artificial neural networks)

K邻近算法(K-nearests neighbors)

Boosted trees

随机森林(Random forests)

逻辑回归(Logistic regression)

支持向量机(Support vector machine)

深度学习(Deep learning)

朴素贝叶斯(Naive Bayes)

决策树(Decision trees)

聚类

聚类一般应用于数据自然分组。比如产品特征识别、客户细分等任务都是聚类的一些应用场景。以下机器学习方法用于聚类问题:

均值漂移(Mean-shift)

K-均值(K-means)

主题模型(Topic models)

层次聚类(Hierarchical clustering)

多元查询

多元查询是用来寻找相似目标。下面的方法可用于解决与多元查询有关的问题:

近邻取样(Nearest neighbors)

最远邻居(Farthest neighbors)

范围搜索(Range search)

降维

降维是指降低多个随机变量的维度,将其分为特征提取和特征选择。常用的降维方法如下:

流线学习方法/核主成分分析(Manifold learning/KPCA)

独立分量分析(Independent component analysis)

主成分分析(Principal component analysis)

非负矩阵分解(Non-negative matrix factorization)

压缩感知(Compressed sensing)

高斯图模型(Gaussian graphical models)

作者信息

Anusha Manchala,专注于机器学习、数据分析
本文由阿里云云栖社区组织翻译。
文章原标题《What You Must Know Before You Dive Into Machine Learning》,译者:海棠,审校:Uncle_LLD。
详情请阅读原文

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/19739.html

相关文章

  • 一位技术校招生支付宝成长笔记

    摘要:但是,努力和幸运,让鲁直的人生轨迹逐渐发生变化。在中间件团队年的挑战与成长学习使人进步如愿以偿,鲁直进入了蚂蚁金服中间件团队,但这并不意味着是一片坦途。鲁直告诉笔者,开源的意义就是给技术的发展装上轮子。 哪有那么多的逆袭,唯有努力与坚持,机会就会在前方。 鲁直,1989年生,本科毕业于浙江工业大学,之后被校招进阿里巴巴。虽然,今年刚刚30岁,但他已是蚂蚁金服SOFA中间件开源负责人。 ...

    Leo_chen 评论0 收藏0
  • 专访第一代车间程序员:ET工业大脑数学博士夏分

    摘要:从数学博士到阿里云工程师,夏分一直学以致用。入职后的第个月,夏分接手了第一个项目,用工业大脑帮一家风电企业提前预测风电机组故障。一个万千瓦的风电场,平均每年维护费用高达万元,还会以平均的速率逐年递增。 从数学博士到阿里云工程师,夏分一直学以致用。加入阿里云接手的第一个ET工业大脑项目,因为数据传输问题丢失大量数据,导致机器误判拉响警报,这让他意识到自己不能只坐在电脑前做码农,也要下到车...

    h9911 评论0 收藏0
  • 开始第一个机器学习项目之就了解那些事儿

    摘要:此外,与训练机器学习模型的作业相比,作业具有不同的执行配置文件。此外,还制作了一个界面,以便控制机器学习的参数指定用于训练的数据量等。 摘要: 一份机器学习过来人的经验清单分享,主要是包含一些关于构建机器学习工作流以及Apache Spark应该注意的一些事项,希望这个清单能够帮助那些正在学习机器学习的相关人员少走一些弯路,节约一些时间。 showImg(https://segment...

    BearyChat 评论0 收藏0

发表评论

0条评论

moven_j

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<