【学习摘录】机器学习特征选择

lyning 发布于2019-07-25 11:36 / 3069人阅读

摘要：应用过机器学习进行数据挖掘的同学应该都知道特征选择对模型表现的重要性。本文基于网上经典特征选择相关文章整理出干货常用方法分类以及调包侠该如何用快速上手，供大家参考。

应用过机器学习进行数据挖掘的同学应该都知道特征选择对模型表现的重要性。本文基于网上经典特征选择相关文章整理出干货：常用方法分类以及调包侠该如何用sklearn快速上手，供大家参考。 （一）预处理： 1 无量纲化：

1.1 区间缩放

from sklearn.preprocessing 
import MinMaxScaler #区间缩放，返回值为缩放到[0, 1]区间的数据
MinMaxScaler().fit_transform(iris.data)

1.2 标准化（特征值服需从正态分布）

from sklearn.preprocessing import StandardScaler #标准化，返回值为标准化后的数据
StandardScaler().fit_transform(iris.data)

2 特征二值化：定量特征二值化的核心在于设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0 3 特征哑变量 4 缺失值计算:一般以均值填充 5 数据变换：常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的 （二）特征选择 1 过滤

1.1 基于方差

from sklearn.feature_selection
import VarianceThreshold
#方差选择法，返回值为特征选择后的数据 #参数threshold为方差的阈值
VarianceThreshold(threshold=3).fit_transform(iris.data)

1.2 相关系数

from sklearn.feature_selection 
import SelectKBest
from scipy.stats import pearsonr
SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)

1.3 卡方检验

from sklearn.feature_selection
import SelectKBest
from sklearn.feature_selection import chi2#选择K个最好的特征，返回选择特征后的数据
SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)

1.4 互信息

2 递归特征消除：递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练 3 嵌入法

3.1 基于惩罚项的特征选择法

3.2 树模型中GBDT也可用来作为基模型进行特征选择，使用feature_selection库的SelectFromModel类结合GBDT模型，来选择特征的代码如下：

from sklearn.feature_selection 
import SelectFromModel
from sklearn.ensemble import GradientBoostingClassifier  
SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)

（四）降维 1 主成分分析

from sklearn.decomposition 
import PCA2 3 #主成分分析法，返回降维后的数据 #参数n_components为主成分数目 PCA(n_components=2).fit_transform(iris.data)

2 线性判别分析

from sklearn.lda 
import LDA2 3 #线性判别分析法，返回降维后的数据 #参数n_components为降维后的维数 LDA(n_components=2).fit_transform(iris.data, iris.target)

参考：

http://note.youdao.com/notesh...（收藏自公众号数据挖掘入门与实战）

https://www.zhihu.com/questio...

云服务器 GPU云服务器机器学习模型选择机器学习机器学习机器学习与机器学习学习机器学习学习

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/38502.html

arXiv上五篇顶尖深度学习论文都讲了些什么？

摘要：自从年深秋，他开始在上撰写并公开分享他感兴趣的机器学习论文。本文选取了上篇阅读注释的机器学习论文笔记。希望知名专家注释的深度学习论文能使一些很复杂的概念更易于理解。主要讲述的是奥德赛因为激怒了海神波赛多而招致灾祸。 Hugo Larochelle博士是一名谢布克大学机器学习的教授，社交媒体研究科学家、知名的神经网络研究人员以及深度学习狂热爱好者。自从2015年深秋，他开始在arXiv上撰写并...

WilsonLiu95 2019-04-25 18:00 评论0 收藏0
原创翻译 | 10个音频处理任务让你开始使用深度学习应用

摘要：这是机器学习课程中的一个典型例子，他把演讲者的声音和背景音乐分开。虽然用于启动检测的技术主要依赖于音频特征工程和机器学习，但在这里可以很容易地使用深度学习来优化结果。介绍想象一个能理解你想要什么，且当你打电话给客户服务中心时能理解你的感受的机器--如果你对某件事感到不高兴，你可以很快地和一个人交谈。如果您正在寻找特定的信息，您可能不需要与某人交谈(除非您愿意！)。 ...

notebin 2019-04-25 18:24 评论0 收藏0

发表评论

登陆后可评论

0条评论

lyning

男|高级讲师

我要关注我要私信

TA的文章

GreenCloudVPS：黑色星期五，八周年促销，VPS年付五折起，10G口大盘鸡年付 $30起，

阅读 1858·2021-10-28 09:32
自动化会提高测试覆盖率，那测试覆盖率是什么？

阅读 701·2021-09-24 09:47
【保姆级教程】从零到精通Git，CodeChina实战

阅读 3179·2021-09-02 15:11
DediPath夏季促销：美国服务器可选洛杉矶和纽约机房/E3/16GB/2TB/1Gbps端口月流

阅读 2924·2021-08-09 13:46
css权重

阅读 2961·2019-08-30 15:55
前端技能拾遗

阅读 1144·2019-08-30 15:54
纯CSS实现下拉菜单

阅读 3374·2019-08-29 14:12
微信小程序开发早知道

阅读 895·2019-08-26 13:40

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

【学习摘录】机器学习特征选择

1.1 区间缩放

1.2 标准化（特征值服需从正态分布）

1.1 基于方差

1.2 相关系数

1.3 卡方检验

1.4 互信息

3.1 基于惩罚项的特征选择法

3.2 树模型中GBDT也可用来作为基模型进行特征选择，使用feature_selection库的SelectFromModel类结合GBDT模型，来选择特征的代码如下：

相关文章

arXiv上五篇顶尖深度学习论文都讲了些什么？

原创翻译 | 10个音频处理任务让你开始使用深度学习应用

发表评论

0条评论

lyning

男|高级讲师

TA的文章

GreenCloudVPS：黑色星期五，八周年促销，VPS年付五折起，10G口大盘鸡年付 $30起，

自动化会提高测试覆盖率，那测试覆盖率是什么？

【保姆级教程】从零到精通Git，CodeChina实战

DediPath夏季促销：美国服务器可选洛杉矶和纽约机房/E3/16GB/2TB/1Gbps端口月流

css权重

前端技能拾遗

纯CSS实现下拉菜单

微信小程序开发早知道

最新活动