Data PreProcessing
As shown in the infograph we will break down data preprocessing in 6 essential steps.
Get the dataset from here that is used in this example
import numpy as np import pandas as pdStep 2: Importing dataset
dataset = pd.read_csv("Data.csv") X = dataset.iloc[ : , :-1].values Y = dataset.iloc[ : , 3].valuesStep 3: Handling the missing data
from sklearn.preprocessing import Imputer imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0) imputer = imputer.fit(X[ : , 1:3]) X[ : , 1:3] = imputer.transform(X[ : , 1:3])Step 4: Encoding categorical data
from sklearn.preprocessing import LabelEncoder, OneHotEncoder labelencoder_X = LabelEncoder() X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])Creating a dummy variable
onehotencoder = OneHotEncoder(categorical_features = [0]) X = onehotencoder.fit_transform(X).toarray() labelencoder_Y = LabelEncoder() Y = labelencoder_Y.fit_transform(Y)Step 5: Splitting the datasets into training sets and Test sets
from sklearn.cross_validation import train_test_split X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)Step 6: Feature Scaling
from sklearn.preprocessing import StandardScaler sc_X = StandardScaler() X_train = sc_X.fit_transform(X_train) X_test = sc_X.fit_transform(X_test)Done
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/42285.html
摘要:导入数据预处理计算值从到对应的平均畸变程度用求解距离平均畸变程度用肘部法则来确定最佳的值建模 导入数据 cus_general = customer[[wm_poi_id,city_type,pre_book,aor_type,is_selfpick_poi,is_selfpick_trade_poi]] cus_ord = customer[[wm_poi_id,month_orig...
摘要:导入库导入数据集这一步的目的是将自变量和因变量拆成一个矩阵和一个向量。 数据预处理是机器学习中最基础也最麻烦的一部分内容在我们把精力扑倒各种算法的推导之前,最应该做的就是把数据预处理先搞定在之后的每个算法实现和案例练手过程中,这一步都必不可少同学们也不要嫌麻烦,动起手来吧基础比较好的同学也可以温故知新,再练习一下哈 闲言少叙,下面我们六步完成数据预处理其实我感觉这里少了一步:观察数据...
摘要:机器学习中,数据归一化是非常重要,如果不进行数据归一化,可能会导致模型坏掉或者训练出一个奇怪的模型。解决方法就是将是数据映射到同一尺度,这就是数据归一化。数据归一化的两个常用方式为最值归一化和均值方差归一化。 机器学习中,数据归一化是非常重要,如果不进行数据归一化,可能会导致模型坏掉或者训练出一个奇怪的模型。 为什么要进行数据归一化 现在有一个训练数据集,包含两个样本,内容如下: ...
阅读 2311·2021-09-26 10:21
阅读 2785·2021-09-08 09:36
阅读 3064·2019-08-30 15:56
阅读 954·2019-08-30 12:57
阅读 916·2019-08-26 10:39
阅读 3554·2019-08-23 18:11
阅读 3076·2019-08-23 17:12
阅读 1069·2019-08-23 12:18