python对离散变量的one-hot编码方法
我们在进行建模时,变量中经常会有一些变量为离散型变量,例如性别。因此在使用之前,我们往往会对此类变量进行处理。一般是对离散变量进行one-hot编码。下面具体介绍通过python对离散变量进行one-hot的方法。它们最大的区别是,pandas默认只处理字符串类别变量,sklearn默认只处理数值型类别变量pandas的get_dummies()可以直接对变量进行one-hot编码,其中prefix是为one-hot编码后的变量进行命名。我们也可以通过sklearn的模块实现对离散变量的one-hot编码,其中LabelEncoder是将离散变量替换为数字,OneHotEncoder则实现对替换为数字的离散变量进行one-hot编码。可以看到OneHotEncoder无法直接对字符型变量进行编码,需要通过OneHotEncoder将字符型变量转换为数值型变量。
下载地址
用户评论