OneHot独热编码

August 31, 2019 · 机器学习 · 452次阅读

什么是独热编码,为什么要用独热编码

独热编码
**有多少个状态就有多少比特,全用01表示
为什么要用独热编码
处理离散特征:如现在有三种特征:地区;喜好:

  • 地区:[重庆,湖南,黑龙江],
  • 喜好:[辣椒,大葱]

若有label编码打上标签可表示为:1,2,3,但是机器可能对这三种特征学习为地区;重庆<黑龙江<陕西,辣椒<大葱<陕西,这样显然是不对的,因此使用独热编码可写为:

  • 重庆100
  • 黑龙江010
  • 陕西001

这样每两个特征间的距离都为2:
$$ \sqrt{(1-0)^2+(0-1)^2+(0-0)^2}=2$$
同样,喜好特征为

  • 辣椒:10
  • 大葱:01

当有一个样本为[重庆,辣椒]时,就可以写为[1,0,0,1,0],前三个为地区特征,后两个为喜好特征

标签:机器学习

最后编辑于:2019/09/28 18:44

添加新评论

控制面板