独热编码:
**有多少个状态就有多少比特,全用01表示
为什么要用独热编码:
处理离散特征:如现在有三种特征:地区;喜好:
若有label编码打上标签可表示为:1,2,3,但是机器可能对这三种特征学习为地区;重庆<黑龙江<陕西,辣椒<大葱<陕西,这样显然是不对的,因此使用独热编码可写为:
这样每两个特征间的距离都为2:
$$ \sqrt{(1-0)^2+(0-1)^2+(0-0)^2}=2$$
同样,喜好特征为
当有一个样本为[重庆,辣椒]时,就可以写为[1,0,0,1,0],前三个为地区特征,后两个为喜好特征