本文主要是介绍点击日志数据转换成FFM数据格式——CSV2FFM,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!
在用FFM数据时,肯定会问几个问题:1-ffm数据是啥意思,特征中的数据是啥意思啊,例如1:2:0,3:5:1,这种数据本来的真实数据是啥?2-如何将真实数据转成这种格式?转换中肯定会遇到的问题(1)单值与多值特征怎么区别对待?(2)在使用模型训练ffm数据后是否需要特征原来对应的真实数据?(这个问题是跑一个模型就知道了,或许就不是问题)3-模型训练完后如何召回?能不能用faiss?
下面先说2-生产数据格式转换
2-1,单值数据转换成FFM数据格式,在kaggle上看到了一个非并行版本。
这里面需要了解一个函数make_classification
from sklearn.datasets import make_classification
原来版本是100个samples,注意int是数值型数据,这种数据feature idx肯定都是一样的,而str才是类别型数据,所以value 都是1
这里我的疑问已经被另一个大佬提出来了,为啥不是从0到1进行编码,这个有点难以理解啊。
刚一夸kaggle比逼乎逼格高,特么的就屏蔽我的账号了??卧槽
这篇关于点击日志数据转换成FFM数据格式——CSV2FFM的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!