spark MLlib中协同过滤算法接受的userId是int类型，但是真正的ID是字符串，怎么映射好呢？ - 调试易

spark MLlib中协同过滤算法接受的userId是int类型，但是真正的ID是字符串，怎么映射好呢？

MLlib的cf算法接受的是Rating类型的RDD:JavaRDD<Rating>其中Rating代表的是两个int 和一个doubleorg.apache.spark.mllib.recommendation.Rating.Rating(int user, int product, double rating)但是假如我的用户唯一标识是uuid，那么怎么转换成唯一对应的int类型？直接弄个映射表把1234和uuid对应起来么？

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

为什么要用uuid作用户的唯一标识呢？直接用int 自增不就好了吗
楼主，你的问题怎么解决的啊？只能弄个映射表把1234和uuid对应起来么
看一下StringIndexer的用法
是的，直接弄个主键id int自增长表，与用户uuid对应，注意要去重并一一对应，用sql处理原始数据，用id替换uuid存入算法读取训练数据文件中，算完结果再将id转换回uuid