spark MLlib中协同过滤算法接受的userId是int类型,但是真正的ID是字符串,怎么映射好呢? MLlib的cf算法接受的是Rating类型的RDD:JavaRDD<Rating>其中Rating代表的是两个int 和一个doubleorg.apache.spark.mllib.recommendation.Rating.Rating(int user, int product, double rating)但是假如我的用户唯一标识是uuid,那么怎么转换成唯一对应的int类型?直接弄个映射表把1234和uuid对应起来么? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 为什么要用uuid作用户的唯一标识呢? 直接用int 自增不就好了吗 楼主,你的问题怎么解决的啊?只能弄个映射表把1234和uuid对应起来么 看一下StringIndexer的用法 是的,直接弄个主键id int自增长表,与用户uuid对应,注意要去重并一一对应,用sql处理原始数据,用id替换uuid存入算法读取训练数据文件中,算完结果再将id转换回uuid openstack的迷惑 OpenStack的硬件要求 如何学习云计算 请教,什么情况下rds master 和replica 占用的空间不一样,没有lag? Spark streaming 做实时数据处理的问题 Spark机器学习库之数据类型——scala版本 京东云又严重挂了 这研发团队干嘛的... 安装devstack / queens版本时遇到pip版本低(Centos7), 手动升级匹配18.0后只要一安装.stack.sh就出错。 华为云开发者英雄狂欢盛宴,赢取荣耀手机等十重好礼! idea编写spark程序读取hdfs文件做词频统计报错,搞了好久都没有弄明白有没有哪位大佬能帮帮我,谢谢 请教,docker pull XXX 报错 怎么利用 java api 实现 solr+hbase+Lily HBase Indexer 实现全文搜索?
解决方案 »
免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货