任务:
使用mllib中ALS做一个推荐系统的评分估计工作
训练数据约2w user , 60w item, 500w评分记录
测试数据约11w待测评分
遇到问题:
在使用测试集进行测试时 model.predicAll 返回数据少于测试条目
部分代码如下(之前已完成训练):
test_data = sc.textFile(".\data-new\\test")
tdata = test_data.map(lambda x: x.split("\t")[0:2]).map(lambda x:[int(x[0]), int(x[1])])
print(tdata.count())
# tgrade = model.predictAll(tdata).collect()
tgrade = model.predictAll(tdata)
print(tgrade.count())
上段代码输出:
119010
117567
少了1443个评分,实在搞不懂为什么
我又将缺失的评分项挑出来再送进去测试 返回结果是空
如有指教感激不尽