首先道歉一下,我没有找到mapreduce的板块,只好把这个问题发到这来了
又来麻烦各位大神了!问题是这样的:
假如在一天时间内,统计每个小时内该网页有多少次访问记录,以及这么多访问记录中有多少个用户,初始格式如下:
hourid url
0 com
0 com
0 cn
0 net
1 org
2 com
2 com
2 cn
........输出格式类似下面:
hourid visitscount userscount
0 4 3
1 1 1
2 3 2一个时间段内有几条访问记录,visitscount就是几;userscount指的是(com,cn,net)
如果用wordcount的那种实现方法的话,都是根据key来直接累加value的,完成上面的功能难道要写两个java程序吗,可是我想同时输出到一个文档里面,实在不知道该怎么输出如上所示的格式,还请大神支招。
或者告诉我一下实现思路也可以,我现在是一头雾水,再次感谢啦!!
又来麻烦各位大神了!问题是这样的:
假如在一天时间内,统计每个小时内该网页有多少次访问记录,以及这么多访问记录中有多少个用户,初始格式如下:
hourid url
0 com
0 com
0 cn
0 net
1 org
2 com
2 com
2 cn
........输出格式类似下面:
hourid visitscount userscount
0 4 3
1 1 1
2 3 2一个时间段内有几条访问记录,visitscount就是几;userscount指的是(com,cn,net)
如果用wordcount的那种实现方法的话,都是根据key来直接累加value的,完成上面的功能难道要写两个java程序吗,可是我想同时输出到一个文档里面,实在不知道该怎么输出如上所示的格式,还请大神支招。
或者告诉我一下实现思路也可以,我现在是一头雾水,再次感谢啦!!
解决方案 »
- 关于云储存或者百度云的基础问题, 用java/android 实现上传文件到云储存(比如百度云)
- cloudfoundry 平台如何保证应用稳定运行?
- 就想问一句,大家spark这个东西在实际的java web开发中怎么应用,怎么用myeclipse进行整合开发。。。。
- 求助,设置nginx时报错,求高手帮忙。
- Docker新手问题
- 2pc协议在哪几个分布式存储系统上实现了?
- 关于用alexa skill传过来的access token访问cognito 的问题
- Failed to send requests for topics mykafka1 with correlation ids in [0,20]
- 求解,通过dockerfile构建samba镜像的容器服务无法启动,状态exited
- 先电服务器怎样进入BIOS?怎样装系统?
- docker 私有registry问题(关于 gunicorn命令问题)
- 求懂C编程,也了解一些libvirt虚拟化接口API的大神解答
Reduce 里面迭代处理values,values的大小就是visitscount,values去重复就是userscount
一个MapReduce
一个Map变量就可以实现了
嗯,谢谢你的建议,我已完成了。最后还有个问题,希望您能不吝赐教。
我如何让内容输出到csv文件中呢,也就是保存为csv文件。
我在reduce中加入CsvWriter之后总是覆盖了原先的数据只保留一条数据。可能是 wr.close(); 的缘故,但去掉也不对。
很是纠结应该怎么处理