有个是关于nutch url parse的问题想请教一下大家我在用nutch 获取url的时候,发现有一些页面的中包含的url形式如下:
<a class=m href="http://www.XXXXXX.com/xxxx/xxxx">xxx</a>
这样的url,nutch检索不到,不知道是为什么?问题好像就是在于前面存在了一个class=m,如果我直接指定http://www.XXXXXX.com/xxxx/xxxx,这个地址开始搜索,是可以正常工作的,
所以应该不是url filter那里的问题,filter那里我可以确保是没有问题的问题应该就是url parse 那里,是配置的问题,还是那里需要设置?
有没有高人可以回答一下~~~