有个是关于nutch url parse的问题想请教一下大家我在用nutch 获取url的时候,发现有一些页面的中包含的url形式如下:
<a class=m href="http://www.XXXXXX.com/xxxx/xxxx">xxx</a>
这样的url,nutch检索不到,不知道是为什么?问题好像就是在于前面存在了一个class=m,如果我直接指定http://www.XXXXXX.com/xxxx/xxxx,这个地址开始搜索,是可以正常工作的,
所以应该不是url filter那里的问题,filter那里我可以确保是没有问题的问题应该就是url parse 那里,是配置的问题,还是那里需要设置?
有没有高人可以回答一下~~~
<a class=m href="http://www.XXXXXX.com/xxxx/xxxx">xxx</a>
这样的url,nutch检索不到,不知道是为什么?问题好像就是在于前面存在了一个class=m,如果我直接指定http://www.XXXXXX.com/xxxx/xxxx,这个地址开始搜索,是可以正常工作的,
所以应该不是url filter那里的问题,filter那里我可以确保是没有问题的问题应该就是url parse 那里,是配置的问题,还是那里需要设置?
有没有高人可以回答一下~~~
解决方案 »
- 能不能不通过submit就将HTML中的数据传送到servlet?
- 这个自己真搞不定了,兄弟们IBM WEBSPHERE 设置长连接的参数是哪个?
- struts验证的问题
- 请教:displaytag的分页问题
- js如何判断textarea输入的内容不能为空或者全部为空格啊
- windows server2003 tomcate5.5.12 启动问题(附日志文件)
- 一个RMI问题~~
- 一个初次在jbuilder8开发EJB的问题?
- 我是应届毕业生,马上又要去参加面试,方向是j2ee的,大哥们给点意见!
- jbuilder6.0 和 j2ee 的配置问题
- lucene 初学者的一个小小问题。
- spring中用javamail,quartz定时发简单邮件问题?
不过
你自己都说是
url parse的问题 那你最好自己看看是不是代码的问题