请问,像今日头条新闻那样的很多新闻都是从其他网站上面爬去的。那么服务器使用httpclient+jsoup还是用开源的爬虫框架好呢(如nutch,jspider。。)。
个人感觉:
1.如果用httpclient+jsoup就全部自己去观察,解析dom而且还要考虑多线程和量增问题,如果数据量大了,也许处理起来会很麻烦。
2.如果要是用爬虫框架呢,我现在就在看nutch,感觉nutch太大了,做我这个似乎不太合适。请问你们是什么意见?
爬虫框架开源