爬虫抓取数据

请问，像今日头条新闻那样的很多新闻都是从其他网站上面爬去的。那么服务器使用httpclient+jsoup还是用开源的爬虫框架好呢（如nutch，jspider。。）。
个人感觉：
1.如果用httpclient+jsoup就全部自己去观察，解析dom而且还要考虑多线程和量增问题，如果数据量大了，也许处理起来会很麻烦。
2.如果要是用爬虫框架呢，我现在就在看nutch，感觉nutch太大了，做我这个似乎不太合适。请问你们是什么意见？
爬虫框架开源