我现在要做一个网站,网站有很多模块,每个模块是从一个网站里面爬下来的,而且每天都要更新,要爬接近20个网站,我现在用的方式是先获取网页源码,然后再用正则匹配过滤掉我不需要的内容,但我觉得这样很烦,请高手指点下,谢谢了..