请教一个，各位做采集程序的有没有能准确采集正文的？

楼上的前辈！
请教你一下原理和思路！

如果你想要给一个网址，就能够给出你要的正文内容，做一个专门针对这个网站的新闻页面的采集器，是完全可以的，想要做一个通用的，给任何一个新闻的网址，就抓出你需要的正文内容，还是不太现实的感觉，至少我没有能够实现这种东西。
如查网页结构不同也能实现吗？
比如新浪网新闻！
如果频道不同，新闻结构也不同，也能实现正文采集？还有，各位哪位能给PHP或VB采集正文的正则！比如新浪新闻！
如果世界上只有一条裤子或者世界上的裤子全是按照一个模子做的话，楼主的命题就会成立
当然如果人工智能技术得到了突破性的进展完全可以模拟人脑的思考方式，那么，楼主这个问题也能解决，只基于正则无法匹配形形色色网站，必须让程序会思考并学习，才能解决如果让程序（电脑）拥有了思考和学习的能力，那人类就变成了这类电脑的上帝，其实人类也许早已超过了创造人类的那个上帝，只是还需要时间发展