RT,请高手指点下,我目前有的思路是通过CRAWLER,但是只能扒到目前可用的网页,无法获得网页内部的内容,也曾设想过每扒到个网页就把他封装提取内容,但是要存入RDF中,那内容就比较丰富,要分很多类,所以不知道如何一段段不同主题内容不同提取,而且几个网页间的风格也是不同的,所以比较困惑,请高手指点,最好有例子拉.
比如,网页是关于歌手的,分3类页面,歌手的是页面专集名,演出情况和个人介绍,表演场次的页面是时间地点和人物,专集的页面是内容和任务还有封面,这些内容都需要分别提取出来.谢谢!