如题所示,我用一个蜘蛛程序输入utl后,相关网页都抓取到数据库里了。。但是现在我想从这一堆网页中找到我需要的关键词,比如“体育”,将这类新闻连同里面的连接一起抓取出来,挂到我自己建立的网页上
具体怎么操作呢?还请诸位大神不吝赐教。说的越详细我会给更多分数,这个问题很急!谢大家了!数据库HTML解析

解决方案 »

  1.   

    首先要分析html格式,然后用正则进行抓取
      

  2.   


    不能,只能将我所输入的url所有链接抓取下来保存我的思路是,抓取下来保存到数据库的时候,在表中建立一个项,根据抓取网页中的<a></a>里面内容来命名,我有根据关键词查询数据库的程序,这样是不是就可以根据关键词查询了