怎么样自己采集互联网数据呀? 查出关键词的排名,收录多少? 然后入库呀

解决方案 »

  1.   

    贴部门代码:/**
     * 对新闻URL进行解析提取新闻,同时将新闻插入到数据库中。
     * 
     * @param url
     *            新闻连接。
     */
    public void parser(String url) throws Exception{
    try {
    parser = new Parser(url);
    //获取标题过滤器  <div id ="contentText" class="txt18">这里是正文</div>
    NodeFilter titleFilter = new AndFilter(new TagNameFilter("td"),
    new HasAttributeFilter("class", "txt18"));

    //获取内容过滤器  <div id ="contentText" >这里是正文</div>
    NodeFilter contentFilter = new AndFilter(new TagNameFilter("td"),
    new HasAttributeFilter("class", "p1"));

    //获取发布日期过滤器  <div class ="time" >这里是正文</div>
    NodeFilter newsdateFilter = new AndFilter(
    new TagNameFilter("td"), new HasAttributeFilter("class",
    "txt12"));

    //获取发布日期过滤器  <spam class ="media_span" >这里是正文</span>
    NodeFilter newsauthorFilter = new AndFilter(
    new TagNameFilter("td"), new HasAttributeFilter("class",
    "txt12"));

    String newsTitle = getTitle(titleFilter, parser);
    parser.reset(); // 记得每次用完parser后,要重置一次parser。要不然就得不到我们想要的内容了。
    String newsContent = getNewsContent(contentFilter, parser);
    // 输出新闻的内容,查看是否符合要求
    parser.reset();
    String newsDate = getNewsDate(newsdateFilter, parser);
    parser.reset();
    String newsauthor = getNewsAuthor(newsauthorFilter, parser);
    // 先设置新闻对象,让新闻对象里有新闻内容。
    InfoByCollection info = new InfoByCollection();
    info.setNewsTitle(newsTitle);
    info.setNewsContent(newsContent);
    // 将新闻添加到数据中。
    infomationService.insertCollectionInfo(info); } catch (ParserException ex) {
    Logger.getLogger(InfoByCollection.class.getName()).log(Level.SEVERE, null,
    ex);
    }
    }
    需要用到htmlparser.jar 和 htmllexer.jar 用来解析html
      

  2.   

    楼主看起来对搜索引擎完全没啥基础概念,建议先把基础概念理解下,然后再问点更具体点问题吧。先看看这个:
    http://baike.baidu.com/view/3492159.htm再看看这个:
    http://www.chinaz.com/web/2012/0221/236263.shtml
      

  3.   

    谢谢 ldh911的回答,我还是多研究研究吧。有具体问题再问吧。估计以我现在的水平还是差很多的,
      

  4.   

    是不是在网上 买vps就能解决1,2 ?自己弄个就能查 关键词呀。百度好多的关键词指数都是假的。自己弄个数据库就能找到好的关键词了呀。自己就可以做seo赚钱了,语言相关是要编程序的吧? 搜索速度 几天几夜也没事的,我利用vps去抓取,可以不?
      

  5.   

    先确认你期望的目标是什么吧?如果你只是想实验下能不能爬网,这个是可以的。关键词恐怕没有你想得那么简单:
    近义词问题:中国、中华人民共和国、中国大陆、祖国、天朝;
    包含词问题:税、所得税、企业所得税、年度企业所得税;速度也没那么简单,如果你是个ADSL的话,只怕爬1年,也爬不完新浪一个网站。
      

  6.   

    哦,就是网上有个seo培训的人用python开发的,一个月维护费5000元左右的。他说3,4天搜索一遍互联网,具体怎么弄的就不知道了。