这里的大侠们。能帮忙的记得花点时间 帮忙喔~~分数不多请见谅~~
  获取主页的源文件是可以了。我想在此源文件里进行搜索 获得该主页的标题名和其关键字,怎么弄?还有要象网络蜘蛛那样获取主页上的连接URL 是不是也在源文件分析得到的??
  希望大家给些资料或者 意见参考一下。
谢谢喔~~~
如果有资料的话,发到我邮箱里[email protected]
谢谢啊~~

解决方案 »

  1.   

    用IdHttp组件获取指定地址的html代码然后分析其代码即可
      

  2.   

    当然要分析html源代码并取得url啊
      

  3.   

    我查看了一下 指定网页的源文件,里面的连接地址URL好象不象网页里那么全,有些都没有的~~
    有资料吗?
      

  4.   

    搜索出全部符合要求的网址
    如今的情况如下:
       以网易为例子。
       条件里:输入www.163.com   按搜索
       在当前页下搜索出60条不重复的网址(一条一条的存入记录集中--本次存储用memo)  在每条存时 都会跟Memo里已存在的记录进行比较,排除重复的。
       写了个循环,步骤同上。看解析
       for i:=1 to  Memo1.Lines.Count-1  do//已存入的数据记录总数
       begin
         SonUrl:= Memo1.Lines.Strings[i];//进行逐条的获取。
         GetAllUrl(SonUrl);//这是获取SonUrl网址下的源码里的 所有连接地址
       end;
       但是这样只能做到二层的搜索。这上面的循环只是第二层搜索,如果说是要进行第三层搜索,即对第二步搜索的结果集里每一条进行获取连接,得再写类似一样的循环。
      for sallUrl:=i to Memo1.Lines.Count-1 do//从第二层搜索出来的记录开始
      begin
        SonUrl:= Memo1.Lines.Strings[sallUrl];
        GetAllUrl(SonUrl);//再进行逐一对该地址里所有连接地址的获取。
      end;
      问题是网页里的层数是未知的,如果说要全部都搜索的话,那不知要这样的函数写多少个,这样的话是很不合理的。
      
      本人想到的一种方法是 只写一个这样循环,及时获取memo中发生变化的记录数,然后再传入那总数里。(但是据了解,这个循环里的总数只能是常量,不能发生变化的。)
      
      朋友,你们要是有好的方法,请告诉我。我的邮件是[email protected]
       谢谢谢谢!!!!!!