网络蜘蛛程序思路问题~~

这里的大侠们。能帮忙的记得花点时间帮忙喔~~分数不多请见谅~~
获取主页的源文件是可以了。我想在此源文件里进行搜索获得该主页的标题名和其关键字，怎么弄？还有要象网络蜘蛛那样获取主页上的连接URL 是不是也在源文件分析得到的？？
希望大家给些资料或者意见参考一下。
谢谢喔~~~
如果有资料的话，发到我邮箱里[email protected]
谢谢啊~~

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

用IdHttp组件获取指定地址的html代码然后分析其代码即可
当然要分析html源代码并取得url啊
我查看了一下指定网页的源文件，里面的连接地址URL好象不象网页里那么全，有些都没有的~~
有资料吗？
搜索出全部符合要求的网址
如今的情况如下：
   以网易为例子。
   条件里：输入www.163.com   按搜索
   在当前页下搜索出60条不重复的网址（一条一条的存入记录集中--本次存储用memo）  在每条存时都会跟Memo里已存在的记录进行比较，排除重复的。
   写了个循环，步骤同上。看解析
   for i:=1 to  Memo1.Lines.Count-1  do//已存入的数据记录总数
   begin
     SonUrl:= Memo1.Lines.Strings[i];//进行逐条的获取。
     GetAllUrl(SonUrl);//这是获取SonUrl网址下的源码里的所有连接地址
   end;
   但是这样只能做到二层的搜索。这上面的循环只是第二层搜索，如果说是要进行第三层搜索，即对第二步搜索的结果集里每一条进行获取连接，得再写类似一样的循环。
  for sallUrl:=i to Memo1.Lines.Count-1 do//从第二层搜索出来的记录开始
  begin
    SonUrl:= Memo1.Lines.Strings[sallUrl];
    GetAllUrl(SonUrl);//再进行逐一对该地址里所有连接地址的获取。
  end;
  问题是网页里的层数是未知的，如果说要全部都搜索的话，那不知要这样的函数写多少个，这样的话是很不合理的。

  本人想到的一种方法是只写一个这样循环，及时获取memo中发生变化的记录数，然后再传入那总数里。(但是据了解，这个循环里的总数只能是常量，不能发生变化的。)

  朋友，你们要是有好的方法，请告诉我。我的邮件是[email protected]
   谢谢谢谢！！！！！！