<h3><a href="http://www.edeng.cn/13/jiaju/"   target="_blank" >家居黄页</a></h3>
<p><a href="http://www.edeng.cn/13/riyongbaihuo/"  title="日用百货" target="_blank" >日用百货</a>
|<a href="http://www.edeng.cn/13/jiajuzhuangshi/"  title="家居装饰" target="_blank" >
已经获得了源代码GetSource,源文件中有如上代码,我现在要写个方法,就是要获得所有的链接,并且没有title属性的链接要删除掉,然后把得到的链接存进数据库。最后得到的结果应该是如下:
http://www.edeng.cn/13/riyongbaihuo/
http://www.edeng.cn/13/jiajuzhuangshi/最好是能用substring进行截取
本人是新手,希望大家多多帮忙啊,多加点注释

解决方案 »

  1.   


     string tempStr = File.ReadAllText(@"C:\Documents and Settings\Administrator\桌面\Test.txt", Encoding.GetEncoding("GB2312"));//读取tx
                    string pattern = @"(?i)<a[^>]+?href=(['""]?)([^'""]+)\1[^>]+?title[^>]+?>";
                    string[] ss = Regex.Matches(tempStr,pattern).Cast<Match>().Select(a=>a.Groups[2].Value).ToArray();
                    /*
                     *  [0] "http://www.edeng.cn/13/riyongbaihuo/" string
                    [1] "http://www.edeng.cn/13/jiajuzhuangshi/" string                 */