<h3><a href="http://www.edeng.cn/13/jiaju/" target="_blank" >家居黄页</a></h3>
<p><a href="http://www.edeng.cn/13/riyongbaihuo/" title="日用百货" target="_blank" >日用百货</a>
|<a href="http://www.edeng.cn/13/jiajuzhuangshi/" title="家居装饰" target="_blank" >
已经获得了源代码GetSource,源文件中有如上代码,我现在要写个方法,就是要获得所有的链接,并且没有title属性的链接要删除掉,然后把得到的链接存进数据库。最后得到的结果应该是如下:
http://www.edeng.cn/13/riyongbaihuo/
http://www.edeng.cn/13/jiajuzhuangshi/最好是能用substring进行截取
本人是新手,希望大家多多帮忙啊,多加点注释
<p><a href="http://www.edeng.cn/13/riyongbaihuo/" title="日用百货" target="_blank" >日用百货</a>
|<a href="http://www.edeng.cn/13/jiajuzhuangshi/" title="家居装饰" target="_blank" >
已经获得了源代码GetSource,源文件中有如上代码,我现在要写个方法,就是要获得所有的链接,并且没有title属性的链接要删除掉,然后把得到的链接存进数据库。最后得到的结果应该是如下:
http://www.edeng.cn/13/riyongbaihuo/
http://www.edeng.cn/13/jiajuzhuangshi/最好是能用substring进行截取
本人是新手,希望大家多多帮忙啊,多加点注释
string tempStr = File.ReadAllText(@"C:\Documents and Settings\Administrator\桌面\Test.txt", Encoding.GetEncoding("GB2312"));//读取tx
string pattern = @"(?i)<a[^>]+?href=(['""]?)([^'""]+)\1[^>]+?title[^>]+?>";
string[] ss = Regex.Matches(tempStr,pattern).Cast<Match>().Select(a=>a.Groups[2].Value).ToArray();
/*
* [0] "http://www.edeng.cn/13/riyongbaihuo/" string
[1] "http://www.edeng.cn/13/jiajuzhuangshi/" string */