两个问题:1 如何用正则表达式  获得
1-10的  每个 数字对应的链接地址?
2 如何用正则表达式  获得
搜索结果的  标题和 网址
最好能分享一下 源码。
谢谢了   大神门,急求……

解决方案 »

  1.   

    可以做,你仔细看看HTML网页的源代码就可以了,我刚才看了一下,完全可以提取出来,就是麻烦点。
    不如用DOM识别快,但是DOM我不会,你可以研究一下。
      

  2.   

    第一个:这个规律自己找找
    http://www.baidu.com/s?wd=csdn&pn=0&ie=utf-8&usm=1
    http://www.baidu.com/s?wd=csdn&pn=10&ie=utf-8&usm=1
    http://www.baidu.com/s?wd=csdn&pn=20&ie=utf-8&usm=1
    http://www.baidu.com/s?wd=csdn&pn=30&ie=utf-8&usm=1
    第二个:
    static void Main(string[] args)
            {
                string resultHtml = GetUrlHtml("http://www.baidu.com/s?ie=utf-8&bs=msdn&f=8&rsv_bp=1&wd=csdn&rsv_sug3=1&inputT=1065");            string regexTD = "(?is)<td class=\"(?:c-default|f)\"[^?]*>.*?</td>";
                string regexTitle = "(?is)<h3 class=\"t\"><a[^>]*?href=\"(?<url>[^\"]*)\"[^>]*>(?<title>.*?)</h3>";            var matches = Regex.Matches(resultHtml, regexTD);            foreach (Match match in matches)
                {
                    string tdHtml = match.Value;                Match m = Regex.Match(tdHtml, regexTitle);
                    if (m.Success)
                    {
                        Console.WriteLine(Regex.Replace(m.Groups["title"].Value, "<[^>]+>", ""));
                        Console.WriteLine(m.Groups["url"].Value);
                    }
                    Console.WriteLine();
                }            Console.Read();
            }        private static string GetUrlHtml(string url)
            {
                HttpWebRequest hwr = (HttpWebRequest)WebRequest.Create(url);
                HttpWebResponse hwrs = (HttpWebResponse)hwr.GetResponse();
                Stream stream = hwrs.GetResponseStream();
                StreamReader sr = new StreamReader(stream, Encoding.GetEncoding(hwrs.CharacterSet));
                string html = sr.ReadToEnd();
                sr.Close();
                return html;
            }