我想用c#解析html上的东西来获取比如51job上的一份简历,导入数据库用。查了一下好像有个Winista.HtmlParser可以来解析,请高手指教

解决方案 »

  1.   

    这是一个去一个页面的值并返回一个string
    view plaincopy to clipboardprint?
    using System;   
    using System.Collections.Generic;   
    using System.ComponentModel;   
    using System.Data;   
    using System.Drawing;   
    using System.Linq;   
    using System.Text;   
    using System.Windows.Forms;   
    using System.Net;   
    using System.IO;   
      
    namespace WindowsFormsApplication1   
    {   
        public partial class Form1 : Form   
        {   
            public Form1()   
            {   
                InitializeComponent();   
            }   
      
            private void button1_Click(object sender, EventArgs e)   
            {   
                WebClient client = new WebClient();   
                byte[] bt = client.DownloadData("http://www.anttna.com/cell2gps/cell2gps.php?lac=4493&cellid=8473");   
                string s = System.Text.Encoding.GetEncoding("GB2312").GetString(bt);   
                Console.WriteLine(s);   
                this.label1.Text = s;   
            }   
            public static string GetPageHTML(string url)   
            {   
      
                try  
                {   
                    HttpWebRequest wr = WebRequest.Create(url) as HttpWebRequest;   
                    wr.Method = "get";   
                    wr.Accept = "*/*";   
                    wr.Headers.Add("Accept-Language: zh-cn");   
                    wr.Headers.Add("UA-CPU: x86");   
                    wr.Headers.Add("Accept-Encoding: gzip, deflate");   
                    wr.UserAgent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Embedded Web Browser from: http://bsalsa.com/; InfoPath.2; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)";   
                    wr.KeepAlive = true;   
                    wr.ServicePoint.Expect100Continue = false;   
                    wr.AllowAutoRedirect = false;   
      
                    HttpWebResponse wre = wr.GetResponse() as HttpWebResponse;   
                    StreamReader sreader = new StreamReader(wre.GetResponseStream(), Encoding.GetEncoding("GBK"));   
                    string sHtml = sreader.ReadToEnd();   
                    wre.Close();   
                    return sHtml;   
                }   
                catch  
                {   
                    return "";   
                }   
            }   
      
            private void button2_Click(object sender, EventArgs e)   
            {   
                string a = GetPageHTML("http://www.hodohome.net/productlist.aspx?id=158");   
                this.label1.Text=a;   
            }    
        
      
        }   
    }  
    本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/adsdassadfasdfasdf/archive/2010/08/05/5790094.aspx
      

  2.   

    httpwebrequest抓取页面
    正则获取
    http://topic.csdn.net/u/20100428/19/46bf1fab-1498-4c17-aece-e9efa8143391.html