最近做一个项目,需要抓取网站数据.
其实我到现在还不是很明白抓取网站数据到底是想要做什么?
抓取网站数据貌似也只能抓取到网页的HTML代码吧. 
获取整个网页的HTML我已经能取到了.
就是想通过解析获得网页中<body>.....</body>的数据,求大虾赐教.

解决方案 »

  1.   

    自己也写了一些.不过用不了
    "<body>([^<]*)</body>"
      

  2.   

    或是
    (?is)<body\b[^>]*>(.+?)</body>
      

  3.   

    如果不嵌套就可以。如果嵌套就不可以。需要写复杂一点。比如
    <tr>
      <tr>
         <td>
         </td>
      </tr>
      <tr>
         <td>
         </td>
      </tr>
    </tr>
      

  4.   

    Regex reg=new Regex("(?is) <body[^>]*>(? <body>.*?) </body>"); 
    string result=reg.Match("网页代码").Groups["body"].Value; 
      

  5.   

    如果是碰到标签嵌套的又该如何,是不是还得要判定标签的name或者id
      

  6.   

    Match m = Regex.Match(html, "<body>(?<out>[\\s\\S]*?)</body>");
    string body = m.Groups["out"].Value;
      

  7.   

    带有嵌套的,比如我给你那个例子
    (?is)<tr[^>]*>((?<o><tr)|(?<-o></tr)|((?!</?tr).)+)+(?(o)(?!))</tr>