看了以前的帖子还是没找到我要实现的功能。现在公司做一个新闻系统,新闻直接从wwww.sogou.com上采集的是关于煤矿的。抓取网页后怎么分析有用的数据。比如我找的是关于煤矿的,抓取后我的网页上显示采集网站上的最新的新闻标题。然后点击新闻标题后显示相关内容,内容也是www.sogou.com上的我该怎么来实现。那为大哥帮我写写代码。我做了快一周了还是没做好,是用c#语言的。我已经快崩溃了。刚来公司,我不想失去工作5555555555

解决方案 »

  1.   

    联系 wwww.sogou.com 提出合作
    否则 你抓取 人家稍微改下html代码 
    你抓到的东西 不是不符合要求,就是把你的页面弄得很难看抓取部分可以参考<%@ Page language="C#" Trace="True" %>
    <%@ Import Namespace="System.Net" %>
    <%@ Import Namespace="System.IO" %><html>
    <head>
     <SCRIPT runat="server">
      void Page_Load(Object sender, EventArgs e) {    WebRequest req = WebRequest.Create("http://www.im286.com/index.php");
    string urliii="src="; //图片使用绝对连接
    urliii+="http://www.im286.com/";
        try {
            WebResponse result = req.GetResponse();
            Stream ReceiveStream = result.GetResponseStream();        Byte[] read = new Byte[512];
            int bytes = ReceiveStream.Read(read, 0, 512);        lblHTML.Text = "";
            while (bytes > 0)
            {          // 注意:
              // 下面假定响应使用 gb2312 作为编码方式。
              // 如果内容以 ANSI 代码页形式(例如,932)发送,则使用类似下面的语句:
              //Encoding encode = System.Text.Encoding.GetEncoding("shift-jis");
              Encoding encode = System.Text.Encoding.GetEncoding("gb2312");
              lblHTML.Text = lblHTML.Text + encode.GetString(read, 0, bytes);
      
              bytes = ReceiveStream.Read(read, 0, 512);
      
            }
        } catch(Exception) {
            lblHTML.Text = "检索页时出错";
        }
    lblHTML.Text = lblHTML.Text.Replace("src=",""+urliii+"");
    lblHTML.Text = lblHTML.Text.Replace("\"","");
      }
    </SCRIPT>
    </head><body>  <form method="post" runat="server">
        
        <asp:Label runat=server ID="lblHTML" Rows="30" Cols="80" EnableViewState="false"  Wrap="True"></asp:Label>
      </form></body>
    </html>