新闻采集方法

看了以前的帖子还是没找到我要实现的功能。现在公司做一个新闻系统，新闻直接从wwww.sogou.com上采集的是关于煤矿的。抓取网页后怎么分析有用的数据。比如我找的是关于煤矿的，抓取后我的网页上显示采集网站上的最新的新闻标题。然后点击新闻标题后显示相关内容，内容也是www.sogou.com上的我该怎么来实现。那为大哥帮我写写代码。我做了快一周了还是没做好，是用c#语言的。我已经快崩溃了。刚来公司，我不想失去工作5555555555

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

联系 wwww.sogou.com 提出合作
否则你抓取人家稍微改下html代码
你抓到的东西不是不符合要求,就是把你的页面弄得很难看抓取部分可以参考<%@ Page language="C#" Trace="True" %>
<%@ Import Namespace="System.Net" %>
<%@ Import Namespace="System.IO" %><html>
<head>
<SCRIPT runat="server">
  void Page_Load(Object sender, EventArgs e) {    WebRequest req = WebRequest.Create("http://www.im286.com/index.php");
string urliii="src="; //图片使用绝对连接
urliii+="http://www.im286.com/";
    try {
        WebResponse result = req.GetResponse();
        Stream ReceiveStream = result.GetResponseStream();        Byte[] read = new Byte[512];
        int bytes = ReceiveStream.Read(read, 0, 512);        lblHTML.Text = "";
        while (bytes > 0)
        {          // 注意：
          // 下面假定响应使用 gb2312 作为编码方式。
          // 如果内容以 ANSI 代码页形式（例如，932）发送，则使用类似下面的语句：
          //Encoding encode = System.Text.Encoding.GetEncoding("shift-jis");
          Encoding encode = System.Text.Encoding.GetEncoding("gb2312");
          lblHTML.Text = lblHTML.Text + encode.GetString(read, 0, bytes);

          bytes = ReceiveStream.Read(read, 0, 512);

        }
    } catch(Exception) {
        lblHTML.Text = "检索页时出错";
    }
lblHTML.Text = lblHTML.Text.Replace("src=",""+urliii+"");
lblHTML.Text = lblHTML.Text.Replace("\"","");
  }
</SCRIPT>
</head><body>  <form method="post" runat="server">

    <asp:Label runat=server ID="lblHTML" Rows="30" Cols="80" EnableViewState="false"  Wrap="True"></asp:Label>
  </form></body>
</html>