<div class="post">
<div class="postTitle">
<a id="homepage1_HomePageDays_DaysList_DayItem_0_DayList_0_TitleUrl_0" href="http://www.cnblogs.com/liunx/archive/2011/07/25/2116000.html">数字电视的电子节目指南(EPG)及其系统</a>
</div>

<div class="postText">
<div class="c_b_p_desc">摘要: 数字电视由于传输数字化,多种业务可以混合在一起通过一个信道传输。因此,数字电视已经不是单一的电视业务,而是指通过电视传输通道传输的数字业务,包括 视频、音频、图像、数据等。全球数字电视已经进入快速发展阶段。可以预见,在今后几年,与数字电视相关的业务将大幅度增长。随之而来的问题是当数字电视 能为用户提供数倍于目前节目量的节目及多种业务时,用户怎样才能便捷地找到所要的节目和信息呢?电子节目指南(EPG)显然是必不可少的工具。<a href="http://www.cnblogs.com/liunx/archive/2011/07/25/2116000.html" class="c_b_p_desc_readmore">阅读全文</a></div>
</div>

<div class="postFoot">
posted @ 2011-07-25 11:32 一条辉 阅读(10) | 评论(0) |  <a href ="#" onclick="open_link('http://www.cnblogs.com/liunx/admin/EditPosts.aspx?postid=2116000')" rel="nofollow">编辑</a>
</div>
</div>
<br>

<div class="post">
<div class="postTitle">
<a id="homepage1_HomePageDays_DaysList_DayItem_0_DayList_0_TitleUrl_1" href="http://www.cnblogs.com/liunx/archive/2011/07/25/2115998.html">基于DVB-SI的数字有线电视机顶盒节目指南的设计实现</a>
</div>

<div class="postText">
<div class="c_b_p_desc">摘要: 本文介绍了电子节目指南信息的构成以及MPEG-2 PSI和DVB-SI信息规范,提出了一种EPG信息的存储结构和节目数据库的生成方案,并据此讲述了如何在数字有线电视机顶盒中生成电子节目指南EPG。<a href="http://www.cnblogs.com/liunx/archive/2011/07/25/2115998.html" class="c_b_p_desc_readmore">阅读全文</a></div>
</div>

<div class="postFoot">
posted @ 2011-07-25 11:31 一条辉 阅读(6) | 评论(0) |  <a href ="#" onclick="open_link('http://www.cnblogs.com/liunx/admin/EditPosts.aspx?postid=2115998')" rel="nofollow">编辑</a>
</div>
</div>
<br>

<div class="post">
<div class="postTitle">
<a id="homepage1_HomePageDays_DaysList_DayItem_0_DayList_0_TitleUrl_2" href="http://www.cnblogs.com/liunx/archive/2011/07/25/2115956.html">电子节目指南(EPG)在机顶盒中的实现</a>
</div>

<div class="postText">
<div class="c_b_p_desc">摘要: 电子节目指南(Electronic Program Guide,EPG),是指在符合MPEG-2 (13818-1)的TS传输流中插入DVB标准定义的业务信息(Service Information,SI),使机顶盒(Set-Top-Box)的综合接收解码器(IRD)可以从TS流中提取出节目提供商播出节目的列表和播出参数,以直观的形式显示给数字电视用户,使得用户可以方便地接收、选择数字电视节目。EPG信息由两部分信息组成(如图):基本EPG信息和扩展EPG信息。<a href="http://www.cnblogs.com/liunx/archive/2011/07/25/2115956.html" class="c_b_p_desc_readmore">阅读全文</a></div>
</div>

<div class="postFoot">
posted @ 2011-07-25 11:00 一条辉 阅读(3) | 评论(0) |  <a href ="#" onclick="open_link('http://www.cnblogs.com/liunx/admin/EditPosts.aspx?postid=2115956')" rel="nofollow">编辑</a>
</div>
</div>
<br>
请问如何采集到地址 文章标题 日期等等 并对应上 多谢了 有加分

解决方案 »

  1.   

    便利整个文本找到对应节点,找到保存。
    关键在于文本的结构,楼主可以找找html文本的定义方式。
      

  2.   

    (?is)<div[^>]*?class=(['"\s]?)postTitle\1[^>]*?>.*?<a[^>]*?href=(['"\s]?)(?<href>[^'"\s]+)\2[^>]*?>(?<title>[^<>]+)</a>.*?<div[^>]*?class=(['"\s]?)postFoot\3[^>]*?>.*?posted\s*@\s*(?<time>[\d\-\s:]+)
      

  3.   


    void Main()
    {
     string str=@"<div class=""post"">
    <div class=""postTitle"">
    <a id=""homepage1_HomePageDays_DaysList_DayItem_0_DayList_0_TitleUrl_0"" href=""http://www.cnblogs.com/liunx/archive/2011/07/25/2116000.html"">数字电视的电子节目指南(EPG)及其系统</a>
    </div><div class=""postText"">
    <div class=""c_b_p_desc"">摘要: 数字电视由于传输数字化,多种业务可以混合在一起通过一个信道传输。因此,数字电视已经不是单一的电视业务,而是指通过电视传输通道传输的数字业务,包括 视频、音频、图像、数据等。全球数字电视已经进入快速发展阶段。可以预见,在今后几年,与数字电视相关的业务将大幅度增长。随之而来的问题是当数字电视 能为用户提供数倍于目前节目量的节目及多种业务时,用户怎样才能便捷地找到所要的节目和信息呢?电子节目指南(EPG)显然是必不可少的工具。<a href=""http://www.cnblogs.com/liunx/archive/2011/07/25/2116000.html"" class=""c_b_p_desc_readmore"">阅读全文</a></div>
    </div><div class=""postFoot"">
    posted @ 2011-07-25 11:32 一条辉 阅读(10) | 评论(0) | <a href =""#"" onclick=""open_link('http://www.cnblogs.com/liunx/admin/EditPosts.aspx?postid=2116000')"" rel=""nofollow"">编辑</a>
    </div>
    </div>
    <br><div class=""post"">
    <div class=""postTitle"">
    <a id=""homepage1_HomePageDays_DaysList_DayItem_0_DayList_0_TitleUrl_1"" href=""http://www.cnblogs.com/liunx/archive/2011/07/25/2115998.html"">基于DVB-SI的数字有线电视机顶盒节目指南的设计实现</a>
    </div><div class=""postText"">
    <div class=""c_b_p_desc"">摘要: 本文介绍了电子节目指南信息的构成以及MPEG-2 PSI和DVB-SI信息规范,提出了一种EPG信息的存储结构和节目数据库的生成方案,并据此讲述了如何在数字有线电视机顶盒中生成电子节目指南EPG。<a href=""http://www.cnblogs.com/liunx/archive/2011/07/25/2115998.html"" class=""c_b_p_desc_readmore"">阅读全文</a></div>
    </div><div class=""postFoot"">
    posted @ 2011-07-25 11:31 一条辉 阅读(6) | 评论(0) | <a href =""#"" onclick=""open_link('http://www.cnblogs.com/liunx/admin/EditPosts.aspx?postid=2115998')"" rel=""nofollow"">编辑</a>
    </div>
    </div>
    <br><div class=""post"">
    <div class=""postTitle"">
    <a id=""homepage1_HomePageDays_DaysList_DayItem_0_DayList_0_TitleUrl_2"" href=""http://www.cnblogs.com/liunx/archive/2011/07/25/2115956.html"">电子节目指南(EPG)在机顶盒中的实现</a>
    </div><div class=""postText"">
    <div class=""c_b_p_desc"">摘要: 电子节目指南(Electronic Program Guide,EPG),是指在符合MPEG-2 (13818-1)的TS传输流中插入DVB标准定义的业务信息(Service Information,SI),使机顶盒(Set-Top-Box)的综合接收解码器(IRD)可以从TS流中提取出节目提供商播出节目的列表和播出参数,以直观的形式显示给数字电视用户,使得用户可以方便地接收、选择数字电视节目。EPG信息由两部分信息组成(如图):基本EPG信息和扩展EPG信息。<a href=""http://www.cnblogs.com/liunx/archive/2011/07/25/2115956.html"" class=""c_b_p_desc_readmore"">阅读全文</a></div>
    </div><div class=""postFoot"">
    posted @ 2011-07-25 11:00 一条辉 阅读(3) | 评论(0) | <a href =""#"" onclick=""open_link('http://www.cnblogs.com/liunx/admin/EditPosts.aspx?postid=2115956')"" rel=""nofollow"">编辑</a>
    </div>
    </div>
    <br>";
        foreach(Match m in Regex.Matches(str,@"(?is)<div[^>]*?class=(['""\s]?)postTitle\1[^>]*?>.*?<a[^>]*?href=(['""\s]?)(?<href>[^'""\s]+)\2[^>]*?>(?<title>[^<>]+)</a>.*?<div[^>]*?class=(['""\s]?)postFoot\3[^>]*?>.*?posted\s*@\s*(?<time>[\d\-\s:]+)"))
    {
       Console.WriteLine("{0}\t{1}\t{2}",m.Groups["href"].Value,m.Groups["title"].Value,m.Groups["time"].Value);
       
    }
    /*
    http://www.cnblogs.com/liunx/archive/2011/07/25/2116000.html 数字电视的电子节目指南(EPG)及其系统 2011-07-25 11:32 
    http://www.cnblogs.com/liunx/archive/2011/07/25/2115998.html 基于DVB-SI的数字有线电视机顶盒节目指南的设计实现 2011-07-25 11:31 
    http://www.cnblogs.com/liunx/archive/2011/07/25/2115956.html 电子节目指南(EPG)在机顶盒中的实现 2011-07-25 11:00 
    */
    }
      

  4.   

    string s = File.ReadAllText(Server.MapPath("~/test.txt"));
    MatchCollection matches = Regex.Matches(s, @"(?<=homepage1_HomePageDays_DaysList_DayItem_0_DayList_0_TitleUrl.+?href="")(?<href>.+?)"">(?<title>.+?)(?=</a>)");
    foreach (Match match in matches)
    {
    Response.Write("地址:" + match.Groups["href"].Value + "<br>");
    Response.Write("标题:" + match.Groups["title"].Value + "<br>");
    Response.Write("日期:" + Regex.Match(match.Groups["href"].Value, @"\d{4}/\d{2}/\d{2}").Value + "<br/><br/>");
    }