要做一个类似纯文本网页浏览器的东东,不知道怎么写正则表达式提取网页源代码中的内容,要求保留文字和链接,其他的图片,声音文件都不需要

解决方案 »

  1.   

    楼主如果牛b的话直接写html的渲染引擎好了~~~
    我看楼主连html都不大了解~~哎~~~
      

  2.   

    html的渲染引擎?没什么用处,我要求是把源代码分离,不单单是显示问题!要求留HTML的构架和格式
      

  3.   

    楼主应该把问题讲清楚,有时实际一个东西有很多途径。
    比如:若只是显示HTML,那你可以用.NET2005中的webbrowse。同时WEBBROWSE中还支持javascript,能灵活处理HTML的节点。
      

  4.   

    是不是要解析下 DOM 树呢……感觉比自己写 Regex 的规则容易些吧……没怎么做过 .NET 下的 XML 处理……
    不过网页要是不规范就不好弄了吧……
      

  5.   

    我是用WEBBROWSE,当然是要最终还是显示一个HTML形式,其实目的就是一个,提取网页代码中的特定内容,即文本信息!但是链接保留。懂正则的帮忙看看这个正则行不行啊,但是VB里的,怎么把它改到c#中去?
    New Regex("<(?<outeratg>[a-z]+[\d]?)(?<attributes>[^>]*)*>"
              &_"(?<interhtml>)(<(?<innertag>[a-z]+[\d]?)[^>]"
              &_"*>.*?<^k<intertag>>|<[a-z]+[\d]?[^[>]*>|"
              &_"(?>[^<]*))*(?=<^k<outertag>>))?",_Regexoptions.ignorecase
              Or_Regexoptions.complied Or_Regexoptions.Explicitcapture 
              Or_Regexoptions.singleLine)