我现在能抓到一个网页的信息,我要如何去分析这个网页把上面的文章全部抓取下来?
我看了下那个网页的原代码并无很长的中文字,应该是引用了其他的东西显示出来的。
我想问下我的正则表达式要怎么写或者是抓取哪到哪的关键字的中间部分就可以了。

解决方案 »

  1.   

    正则表达式要根据你的需求来写,不同的内容,不容的结果,正则也不同或者将文本转换为HtmlDomcument来解析
      

  2.   

    如果我想写正则的话,我是该截图哪些关键字后面的东西呢?我现在就是看了源码不知道他的文章是放在哪句HTML语言里面的
      

  3.   

    用IE9,或者google的浏览器,再或者搜狗、360浏览器,F12按键,可以有序的显示源码,自己看吧
      

  4.   

    ent.qq.com/a/20130619/024971.htm这是网址。我想抓取到的是
    腾讯娱乐讯 昨日,由寰亚电影、华夏视听、萌影画联合出品,导演金依萌原创剧本并执导的首部性感喜剧《一夜惊喜》曝光了范冰冰片中突破尺度大玩颠覆的花絮,一向以性感貌美、强势大气的女神形象示人的范爷突破尺度,在曝光的特辑中一会儿满脸爆豆瞪大双眼扮鬼脸,一会儿又丢掉淑女形象傍身大帅哥丹尼尔·亨利索吻卖萌,一会儿又泣不成声披头散发摔书发泄,此次在新作《一夜惊喜》中,挑战演技突破自我的范冰冰全面释放“范得了二,范得了萌”的另一面,引发观众对七夕电影将揭开范冰冰突破成果的强烈期待。此外,在这支特辑中同时曝光了被誉为“九头身美女”的吴佩慈加盟七夕性感喜剧《一夜惊喜》中,不过一上来就被怒气冲冲的范冰冰一边痛骂一边用网球砸得狼狈倒地,而戏外吴佩慈又恢复一贯优雅形象“不计前嫌”直言范爷是少有的大气女人。范冰冰突破自我颠覆挑战 性感女神“卖萌犯二”在性感喜剧《一夜惊喜》发布的范冰冰突破自我特辑中,以性感女神的美艳形象被万千屌丝誉为梦中情人的范冰冰不同以往,完成了其在喜剧片道路上的拓展与自我突破。香港当红小生李治廷这边羞涩评价范冰冰“每一天在片场都很性感,有一种独特的魅力,是我的女神”之后,紧接着范爷就满脸爆豆扮起鬼脸;这边刚被吴佩慈评价为单纯善良的女生,那边就有内地新一代偶像蒋劲夫难掩激动形容范冰冰“像邻家姐姐,很亲切、可爱。”在特辑中“女神”范冰冰一会儿与熟男丹尼尔·亨利对戏夸张大腿傍身,而吴佩慈钦佩“强势大气”的范爷在画面中却泣不成声,擦泪的纸巾丢得到处都是;时而又看着监视器哈哈大笑,高兴得不能自已。在新片《一夜惊喜》中,女神范冰冰突破自己“范得了二,范得了萌”,等到影片七夕上映之时,她将在自己美貌自信聪明等为人熟知的标签上添加其即将曝光的另一面形容词。吴佩慈加盟性感喜剧《一夜惊喜》 和范爷过招“动作戏”在《一夜惊喜》此次曝光的特辑中,台湾“九头身美女”吴佩慈参演戏份首度曝光,第一次与范冰冰搭戏的吴佩慈一上来就和范爷过招“动作戏”,一身运动装打扮的吴佩慈被抓狂怒吼的范冰冰用网球砸得招架不住、踉跄倒地,不免让人猜想两位美女的争斗是否与哪位帅哥有关?而戏外吴佩慈表示范冰冰是善良单纯的女生,更情不自禁感叹范爷是“大气的女人”。自此这部集合范冰冰吴佩慈两大靓女,李治廷、蒋劲夫、丹尼尔·亨利三大型男的新片《一夜惊喜》将成为七夕最养眼最不容错过的性感喜剧。这篇文章!我想问下在源码里怎么找到这篇文章
    先谢谢啦
      

  5.   

    http://blog.csdn.net/jj547139491/article/details/9011913
    希望能给你一点帮助
      

  6.   


    不好意思再问下哈,我换了个网页现在源代码里面能看到文章是在<p></p>之间的都是,我现在写了一个正则表达式能抓到了但是抓出来的string有:
    <p>  新京报·新世纪联合观影&nbsp;NO.411</p>
    <p>  超人帅、两个爹也帅,打斗太像孙悟空VS贝吉塔了。&nbsp;80分</p>
    我怎么可以把2边的我不需要的东西全都切割掉呢?
      

  7.   

    <p>  &nbsp;这种标记再处理下,替换成空格或者换行什么的
      

  8.   

    不好意思再问下,我现在想要抓取<p></p>之间的内容正则写的是@"<p>.*</p>" 但是<p></p>里面有微博的<a class="wt_article_link" onmouseover="WeiboCard.show(1627256245, 'ent' , this)" href="http://weibo.com/u/1627256245?zw=ent" target="_blank">[微博]</a>这段。我想把微博这段剔除掉不要请问应该怎么修改我的正则表达式
      

  9.   

    不好意思再问下,我现在想要抓取<p></p>之间的内容正则写的是@"<p>.*</p>" 但是<p></p>里面有微博的<a class="wt_article_link" onmouseover="WeiboCard.show(1627256245, 'ent' , this)" href="http://weibo.com/u/1627256245?zw=ent" target="_blank">[微博]</a>这段。我想把微博这段剔除掉不要请问应该怎么修改我的正则表达式