想对网页内容做个检索,如题想把源码抓到内存中,再做个关键字检索。但又有好多网页直接查看源代码又没正文内容,用chrome开发人员工具,发现里面真正有内容的是一些PHP页面,这些PHP页面又要怎么获取?再获取这些PHP页面的正文内容。刚接触,完全没什么概念。求方向~~用的什么技术?chrome是怎么实现的?  最好是C++标准

解决方案 »

  1.   

    google的浏览器chrome是能够抓到的,说明技术应该是有的~~就是不知道怎么实现的~~
      

  2.   

    你只能抓取最后生成的HTML源码.
      

  3.   

    自己顶下,chrome浏览器的“开发人员工具”完全符合需求啊~ 求实现方法,大概思路~~
      

  4.   

    你是说抓php的内容? 不可能。还是抓最终的html代码? 
      

  5.   

    PHP我没写过,反正抓到的文件后缀是PHP。里面就是直接查看html源码看不见的正文内容。
    是<frameset> </frameset>这里的内容。要看的话可以加我QQ110716098截图给你们。或者你们直接用chrome浏览的开发人员工具看下
      

  6.   

    抓到的是html,因为浏览器要把这些东西呈现出来,当然这些东西会被解析的(或者顺藤摸瓜过去)
    你可以做个模拟浏览器解析的东东出来,或者开发个浏览器插件的东东出来....(额,我想到的只有这个)
      

  7.   

    真能看到php服务器端的源代码
    那还有什么安全性可言!
    是解析过的吧!
      

  8.   

    拿到源码了,用的IE的一些API,(CInternetSession,CHttpConnection,CHttpFile)模拟了一个浏览网页的过程,并把send 和 recv都做了钩子。 再gzip、UTF8解码,总算拿到直接查看源码没有的正文内容了。
    结贴了