哪位老大深入剖析一下百度快照的内部机理,如何把爬下来的网页做成快照保存起来。 把代码以mht的格式存的到数据库理就可以了,调用的时候直接调用,格式为mht。显示后就是网页了。 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 5楼的 朋友,我试了一下 用手工的方式可以另存成mht,用ie可以打开。但是,Firefox就不行了。baidu google的快照技术可能没这么简单吧 我想不通这有什么难的,你看baidu快照的内容去,不就是html代码么?图片什么的,都是引用原来的地方。 直接保存抓下来的html的就可以了 看了一快照的源码,和雪候鸟的描述差不多快照存的不是图片个人觉得一是直接取源码(这是最简单的)第二个可能是:如果有CSS或javascript外部引用文件,则将其写入头文件如果图片使用的是相对种径,链接或被丢失(当然这个也是能转换的,但预计不会那么复杂) mht是邮件文档格式,在没outlook express的情况下,打不开,如ff中就不能直接打开 1、把页面采集下来。2、对其调用的css js image等做增加连接地址的处理。比如,img=images/123.gif。处理后,应该为img=URL/images/123.gif3、将内容转换为非html格式,方便保存。4、保存到数据库。5、显示的时候,从数据库内调用。并转换为html。6、直接显示。就相当于你把获得页面内容当成一段文字来处理。处理好后再显示出来。 [code=汇编]下班之前,学习一下![/code] php如何进行正则匹配 header重定向问题 看看这个类有什么问题!~~ php关于mysql数据库的设置问题 生成的验证码图片无法显示,如图 php 取不到SESSION Redhat9.0上的apache显示中文的问题!!! 简单问题,但我不会,知道一小下 收集PHP操作word,excel非数据库文档的方法文章 搜索结果的显示 如何将<DIV> 按照html显示 用PHP开发这个论坛最便宜要多少钱
baidu google的快照技术可能没这么简单吧
图片什么的,都是引用原来的地方。
快照存的不是图片个人觉得
一是直接取源码(这是最简单的)
第二个可能是:如果有CSS或javascript外部引用文件,则将其写入头文件
如果图片使用的是相对种径,链接或被丢失(当然这个也是能转换的,但预计不会那么复杂)
2、对其调用的css js image等做增加连接地址的处理。比如,img=images/123.gif。处理后,应该为img=URL/images/123.gif
3、将内容转换为非html格式,方便保存。
4、保存到数据库。
5、显示的时候,从数据库内调用。并转换为html。
6、直接显示。就相当于你把获得页面内容当成一段文字来处理。处理好后再显示出来。
下班之前,学习一下!
[/code]