网址是:http://www.bjft.gov.cn/FTXW/SPXW/list.html?SPXW?视频新闻
我要抓取信息,可查看源代码是却找不到信息
在内容的地方就有下面的代码,怎么把内容给提取出来呢?
<script>
showtitle();
</script>
我要抓取信息,可查看源代码是却找不到信息
在内容的地方就有下面的代码,怎么把内容给提取出来呢?
<script>
showtitle();
</script>
解决方案 »
- php 连接mysql失败
- wamp 环境下 vs.php 调试 问题 请教
- con't convert string to unicode 怎么解决啊?
- 求助一个PHP的网站程序,达到的效果请看文章说明
- 一个简单的算法问题?
- 如何用php得到本页的完整url?
- 什么是哈希表?还有mysql的autoincrement字段默认好像是从0开始增长的?
- 给大家提供一个学习PHP/MySQL/CGI的环境,还可以当网络硬盘使用,并免费解析域名
- 請大家指教:用戶目錄怎樣設置?如我要把 d:\project\php 設為用戶 laker 的目錄,用localhost/laker 運行 php 程序,不想把程序存于:C:\Prog
- 菜鸟级问题!只要答对,马上送分!
- 关于 zencart $db对象的调用
- 奇怪的sql错误,求解惑。
对于网页抓取方法好几种,
如果使用CURL,你去这里看看http://blog.sina.com.cn/s/blog_61b570ab0100hxm2.html
showtitles();这个函数得到的是当前url最后面的中文:http://www.bjft.gov.cn/FTXW/SPXW/list.html?SPXW?视频新闻
得到的是:视频新闻
相关的xml:http://www.bjft.gov.cn/FTXW/SPXW/SPXW.xml仔细看下这二个js:
http://www.bjft.gov.cn/util/xml.js
http://www.bjft.gov.cn/util/zxml.js
通过里面的ajax请求,就可找出数据的真实地址
showtitle就是在util/xml.js定义的
function showtitle(){
var flag = getUrlParma();
document.write(flag);
}
/**
* 091204修改,加入支持firefox
*/
function getUrlParma(){
var xmldoc, xsldoc, htmldoc;
var tempUrl=window.location.href;
var url = tempUrl.replace(/<script>/g,"").replace(/<\/script>/g,""); var url=window.location.href;
var position=url.indexOf("?");
var newsid=url.substring(position+1,url.length);
// 栏目标题
//可能存在的漏洞,可能获得攻击参数
var position=newsid.indexOf("?");
mytitle=newsid.substring(position+1,url.length);
var newsid=newsid.substring(position,url,mytitle.length);
// 引用的xml
var newsxml=newsid+".xml";
//使用zXML开源js库以获得跨浏览器的xml对象 xmldoc=zXmlDom.createDocument();
xmldoc.async = false;
if(newsid.length>8){
xmldoc.load(newsxml);
}else{
xmldoc.load("list1.xml");
} var onode=xmldoc.getElementsByTagName("InforNew");
if (window.ActiveXObject) {
var dirtitle = onode(0).childNodes(0).text;
}else{
var dirtitle = onode[0].text.split("\n")[1];
}
if(dirtitle.indexOf(mytitle)){
return dirtitle;
}else{
return mytitle;
}
}应该是读取了这个xml文件
http://www.bjft.gov.cn/FTXW/SPXW/list1.xml
function showtitle(){var flag = getUrlParma();
document.write(flag);
}
xmldoc.load("list1.xml"); 通过读取xml 文件形成的数据。生成xml 是个不错的方式。
最好直接生成rss 还能方便订阅。
我没用javascript 写过抓取
url = tempUrl.replace(/<script>/g,"").replace(/<\/script>/g,"");
//可能存在的漏洞,可能获得攻击参数
var position=newsid.indexOf("?");
mytitle=newsid.substring(position+1,url.length);
var newsid=newsid.substring(position,url,mytitle.length);???@_@
开始看javascript,我会的都是比较基础的javascript
ff是firefox么?
rss是什么?