随便找一个新浪的页面进行采集,发现title部分能够获取,但正文部分(通过查看页面源码)不能获取,不知道为何?function contents($preg,$con,$num=1) {
    
    preg_match($preg,$con,$arr);

        return $arr[$num];
}$con=file_get_contents("http://mil.news.sina.com.cn/2012-12-14/1646709659.html");
$preg="#<title>(.*)</title>#";     
echo  contents($preg,$con);  //获取title  ok的//但获取正文部分不能,啥也没有返回,其中<!-- 正文内容 begin -->是页面正文的开头
//                                 <!-- 正文内容 end -->是页面正文结束echo contents("#<!-- 正文内容 begin -->(.*)<!-- 正文内容 end --> #iUs",$con);
//这里返回为空
?>

解决方案 »

  1.   

    为什么我这边正常返回正文~~~~~想知道如果想采集新浪当天的新闻~~应该怎么样对URL处理美国海军最后一架F-35C试验机完成试飞 |试验机|美国海军|弹射起飞_新浪军事 
      中新网12月14日电 据中国国防科技信息网报道,12月11日,编号为CF-5的美国海军F-35C“闪电Ⅱ”试验机在美国德克萨斯州福特沃斯试飞成功,该飞机是帕图森河海军航空站集成测试部队的最后一架F-35C试验机,试验机的主要作用是用来验证飞机和军舰的适配性以及进行大攻角测试。  F-35C“闪电Ⅱ”战斗机与F-35A和F-35B有很大不同,该机拥有更大的翼面和增强型着陆装置,这使得飞机能够承受在航母上弹射起飞和在甲板降落时的影响。  在正式交付舰队之前,F-35C一直在帕图森河海军航空站接受飞行测试和相关评估。(中国船舶工业综合技术经济研究院 宋磊)   
      

  2.   

    本帖最后由 xuzuning 于 2012-12-14 21:31:23 编辑
      

  3.   

    楼上提醒我,知道原因了,新浪页面是gb2312,我用的是utf8.因此不能提取出来,我的页面用gb2312就ok了。
    同样问题又出来:为何不是乱码而是什么都没有??
      

  4.   

    本帖最后由 xuzuning 于 2012-12-15 21:03:58 编辑