$url = "http://localhost/index.php/"."$string1";
   
    $contents = file_get_contents($url);print_r($contents);        $url = "http://localhost/index.php/"."$string1";
   
    $contents = file_get_contents($url);//print_r($contents);    
       
   if((preg_match_all('/(<h1.*<\/table>)/iUs', $contents, $match))){
        $contents = $match[1][0];
    }
print_r($contents);
为什么这2段代码打印出的结果是一样的啊,这个网页是<h1>...</table>结构的啊,其他类似的能成功截取,就是这个网页打印出的结果和没截取是一样的

解决方案 »

  1.   

    第二段正则的地方输出看下
       if((preg_match_all('/(<h1.*<\/table>)/iUs', $contents, $match))){
             echo '333';                   //测试下是否正则匹配到
            $contents = $match[1][0];
            var_dump($contents);           //打印输出看下
        }
      

  2.   

    网页是<h1>...</table>结构。而 preg_match_all('/(<h1.*<\/table>)/iUs 等于是匹配全部结构。
    又 $contents = $match[1][0]; //如果页面仅有一个<h1>...</table> 结构。那么。跟file_get_contents()得出的结果不是一样。是什么?
      

  3.   


    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
    <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-sg" lang="zh-sg" dir="ltr">
    <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    <meta name="keywords" content="危险品,(二)乙硫醚,(二)甲醚,(正)庚胺,1,1,1,2-四氯乙烷,1,1,1-三氟乙烷,1,1,1-三氯乙烷,1,1,2,2-四氯乙烷,1,1,2,2-四溴乙烷,1,1,2-三氯乙烷,1,1-二乙氧基乙烷" />
    <link rel="shortcut icon" href="/favicon.ico" />
    <link rel="search" type="application/opensearchdescription+xml" href="/opensearch_desc.php" title="(中文(简体))" />
    <link title="Creative Commons" type="application/rdf+xml" href="/index.php?title=%E5%8D%B1%E9%99%A9%E5%93%81%E7%9F%A5%E8%AF%86%E5%BA%93&amp;action=creativecommons" rel="meta" />
    <link rel="copyright" href="http://www.gnu.org/copyleft/fdl.html" />
    <title>AEED - 危险品</title>
    <style type="text/css" media="screen,projection">/*<![CDATA[*/ @import "/skins/monobook/main.css?42b"; /*]]>*/</style>
    <link rel="stylesheet" type="text/css" media="print" href="/skins/common/commonPrint.css?42b" />
    <link rel="stylesheet" type="text/css" media="handheld" href="/skins/monobook/handheld.css?42b" />
    <!--[if lt IE 5.5000]><style type="text/css">@import "/skins/monobook/IE50Fixes.css?42b";</style><![endif]-->
    <!--[if IE 5.5000]><style type="text/css">@import "/skins/monobook/IE55Fixes.css?42b";</style><![endif]-->
    <!--[if IE 6]><style type="text/css">@import "/skins/monobook/IE60Fixes.css?42b";</style><![endif]-->
    <!--[if IE 7]><style type="text/css">@import "/skins/monobook/IE70Fixes.css?42b";</style><![endif]-->
    <!--[if lt IE 7]><script type="text/javascript" src="/skins/common/IEFixes.js?42b"></script>
    <meta http-equiv="imagetoolbar" content="no" />
    <script type= "text/javascript">/*<![CDATA[*/
    var skin = "monobook";
    var stylepath = "/skins";
    var wgArticlePath = "/index.php/$1";
    var wgScriptPath = "";
    var wgServer = "http://localhost";
    var wgCanonicalNamespace = "";
    var wgCanonicalSpecialPageName = false;
    var wgNamespaceNumber = 0;
    var wgPageName = "危险品";
    var wgTitle = "危险品";
    var wgArticleId = "7602";
    var wgIsArticle = true;
    var wgUserName = null;
    var wgUserLanguage = "zh-sg";
    var wgContentLanguage = "zh-sg";
    var wgBreakFrames = false;
    var wgCurRevisionId = "9017";
    /*]]>*/</script> <script type="text/javascript" src="/skins/common/wikibits.js?42b"><!-- wikibits js --></script>
    <script type="text/javascript" src="/index.php?title=-&amp;action=raw&amp;gen=js"><!-- site js --></script>
    <style type="text/css">/*<![CDATA[*/
    @import "/index.php?title=MediaWiki:Common.css&usemsgcache=yes&action=raw&ctype=text/css&smaxage=18000";
    @import "/index.php?title=MediaWiki:Monobook.css&usemsgcache=yes&action=raw&ctype=text/css&smaxage=18000";
    @import "/index.php?title=-&action=raw&gen=css&maxage=18000";
    /*]]>*/</style>
    <!-- Head Scripts -->
    </head>
    <body  class="mediawiki ns-0 ltr page-危险品知识库">
    <div id="globalWrapper">
    <div id="column-content">
    <div id="content">
    <a name="top" id="top"></a>
    <h1 class="firstHeading">危险品知识库</h1>
    <div id="bodyContent">
    <h3 id="siteSub">取自 AEED</h3>
    <div id="contentSub"></div>
    <div id="jump-to-nav">跳转到: <a href="#column-one">导航</a>, <a href="#searchInput">搜索</a></div> <!-- start content -->
    <table><tr><td><a href="/index.php/%E8%8B%AF%E5%B9%B6%28a%29%E8%8A%98" title="苯并(a)芘">苯并(a)芘</a></td><td><a href="/index.php/%E8%8B%AF%E5%B9%B6%28b%29%E8%8D%A7%E8%92%BD" title="苯并(b)荧蒽"> 苯并[b]荧蒽</a></td><td><a href="/index.php/%E8%8B%AF%E5%B9%B6%28k%29%E8%8D%A7%E8%92%BD" title="苯并(k)荧蒽"> 苯并[k]荧蒽</a></td><td><a href="/index.php/%E8%8B%AF%E5%B9%B6%28ghi%29%E5%8C%97%28%E8%8D%89%E5%AD%97%E5%A4%B4%29" title="苯并(ghi)北(草字头)"> 苯并[ghi]北(草字头)</a></td></tr><tr><td><a href="/index.php/%E8%8C%9A%E5%B9%B6%281%2C2%2C3-cd%29%E8%8A%98" title="茚并(1,2,3-cd)芘"> 茚并[1,2,3-cd]芘</a></td><td><a href="/index.php/%E8%8B%AF%E5%B9%B6%28a%29%E8%92%BD" title="苯并(a)蒽">苯并(a)蒽</a></td><td><a href="/index.php/%E9%BB%84%E6%9B%B2%E9%9C%89%E6%AF%92%E7%B4%A0" title="黄曲霉毒素">黄曲霉毒素</a></td><td><a href="/index.php/%E9%98%B4%E7%A6%BB%E5%AD%90%E6%B4%97%E6%B6%A4%E5%89%82%28LAS%29" title="阴离子洗涤剂(LAS)">阴离子洗涤剂(LAS)</a></td></tr><tr><td><a href="/index.php/%E4%BA%8C%E6%BA%B4%E4%B8%80%E6%B0%AF%E7%94%B2%E7%83%B7" title="二溴一氯甲烷">二溴一氯甲烷</a></td><td><a href="/index.php/%E4%B8%80%E6%BA%B4%E4%BA%8C%E6%B0%AF%E7%94%B2%E7%83%B7" title="一溴二氯甲烷">一溴二氯甲烷</a></td><td><a href="/index.php/N-%E4%BA%9A%E7%A1%9D%E5%9F%BA%E4%BA%8C%E4%B8%99%E8%83%BA" title="N-亚硝基二丙胺">N-亚硝基二丙胺</a></td><td><a href="/index.php/%E9%93%85" title="铅">铅</a></td></tr><tr><td><a href="/index.php/%E9%93%AC" title="铬">铬</a></td><td><a href="/index.php/%E9%95%89" title="镉">镉</a></td><td><a href="/index.php/%E8%87%AD%E6%B0%A7" title="臭氧">臭氧</a></td><td><a href="/index.php/%E5%B7%B1%E5%86%85%E9%85%B0%E8%83%BA" title="己内酰胺">己内酰胺</a></td></tr><tr><td><a href="/index.php/%E7%94%B2%E5%9F%BA%E6%B1%9E" title="甲基汞">甲基汞</a></td><td><a href="/index.php/%E9%85%9E%E9%85%B8%E4%BA%8C%E7%94%B2%E9%85%AF" title="酞酸二甲酯">酞酸二甲酯</a></td><td><a href="/index.php/%E9%85%9E%E9%85%B8%E4%BA%8C%E8%BE%9B%E9%85%AF" title="酞酸二辛酯">酞酸二辛酯</a></td><td><a href="/index.php/%E9%85%9E%E9%85%B8%E4%BA%8C%E4%B8%81%E9%85%AF" title="酞酸二丁酯">酞酸二丁酯</a></td></tr><tr><td><a href="/index.php/%E9%85%9E%E9%85%B8%E4%BA%8C%E4%B9%99%E9%85%AF" title="酞酸二乙酯">酞酸二乙酯</a></td></tr></table><!-- Saved in parser cache with key wikidb:pcache:idhash:7602-0!1!0!!zh-sg!2 and timestamp 20120327031501 -->
    <div class="printfooter">
    取自"<a href="http://localhost/index.php/%E5%8D%B1%E9%99%A9%E5%93%81%E7%9F%A5%E8%AF%86%E5%BA%93">http://localhost/index.php/%E5%8D%B1%E9%99%A9%E5%93%81%E7%9F%A5%E8%AF%86%E5%BA%93</a>"</div>
    <!-- end content -->
    <div class="visualClear"></div>
    </div>
    </div>
    </div>
    <div id="column-one">
    <div id="p-cactions" class="portlet">
    <h5>查看</h5>
    <div class="pBody">
    <ul>
     <li id="ca-nstab-main" class="selected"><a href="/index.php/%E5%8D%B1%E9%99%A9%E5%93%81%E7%9F%A5%E8%AF%86%E5%BA%93">条目</a></li>
     <li id="ca-talk" class="new"><a href="/index.php?title=Talk:%E5%8D%B1%E9%99%A9%E5%93%81%E7%9F%A5%E8%AF%86%E5%BA%93&amp;action=edit">讨论</a></li>
     <li id="ca-edit"><a href="/index.php?title=%E5%8D%B1%E9%99%A9%E5%93%81%E7%9F%A5%E8%AF%86%E5%BA%93&amp;action=edit">编辑</a></li>
     <li id="ca-history"><a href="/index.php?title=%E5%8D%B1%E9%99%A9%E5%93%81%E7%9F%A5%E8%AF%86%E5%BA%93&amp;action=history">历史</a></li>
    </ul>
    </div>
    </div>
    <div class="portlet" id="p-personal">
    <h5>个人工具</h5>
    <div class="pBody">
    <ul>
    <li id="pt-login"><a href="/index.php?title=Special:Userlogin&amp;returnto=%E5%8D%B1%E9%99%A9%E5%93%81%E7%9F%A5%E8%AF%86%E5%BA%93">登录/注册</a></li>
    </ul>
    </div>
    </div>
    <div class="portlet" id="p-logo">
    <a style="background-image: url(C:/AEED/PHPnow/htdocs/images/logo.png);" href="/index.php/%E9%A6%96%E9%A1%B5" title="首页"></a>
    </div>
    <script type="text/javascript"> if (window.isMSIE55) fixalpha(); </script>
    <div class='portlet' id='p-.E7.9F.A5.E8.AF.86.E5.BA.93'>
    <h5>知识库</h5>
    <div class='pBody'>
    <ul>
    <li id="n-.E7.9F.A5.E8.AF.86.E5.BA.93"><a href="/index.php/%E7%9F%A5%E8%AF%86%E5%BA%93">知识库</a></li>
    <li id="n-.E5.8D.B1.E9.99.A9.E5.93.81.E7.9F.A5.E8.AF.86.E5.BA.93"><a href="/index.php/%E5%8D%B1%E9%99%A9%E5%93%81%E7%9F%A5%E8%AF%86%E5%BA%93">危险品知识库</a></li>
    <li id="n-.E5.B8.B8.E8.A7.81.E5.8D.B1.E9.99.A9.E5.93.81.E5.A4.84.E7.BD.AE.E6.96.B9.E6.B3.95"><a href="/index.php/%E5%B8%B8%E8%A7%81%E5%8D%B1%E9%99%A9%E5%93%81%E5%A4%84%E7%BD%AE%E6%96%B9%E6%B3%95">常见危险品处置方法</a></li>
    <li id="n-.E7.8E.AF.E5.A2.83.E6.A0.87.E5.87.86.E5.BA.93"><a href="/index.php/%E7%8E%AF%E5%A2%83%E6%A0%87%E5%87%86%E5%BA%93">环境标准库</a></li>
    <li id="n-.E7.8E.AF.E5.A2.83.E6.B3.95.E5.BE.8B.E6.B3.95.E8.A7.84.E5.BA.93"><a href="/index.php/%E6%B3%95%E5%BE%8B%E6%B3%95%E8%A7%84">环境法律法规库</a></li>
    </ul>
    </div>
    </div>
    <div id="p-search" class="portlet">
    <h5><label for="searchInput">搜索</label></h5>
    <div id="searchBody" class="pBody">
    <form action="/index.php/Special:Search" id="searchform"><div>
    <input id="searchInput" name="search" type="text" accesskey="f" value="" />
    <input type='submit' name="go" class="searchButton" id="searchGoButton" value="进入" />&nbsp;
    <input type='submit' name="fulltext" class="searchButton" id="mw-searchButton" value="搜索" />
    </div></form>
    </div>
    </div>
    <div class="portlet" id="p-tb">
    </div>
    </div> <div id="f-copyrightico"><a href="http://www.gnu.org/copyleft/fdl.html"><img src="/skins/common/images/gnu-fdl.png" alt='GNU Free Documentation License 1.2' /></a></div>
    </div>
    <script type="text/javascript">if (window.runOnloadHook) runOnloadHook();</script>
    </div>
    <!-- Served by localhost in 0.256 secs. --></body></html>
      

  4.   

    <table>...</table>之间删除了很多词汇,不然发不出来。应该没影响吧
      

  5.   

    我只要<h1>和<table>的内容,其他不要的
      

  6.   

    正则表达式有错误,改成:
    preg_match_all('/<h1>.*<\/table>/sU', $contents, $match)
      

  7.   

    preg_match('/<h1.+<\/table>/is',$str,$m);
    echo $m[0];
      

  8.   

    截取出来再存储报这个错误:You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near '">3,3'-二氯联苯胺<a href="/index.php/%E7%A1%AB%E9%85%B8%E9%93%' at line 1这个附近都是截取的内容啊!奇怪了这个字段是mediumtext类型,截取出来的内容我用word查看了下有59页,是不是长度太大了?
      

  9.   

    '">3,3'-二氯联苯胺<a ...
    你入库的数据没有做转义处理,所以出错mediumtext类型最大可存放 16M 字符,应该足够了
      

  10.   

    $url = "http://localhost/index.php/"."$string1";
       
        $contents = file_get_contents($url);if((preg_match_all('/(<h1.+<\/table>)/is',$contents,$match))){
          $contents = $match[0];
          echo $contents[0];
           mysql_query("set names 'utf8'");
          
          $SQL="
          INSERT INTO pagecontents (old_title,old_text) VALUES('{$string}','{$contents[0]}')";
          
          mysql_query($SQL) or die(mysql_error());
        }这是代码
      

  11.   

    $content=mysql_real_escape_string($contents[0]);
    $SQL="INSERT INTO pagecontents (old_title,old_text) VALUES('{$string}','{$content}')";