如何实现从文章中提取关键字及相关内容?如http://bj.house.sina.com.cn/scan/2009-06-29/1201317531.html里不仅能提取楼盘名字,还有相关的论坛、相册等内容的链接。

解决方案 »

  1.   


    <?php
    $theurl="http://bj.house.sina.com.cn/scan/2009-06-29/1201317531.html";
    if (!($contents= file_get_contents($theurl)))
    {
      echo 'Could not open URL';
      exit;
    }
      $pattern_img='/<img.*src=(\"|\')(.+)\1.*>/U';
      $pattern_link='/<a.*>.*<\/a>/U';
      if (preg_match_all($pattern_img,$contents,$quote))
      {
       echo "<p>图片<br />";
    foreach($quote[2] as $img)
    echo "<img src='".$img."'/><br/>\n";
    echo '</p>';
      }
      else
      {
        echo '<p>没有图片 </p>';
      }
      
      if (preg_match_all($pattern_link,$contents,$quote1))
      {
        echo "<p>链接<br />";
    foreach($quote1[0] as $link)
    echo $link."<br/>\n";
    echo '</p>';
      }
      else
      {
        echo '<p>没有链接 </p>';
      }
    ?>
      

  2.   

    学习了,我的小说站 织梦文学 http://www.zm17.com 也想加这个功能,
      

  3.   

    谢谢二楼的CODE,我是初学者,但我觉得好像没有提取到相关的论坛、相册等内容 的链接。
      

  4.   

    我有一个思路,不知道对不对,请高人指点,或者给出CODE,谢谢思路:
    1、从文章中获取关键字:用正则表达式判断<a></a>,提取文章中的关键字,如楼盘名称;
    2、从数据库提取关键字所在的数据表的相关字段,如论坛、相册等字段;
    3、判断,提取相关字段链接,显示出来。
      

  5.   

    二楼是正确的,讲一下实现的基本流程用函数获取网页file_get_contents内容;
    写出你要匹配的正则
    用正则提取网页内容
    根据要求进一步提纯你提取的数据。