小弟在
http://tool.chinaz.com/Tools/Robot.aspx
页面中输入
http://0791.8ff.cn/loupan/langxianwaitanmingzuo/ 
就可显示搜索引擎要抓取的此页面的内容,抓取的内容如:首页新房新闻开盘社区论坛环境选房湖畔楼盘临江楼盘成熟配套校园周边热门商区价格选房待定2500-35003500-50005000-60006000以上地段选房东湖西湖青云谱湾里青山湖新建县南昌县红谷滩安义县进贤县高新区南昌经济技术英雄经济技术隆鑫广场 万科四季花城 水榭花都 平安象湖风情 香溢花城 首页>新房>朗贤外滩铭座朗贤外滩铭座所属区域:东湖2009-03-11  访问人数:7113楼盘相册...
我现要问的就是 在上面的内容中,
1怎么把其内容分词,如把“首页新房新闻”,可分成 “首页 新房 新闻” 或” 首页 新房新闻“也成,(只要能得到词语就成)
2把分到的词出现密度最高的词输出来,
这功能要怎么实现呀,(最好是贴可运行的代码)thanks

解决方案 »

  1.   

    http://d.download.csdn.net/down/519252/luxu001207
      

  2.   

    http://www.hightman.cn/demo/scws/v4.php 
    你可以参考这个 并且有源码,
    这个是源码http://www.hightman.cn/demo/scws/v4.php?source
      

  3.   

    先采集,输出的内容全是文字
    function getHouseInfo($url)
    { $HTML = @file_get_contents($url);
    return $HTML;
    }
       $str= getHouseInfo("http://0791.8ff.cn/");
       $search = array ("'<script[^>]*?>.*?</script>'si", // 去掉 javascript
                     "'<[\/\!]*?[^<>]*?>'si",           // 去掉 HTML 标记
                     "'([\r\n])[\s]+'",                 // 去掉空白字符
                     "'&(quot|#34);'i",                 // 替换 HTML 实体
                     "'&(amp|#38);'i",
                     "'&(lt|#60);'i",
                     "'&(gt|#62);'i",
                     "'&(nbsp|#160);'i",
                     "'&(iexcl|#161);'i",
                     "'&(cent|#162);'i",
                     "'&(pound|#163);'i",
                     "'&(copy|#169);'i",
                     "'&#(\d+);'e");                    // 作为 PHP 代码运行$replace = array ("",
                      "",
                      "\\1",
                      "\"",
                      "&",
                      "<",
                      ">",
                      " ",
                      chr(161),
                      chr(162),
                      chr(163),
                      chr(169),
                      "chr(\\1)");$text = preg_replace ($search, $replace, $str);
    $text=strip_tags($text);
    echo $text;
      

  4.   

    大家运行下这地址
    http://0791.8ff.cn/test.php
    就可得到我采集出来的内容,
    可对这些内容,怎么分词呀,(楼盘名为一词)
      

  5.   

    其实是中文分词的问题,到google搜索下
      

  6.   

    dedesplit 可下载,再修改,
      

  7.   

    最后用的是PSCWS23
    基本上可分词了,谢谢大家