这些网站主要是信息量大,采集论文全文深度一般都有三级,这种的采集怎么做好点或有没有成型的采集系统,给我推荐一下或共享一下。

解决方案 »

  1.   


    获取万方数据的关键,是准确构建URL地址。以下是部分代码:     echo "您搜索的数据库是:中国医药数字化期刊群<br>";
          if($type!="")
             $kwx=urlencode($type).'%3D%22'.urlencode($kw).'%22';
          else
          {
             if($inresults==1) $kwx="%28%22".urlencode($kw)."%22%29+and+%28%22".urlencode($old_kw)."%22%29";
             else  $kwx="%22".urlencode($kw)."%22";      }      $kws="http://SERVER_NAME/Search/ResourceDataListPage.aspx?database=".($db==1?"yy_qikan":"cma_qikan")."&expression=$kwx&perPage=$s&pageno=$page&sortableField=&sortMode=None&hitList=yy_qikan%5eyy_qikan%7e76343%24cma_qikan%5ecma_qikan%7e14146&recordSchema=&searchMode=Junior&kanName=&";
          $data=@file_get_contents($kws);
    获取后,就是正则匹配,分析出具体内容了。