我想采集论文网站的内容，如：知网，万方等 - 调试易

我想采集论文网站的内容，如：知网，万方等

这些网站主要是信息量大，采集论文全文深度一般都有三级，这种的采集怎么做好点或有没有成型的采集系统，给我推荐一下或共享一下。

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

获取万方数据的关键，是准确构建URL地址。以下是部分代码：     echo "您搜索的数据库是:中国医药数字化期刊群<br>";
      if($type!="")
         $kwx=urlencode($type).'%3D%22'.urlencode($kw).'%22';
      else
      {
         if($inresults==1) $kwx="%28%22".urlencode($kw)."%22%29+and+%28%22".urlencode($old_kw)."%22%29";
         else  $kwx="%22".urlencode($kw)."%22";      }      $kws="http://SERVER_NAME/Search/ResourceDataListPage.aspx?database=".($db==1?"yy_qikan":"cma_qikan")."&expression=$kwx&perPage=$s&pageno=$page&sortableField=&sortMode=None&hitList=yy_qikan%5eyy_qikan%7e76343%24cma_qikan%5ecma_qikan%7e14146&recordSchema=&searchMode=Junior&kanName=&";
      $data=@file_get_contents($kws);
获取后，就是正则匹配，分析出具体内容了。