我想采集论文网站的内容,如:知网,万方等 这些网站主要是信息量大,采集论文全文深度一般都有三级,这种的采集怎么做好点或有没有成型的采集系统,给我推荐一下或共享一下。 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 获取万方数据的关键,是准确构建URL地址。以下是部分代码: echo "您搜索的数据库是:中国医药数字化期刊群<br>"; if($type!="") $kwx=urlencode($type).'%3D%22'.urlencode($kw).'%22'; else { if($inresults==1) $kwx="%28%22".urlencode($kw)."%22%29+and+%28%22".urlencode($old_kw)."%22%29"; else $kwx="%22".urlencode($kw)."%22"; } $kws="http://SERVER_NAME/Search/ResourceDataListPage.aspx?database=".($db==1?"yy_qikan":"cma_qikan")."&expression=$kwx&perPage=$s&pageno=$page&sortableField=&sortMode=None&hitList=yy_qikan%5eyy_qikan%7e76343%24cma_qikan%5ecma_qikan%7e14146&recordSchema=&searchMode=Junior&kanName=&"; $data=@file_get_contents($kws);获取后,就是正则匹配,分析出具体内容了。 php大侠们可以帮忙看看嘛?我是新手啊 跪谢啊 php 模拟GMAIL,HOTMAIL(MSN),YAHOO,163,126邮箱登录(原创) mysql的连接问题 discuz的ismozilla函数 第一次提问,PHP可以开发WEBSERVICE么?还有就是开发的东东可以在LIUNX下运行么? PHP高并发的类 上海某房产网站寻求高级程序员整体开发 一段 php程序,从后台数据库读取图片地址显示在页面中,请高手帮我看看 请求discuz问题,如何获取验证码 php 调用python出错 dedecms ucenter thinksns 查看源代码 出现乱码??
获取万方数据的关键,是准确构建URL地址。以下是部分代码: echo "您搜索的数据库是:中国医药数字化期刊群<br>";
if($type!="")
$kwx=urlencode($type).'%3D%22'.urlencode($kw).'%22';
else
{
if($inresults==1) $kwx="%28%22".urlencode($kw)."%22%29+and+%28%22".urlencode($old_kw)."%22%29";
else $kwx="%22".urlencode($kw)."%22"; } $kws="http://SERVER_NAME/Search/ResourceDataListPage.aspx?database=".($db==1?"yy_qikan":"cma_qikan")."&expression=$kwx&perPage=$s&pageno=$page&sortableField=&sortMode=None&hitList=yy_qikan%5eyy_qikan%7e76343%24cma_qikan%5ecma_qikan%7e14146&recordSchema=&searchMode=Junior&kanName=&";
$data=@file_get_contents($kws);
获取后,就是正则匹配,分析出具体内容了。