怎么提取某个网站的内容 怎么提取某个网站的内容,比如我想提取新浪国内新闻的标题和链接,类似Rss,但是目标网站不提供Rss订阅,怎样手动提取呢? 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 用$str=file_get_contents($url); 具体方法,你可以参考下这个例题 http://www.phpx.com/happy/viewthread.php?tid=136437&highlight= httpclient very good 2楼的乱讲,程序里要IP的一般大型的网站服务器不止一台的肯定不行用第三方软件到时个好主意,用个RSS订阅器啥的获取到了,你程序再读取 import org.apache.commons.httpclient.Cookie; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpException; import org.apache.commons.httpclient.HttpState; import org.apache.commons.httpclient.NameValuePair; import org.apache.commons.httpclient.cookie.CookiePolicy; import org.apache.commons.httpclient.cookie.CookieSpec; import org.apache.commons.httpclient.methods.GetMethod; import org.apache.commons.httpclient.methods.PostMethod; HttpClient httpClient=new HttpClient();//模拟打开浏览器 PostMethod post = new PostMethod("action路径");//如果有 提交的action,请传入action,如果网站不需要提交到另外的action就直接 是这个网站 "http://域名" NameValuePair data[]={new NameValuePair("",""......)}; post.setRequestBody(data);//把参数提交到表单,如果不需要参数就不写 int stateCode= httpClient.executeMethod(post); 判断一下返回的状态码,如果是200不需要转向,不是200一般就需要转向 另外我建议你去下个httpWatch这样可以看看你需要哪些参数, 谁有现成的例子给我传一个,可以再加分[email protected] 关键是先分析网页HTML中想要提取的内容的格式,利用java.net.URL来获取网页的HTML代码,然后通过正则表达式或HTMLParse来提取内容,这种方法针对性强,只能解决个例。如果网站不提供XML式的数据,也只能这样了HTML的缺点之一就体现在这里了,等不久的将来都用XML了就爽了。 关于Tomcat的问题,还是没弄好,求解决方法。 out对象初始值是什么? 请大家给推荐个好的JSP空间! myEclipse 7.0 怎么访问 2008数据库服务器 FTP问题 急!怎么会出现第一行‘=’附近有语法错误 咨询个简单的jstl jsp里标签的用法 JSP报错,请大侠帮忙分析出错原因 怎么用javamail发送附件,小弟刚接触,请各位大侠指教,谢谢!!! java开发lib目录下的包共享 请教个关于jsp:useBean的初级问题---在线等!!!! include怎么带参数?
$str=file_get_contents($url); 具体方法,你可以参考下这个例题 http://www.phpx.com/happy/viewthread.php?tid=136437&highlight=
very good
用第三方软件到时个好主意,用个RSS订阅器啥的获取到了,你程序再读取
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
import org.apache.commons.httpclient.HttpState;
import org.apache.commons.httpclient.NameValuePair;
import org.apache.commons.httpclient.cookie.CookiePolicy;
import org.apache.commons.httpclient.cookie.CookieSpec;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.methods.PostMethod; HttpClient httpClient=new HttpClient();//模拟打开浏览器 PostMethod post = new PostMethod("action路径");//如果有 提交的action,请传入action,如果网站不需要提交到另外的action就直接 是这个网站 "http://域名" NameValuePair data[]={new NameValuePair("",""......)}; post.setRequestBody(data);//把参数提交到表单,如果不需要参数就不写 int stateCode= httpClient.executeMethod(post); 判断一下返回的状态码,如果是200不需要转向,不是200一般就需要转向
另外我建议你去下个httpWatch这样可以看看你需要哪些参数,
[email protected]