求教一下~ java实现对百度百科中文字的获取~

谁能给个源码借鉴一下~
初接触JAVA~~
谢谢了~~
只要百度百科的文字，其他的不需要~

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

写了一个非常基本的例子。稍微跟你的需求有点不一样。这个是，根据URL地址。获取这个网页的内容，然后存到一个文件里面。希望对你有帮助package com.jiakai.web;import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.MalformedURLException;
import java.net.URL;
public class Spider { public void getContentByURL(String url,String fileName) {
File file = new File(fileName);
InputStream is = null;
FileOutputStream fos = null;
try {
URL u = new URL(url);
is = u.openStream();
fos = new FileOutputStream(fileName);
byte[] b = new byte[1024];
int len = 0;
while ( (len = is.read(b)) != -1) {
fos.write(b, 0, len);
}
System.out.println("抓取成功");
} catch (Exception e) {
e.printStackTrace();
} finally {
try {
fos.close();
is.close();
} catch (IOException e) {
e.printStackTrace();
}
}

}

public static void main(String[] args) {
String url = new String("http://baike.baidu.com/view/143057.htm");
String fileName = new String("c:\\baike.html");
Spider spider = new Spider();
spider.getContentByURL(url, fileName); }}
谢谢~    就是有没有什么办法把其中的文字提取出来，输出或者保存到一个TXT文件中呢。
谢谢~ 就是有没有什么办法把其中的文字提取出来，输出或者保存到一个TXT文件中呢。
Parser parser = new Parser("http://baike.baidu.com/view/2476238.htm");
NodeList nodes = parser.parse(new NodeClassFilter(Div.class));
for(org.htmlparser.Node n:nodes.toNodeArray())
{
if(n.getText().equals("div class=\"spctrl\""))
{
System.out.println(n.getNextSibling().getText());
}
}结果：
　　（1）实现了所有 HTTP 的方法（GET,POST,PUT,HEAD 等）　　（2）支持自动转向　　（3）支持 HTTPS 协议　　（4）支持代理服务器等
　　1. 创建 HttpClient 的实例　　2. 创建某种连接方法的实例，在这里是 GetMethod。在 GetMethod 的构造函数中传入待连接的地址　　3. 调用第一步中创建好的实例的 execute 方法来执行第二步中创建好的 method 实例　　4. 读 response　　5. 释放连接。无论执行方法是否成功，都必须释放连接　　6. 对得到后的内容进行处理　　根据以上步骤，我们来编写用GET方法来取得某网页内容的代码。　　大部分情况下 HttpClient 默认的构造函数已经足够使用。 HttpClient httpClient = new HttpClient();
. . .你自己去下htmlparser的包
信息采集或者叫网络爬虫，用HttpClient+Httpparser可以针对你给定的原则去获取相应的内容
具体用法详情见官方API
那个..  能问一个比较弱智的问题么 .. httpclient这个包怎么加到Ecliplse里...   弄了半天没弄好
public class First(){
public static void main(String []agrs){
System.out.println("hello world");
}
}
爬虫啊你看看开源的有java的没
刚学java就学数据抓取吗，我不会，但我支持你
右击你的项目->build path->configure build path->add external jars->选中包-》OK

求教一下~ java实现对 百度百科中 文字 的获取~

解决方案 »

求教一下~ java实现对百度百科中文字的获取~