需求大概是这样:比如一个页面里面有很多文字,现在需要将其中的某些关键字提取出来,比如:姓名 xxx 地址:xxx
不知道用Lucene是否可以实现,请教前辈,麻烦给个解决思路或者方案,谢谢
不知道用Lucene是否可以实现,请教前辈,麻烦给个解决思路或者方案,谢谢
解决方案 »
- linux 为什么我安装jdk后 运行eclipse new project 里面没有java project
- 微量级Web开发框架
- 请问如何部署和测试 Axis2 Web 服务?
- 使用ant做junit测试时,出现java.lang.NoClassDefFoundError: junit/framework/TestResult错误
- 和hibernate3.x配套的工具
- rmi中java.security.policy的问题
- struts的简单程序,怎么会出现如下提示错误?帮忙近来看看
- struts为什么不推荐使用GenericDataSource?高分酬谢
- scrollpane问题,高手请进!!!
- 大虾们求助,为什么序列化要重写equals()和hashcode()方法?
- ResultSet 的 isBeforeFirst 方法 给解释下
- 数据库 oracle for update of 和 for update区别
import java.io.BufferedInputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.StringReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class Test {
public static void main(String[] args) throws Exception{
String uri="请求的URL";
URL url = new URL(uri);
HttpURLConnection conn = (HttpURLConnection) url.openConnection();
conn.connect();
InputStream in = new BufferedInputStream(conn.getInputStream());
InputStreamReader isr = new InputStreamReader(in,encoding);
int str=-1;
StringBuffer sb=new StringBuffer();
while((str=isr.read())!=-1)
sb.append((char)str);
isr.close();
//然后通过正则来解释你sb字符串就行了! }
}
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;import sun.net.www.protocol.http.HttpURLConnection;public class CatchData1 {
public static String getPageContent(String strUrl, String strPostRequest,
int maxLength) {
// 读取结果网页
StringBuffer buffer = new StringBuffer();
System.setProperty("sun.net.client.defaultConnectTimeout", "5000");
System.setProperty("sun.net.client.defaultReadTimeout", "5000");
try {
URL newUrl = new URL(strUrl);
HttpURLConnection hConnect = (HttpURLConnection) newUrl
.openConnection();
// POST方式的额外数据
if (strPostRequest.length() > 0) {
hConnect.setDoOutput(true);
OutputStreamWriter out = new OutputStreamWriter(hConnect
.getOutputStream());
out.write(strPostRequest);
out.flush();
out.close();
}
// 读取内容
BufferedReader rd = new BufferedReader(new InputStreamReader(
hConnect.getInputStream()));
int ch;
for (int length = 0; (ch = rd.read()) > -1
&& (maxLength <= 0 || length < maxLength); length++)
buffer.append((char) ch);
rd.close();
hConnect.disconnect();
System.out.println(buffer);
return buffer.toString().trim();
} catch (Exception e) {
// return "错误:读取网页失败!";
return null;
}
} public static void main(String[] args) {
getPageContent(
"www.163.com",
"strPostRequest", 99999999);
}
}