怎么样自己采集互联网数据呀? 查出关键词的排名,收录多少? 然后入库呀
解决方案 »
- 问下事务的一点小迷惑,,麻烦帮顶~~~
- 请教:关于javamail中imap下载附件的问题
- 【急】 JS中,X + 1个月=当前系统时间,求X
- 谁能帮我调试永恒文章管理系统源码?
- 求教:如何实现网页一打开就自动定位到文件末尾,类似于聊天室。
- 关于session的问题~~??谢谢
- 一个脚本问题:如何打开一个指定的word文件
- 用jspSmartUpload作下载时出错,各位高手看看如何解决,多谢了!!!(急)
- 关于struts的<bean:write>标签,高手请进!
- 在bean里,用oracle的pool,getPooledConnection();应该在构造函数里建立,还在其实里?释放开pool是不是应该在 finalize() 里?
- 一个关于Google地图的问题 在线等 大侠们看看吧
- extjs4下拉列树如何实现?急急急。。。求能用的实例
* 对新闻URL进行解析提取新闻,同时将新闻插入到数据库中。
*
* @param url
* 新闻连接。
*/
public void parser(String url) throws Exception{
try {
parser = new Parser(url);
//获取标题过滤器 <div id ="contentText" class="txt18">这里是正文</div>
NodeFilter titleFilter = new AndFilter(new TagNameFilter("td"),
new HasAttributeFilter("class", "txt18"));
//获取内容过滤器 <div id ="contentText" >这里是正文</div>
NodeFilter contentFilter = new AndFilter(new TagNameFilter("td"),
new HasAttributeFilter("class", "p1"));
//获取发布日期过滤器 <div class ="time" >这里是正文</div>
NodeFilter newsdateFilter = new AndFilter(
new TagNameFilter("td"), new HasAttributeFilter("class",
"txt12"));
//获取发布日期过滤器 <spam class ="media_span" >这里是正文</span>
NodeFilter newsauthorFilter = new AndFilter(
new TagNameFilter("td"), new HasAttributeFilter("class",
"txt12"));
String newsTitle = getTitle(titleFilter, parser);
parser.reset(); // 记得每次用完parser后,要重置一次parser。要不然就得不到我们想要的内容了。
String newsContent = getNewsContent(contentFilter, parser);
// 输出新闻的内容,查看是否符合要求
parser.reset();
String newsDate = getNewsDate(newsdateFilter, parser);
parser.reset();
String newsauthor = getNewsAuthor(newsauthorFilter, parser);
// 先设置新闻对象,让新闻对象里有新闻内容。
InfoByCollection info = new InfoByCollection();
info.setNewsTitle(newsTitle);
info.setNewsContent(newsContent);
// 将新闻添加到数据中。
infomationService.insertCollectionInfo(info); } catch (ParserException ex) {
Logger.getLogger(InfoByCollection.class.getName()).log(Level.SEVERE, null,
ex);
}
}
需要用到htmlparser.jar 和 htmllexer.jar 用来解析html
http://baike.baidu.com/view/3492159.htm再看看这个:
http://www.chinaz.com/web/2012/0221/236263.shtml
近义词问题:中国、中华人民共和国、中国大陆、祖国、天朝;
包含词问题:税、所得税、企业所得税、年度企业所得税;速度也没那么简单,如果你是个ADSL的话,只怕爬1年,也爬不完新浪一个网站。