1.urlA是一篇文章的正文页网址
2.把urlA传递给程序,程序分析urlA页面内容,并结合其他自动采集的链接分析出该网站的结构(主要是正文页)
3.程序输出文章的标题、正文内容(不包除正文以外的内容,如网站的导航条、页脚)能否有希望实现呢,给一个思路也行。谢谢了
2.把urlA传递给程序,程序分析urlA页面内容,并结合其他自动采集的链接分析出该网站的结构(主要是正文页)
3.程序输出文章的标题、正文内容(不包除正文以外的内容,如网站的导航条、页脚)能否有希望实现呢,给一个思路也行。谢谢了
解决方案 »
- Java如何读取带包含文件的xml文件
- getElementsByTagName 不能使用与struts标签吗
- 使用timesten,tomcat启动能连接数据库,myeclipse下启动tomcat不能
- 如何构造一个好的动态网站
- apache上传相关问题
- 请教关于JSP调用Java类问题......
- 困扰的毕业设计题目
- 一个初级的问题 谁知道帮帮小弟呀
- 调用JavaBean的问题,急啊~~~急急急~
- 用XSL将XML转为HTML时,总是多了一行<?xml version="1.0" encoding="BIG5"?>
- tomcat设置<error-page>,在火狐上可以正确显示,遨游却不行,为什么!
- 简单登录界面错误
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.URL;public class TestURLReader {
/**
* @param args
*/
public static void main(String[] args) {
BufferedWriter bw = null;
try {
int i=0;
File f = new File("F:/test" + i + ".html");
URL url = new URL("http://www.baidu.cn");
BufferedReader buf = new BufferedReader(new InputStreamReader(
url.openStream())); String str;
String all = "";
bw = new BufferedWriter(new FileWriter(f, false)); while ((str = buf.readLine()) != null) {
all += str;
}
bw.write(all.toString());
bw.close();
} catch (Exception e1) {
e1.printStackTrace();
} finally {
try {
bw.close();
} catch (IOException e) {
e.printStackTrace();
}
System.exit(0);
}
}
}
应该每个网站都有自己不同模板,如果要做得好还是有一定难度.
如果要做好肯定要用到自然语言分析,程序能够自动分析出主,谓,宾,能够自动抽出中心思想,自动摘要像baidu查询显示结果那样
<head>
</head>
<body>
<div>
导航的
</div> <div>
内容部分
<div>这是文章的正文部分,这部分的标签绝大多数情况与整体标签结构是有所区别的.<br />
当分析多个文章页面的结构时,如何让程序识别只有这部分内容不同。<br />
<b>当然导航条可能有轻微的变化</b>,但通常正文都是内容较多、变化很大的部分,
而且可以使用其他一些能够区别正文与非正文的参考因素。
而得出页面结构是要对很多页面进行分析的,而不是1个页面
</div>
</div> <div>
页脚
</div>
</body>
</html>如果找出(程序自动找出)了很多篇这种结构的文章,如何让程序分析出模板结构呢?
具体的方法,设定正文的容器,有的网站正文是DIV中,有的是TABLE,
加权的方法统计P出现次数,TEXT的长度以及其它容器的个数,具体的网站要调整一下参数.
<head></head>
<body>
<div>
<div>
<b></b>
<p></p>
</div>
<p></p>
<p></p>
</div> <div>
<p></p>
<p></p>
</div>
</body>对节点:0
00
1
10
101
1010
1011
102
103
11
110
111计算每个节点的权值,权值由文本个数、tag标签、标点符号、控制符号等因素共同决定。然后取出权值最大节点的innerHTML,应该就是正文内容了