如:
http://news.china.com/zh_cn/domestic/945/20060406/13223564.html
http://news.tom.com/2006-04-06/000N/65351490.html
等等
处理方法要有通用性,就是说我可以处理大部分网站上的文章!
http://news.china.com/zh_cn/domestic/945/20060406/13223564.html
http://news.tom.com/2006-04-06/000N/65351490.html
等等
处理方法要有通用性,就是说我可以处理大部分网站上的文章!
不太清楚
如果每个网站的格式不一样怎么解决?
光靠分析href也会有问题
那是很容易的你可以用webclient或者webrequest,webresponse
得到网页源文件
然后解析字符串就是了
<Table>
<Tr>
<td>title</td>
</tr>
<Tr>
<td>Author</td>
</tr>
<Tr>
<td>Content</td></tr>
</Table>
那可以先找第一个要的内容:title,获得前面的HTML的信息,然后到网页中去匹配,从而得到相应的内容,接着再找下一个....
即使你判断出来了,你又怎么判断那是标题,那是内容?他们基本上都是放在<P></P>之中!形式相仿,如何区分?
你说的这个有点像Spider一类的东西。。我有个朋友写过一个,我帮你看看他是怎么写的。
不过我估计是先争对一个网站写比较容易。因为这个东西很被动啊。
不过很有意思。
他是写来搜索 有.rm ,.rmvb ,...的连接的。
用一个 axWebBrowser 打开要分析的网页,然后获得 axWebBrowser 的 HTMLDocument 接口(叫它doc吧),要用户输入正文的td是第几个td,然后遍历 doc.getElementByTagName("td") ,获得 td元素 的 IHTMLElement 接口,找到用户需要的td(叫它elem吧),然后把 elem.innerHTML 显示在一个多行文本框,给用户看看是不是正文。如果用户看到不是正文,用户可以修改td的序号,然后重新显示,直到文本框中显示的是正文为止