读文件就可以了取从<td>开始,</td>结束间的字符串放到变量里就可以了

解决方案 »

  1.   

    你那思路我以前也想过但不精确
    应该是用html parser的了.
      

  2.   

    string a=取字符<td>后面的</td>前面的
    把整html代码做为一个字符用<td>分割取其后,再用</td>分割取其前的
      

  3.   

    那有没有想过
    html是一种不严格的语言可是一样<body><bod
    但一样可以显示效果出来.
    这样的话你那方法就不行了.又如果
    string a=取字符<td>后面的</td>前面的
    你说的"后面的"包含td,tr,body,html等标志语言的字符呢?
    那又怎样?
      

  4.   

    呵呵,用sax parser来解析,只取character方法中得到的字符串就成了
      

  5.   

    你那个html parser我也不会,不过我找了个网址
    http://www-900.ibm.com/developerWorks/cn/java/l-html-parser/
    我们都看看吧
      

  6.   

    我明的了
    主要是
    parser.extractAllNodesThatAre(ImageTag.class);
    中的ImageTag.class如果要图片就用ImageTag.class
    如果要<table>就用TableTag.class但如果我要全文本呢?
    ?????????????????????????????
    55555555555555555555555555555555555
      

  7.   

    1、首先建立html关键字库(可以放到数据库、文件或写死在程序里);
    2、对每个字判断是否是<html关键字>或</html关键字>,是的话删除,不是的话记录信息。
      

  8.   

    楼上的说得对
    ------------------------------------
    体验速度,体验CSDN新版论坛助手:http://community.csdn.net/Expert/TopicView.asp?id=3108679