谁能给点提示?

解决方案 »

  1.   

    原理上还是分析HTML的标记,也就是说把HTML文件抓回来,再根据特定的关键字去分析。当然分析HTML可不像分析XML那么容易。应该有一些开源的组件可以做这个工作了吧?例如说,图片的标签头是<IMG,找到这个标签再找标签内部的属性,什么SRC啊ALT之类的东西,大致上应该需要两层遍历,从HTML文件取得所有<IMG和其他关联的标签是一层,从<IMG标签里面提取所有属性是第二层,编码上来说应该不太麻烦,当然这要看你要提取的东西的多少和遵循条件是否复杂了。搞不好也可以自己做一套基于规则的HTML内容提取工具,呵呵。不过不好意思,我没做过一样的事情。
      

  2.   

    说的不清楚,如果要分析html可以用 htmlparser ,http://sourceforge.net/projects/htmlparser