java读取HTML中的信息

现在我想用JAVA来读取HTML代码中的信息，包括里面图片、表格的位置、大小等，读取出来后存入一个地方。有哪位大侠知道这方面的知识么？好像和webbrowser方面的知识有关？是吗？（我现在要做的是把HTML里的东西导入到PDF里，想先把HTML里面的元素读出来并存储，然后再导入PDF。）

是用JAVA来分析文件一样来分析一个指定的HTML么？如果这样就按照标签来获取属性为什么不写到XML里然后来解析XML呢
不用那么麻吧，请参见我以前讨论过的一个贴子：
http://topic.csdn.net/u/20070921/09/f99e44b8-cd5c-47e7-aaff-d3bd84eba04f.html
比如下面这段代码，要求能把node里面的各项属性都读取出来并存入一个地方，请问怎么读取呢？
- <nodes>
- <node id="410" bid="101" type="MIX_NODE" name="Hugong2620" class="" x="649" y="467" width="80" height="64" tip="" group="" image="cisco.gif" text="Hugong2620" action="101:102">
- <actions>
  <action id="101" name="网元详细信息" type="FUNCTION_ACTION" target="parent.getDetailInfo('../config/neinfor.jsp?id=')" />
  <action id="102" name="网元告警信息" type="FUNCTION_ACTION" target="parent.getAlarmInfo('../fault/elementrealtimealarm.jsp?sourceaddress=')" />
  </actions>
  </node>
嗯现在是要求来解析XML的怎么解析呢？谁能说详细点么？我对这方面不是很熟悉