<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
<head> <meta http-equiv="content-type" content="text/html; charset=ISO-2022-JP">
<title>$B8DJL%a!<%kAw?.(BHTML $B%$%s%i%$%s2hA|$"$j(B</title>
</head>
<body text="#000000" bgcolor="#ffffff">
$B8DJL%a!<%kAw?.(BHTML $B%$%s%i%$%s2hA|$"$j(B<br>
<br>
$B%F%9%H(B<br>
<br>
<img alt="$B%5%s%W%k(B"
src="http://www.test.co.jp/img/WeeMee_20644801_for_zodiac_leo0078.jpg"
width="116" height="128"><br>
<br>
<div align="right">$B0J>e(B<br>
</div>
<pre class="moz-signature" cols="72">--
</body>
</html>我解析上面邮件的HTML文本内容的时候,因为有 <title>$B8DJL%a!<%kAw?.(BHTML $B%$%s%i%$%s2hA|$"$j(B</title>中类似乱码的东西,而导致下面查询不到 <img 这个tag ,这种问题如何解决呢
// 構文解析オブジェクトの生成
Parser parser = Parser.createParser(htmlString, “windows-31j”);
// 節点リストの生成
NodeList nodeList = parser.extractAllNodesThatMatch(new StandardNodeFilter());
// 一時変数:タグ
Tag tag;这样的问题如何解决呢, 假如我把这些 <title>$B8DJL%a!<%kAw?.(BHTML $B%$%s%i%$%s2hA|$"$j(B</title>内容 去掉的话就能正常找到 IMG的结点。
<html>
<head> <meta http-equiv="content-type" content="text/html; charset=ISO-2022-JP">
<title>$B8DJL%a!<%kAw?.(BHTML $B%$%s%i%$%s2hA|$"$j(B</title>
</head>
<body text="#000000" bgcolor="#ffffff">
$B8DJL%a!<%kAw?.(BHTML $B%$%s%i%$%s2hA|$"$j(B<br>
<br>
$B%F%9%H(B<br>
<br>
<img alt="$B%5%s%W%k(B"
src="http://www.test.co.jp/img/WeeMee_20644801_for_zodiac_leo0078.jpg"
width="116" height="128"><br>
<br>
<div align="right">$B0J>e(B<br>
</div>
<pre class="moz-signature" cols="72">--
</body>
</html>我解析上面邮件的HTML文本内容的时候,因为有 <title>$B8DJL%a!<%kAw?.(BHTML $B%$%s%i%$%s2hA|$"$j(B</title>中类似乱码的东西,而导致下面查询不到 <img 这个tag ,这种问题如何解决呢
// 構文解析オブジェクトの生成
Parser parser = Parser.createParser(htmlString, “windows-31j”);
// 節点リストの生成
NodeList nodeList = parser.extractAllNodesThatMatch(new StandardNodeFilter());
// 一時変数:タグ
Tag tag;这样的问题如何解决呢, 假如我把这些 <title>$B8DJL%a!<%kAw?.(BHTML $B%$%s%i%$%s2hA|$"$j(B</title>内容 去掉的话就能正常找到 IMG的结点。
<title>$B8DJL%a!<%kAw?.(BHTML $B%$%s%i%$%s2hA|$"$j(B</title>
中乱码含有"<", 所以就破坏了XML格式,解析失败
改为
ISO-2022-JP
shishi
现在唯一的问题就是如何能 找到结点, 或是怎么样通过转化字符能识别出下面的IMG结点