如何提取字符串中的汉语短语或句子 我把一网页转换成了字符串形式,想把其中的汉语短语或句子提取出来,各位兄弟有没有比较好的方法。 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 如下字符串应该如何提取其中的汉语啊?ul class="f14blu"><li><a href="http://news.163.com/09/0618/07/5C2T5KSN000120GU.html">伊朗反对派举行沉默游行 连续五天抗议选举结果</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0618/08/5C301T000001121M.html">美国疑借微型博客插手伊朗选举争端(图)</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0618/07/5C2UABD30001121M.html">伊朗最高领袖哈梅内伊或满足穆萨维部分诉求</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/17/5C1D2T6C000120GU.html">伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/16/5C1AR3PT0001121M.html">伊朗革命卫队下令禁止网媒报道国内骚乱</a> <span class="cDGray f12px"></span></li> </ul><div class="titleBar_2"><h3>各方表态</h3></div><ul class="f14blu"><li><a href="http://news.163.com/09/0617/19/5C1KORLH0001121M.html">[伊朗]抗议英法意等欧洲六国干涉其内政</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/18/5C1H8PKM000120GU.html">[伊朗]外交部:部分外国媒体成"暴乱者的传话筒"</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/11/5C0N5JRF0001121M.html">[以色列]情报机构领导人称伊朗不会发生革命</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/00/5BVJ07LM000120GU.html">[伊朗]抗议欧盟发表声明干涉其总统选举</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/17/5BUPU1E8000120GU.html">[中国]外交部:中方尊重伊朗人民的选择</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/09/5BU0MR070001121M.html">[美国]奥巴马首次就伊朗事件表态 称"深感不安"</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/10/5BU2VH660001121M.html">[联合国]秘书长:伊朗人民真实意愿应得到尊重</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/08/5BTQTHNO000120GU.html">[欧洲]德国外长称伊朗阻挠西方媒体采访</a> <span class="cDGray re=/[\u4E00-\u9FA5]/g; //测试中文字符的正则 alert(str.match(re));自己可以再处理一下看看行不行 bingsha1976大哥,能不能自习说一下,我要提取网页内的中文句子 <a href="http://news.163.com/09/0618/07/5C2T5KSN000120GU.html">伊朗反对派举行沉默游行 连续五天抗议选举结果 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0618/08/5C301T000001121M.html">美国疑借微型博客插手伊朗选举争端(图) </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0618/07/5C2UABD30001121M.html">伊朗最高领袖哈梅内伊或满足穆萨维部分诉求 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/17/5C1D2T6C000120GU.html">伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/16/5C1AR3PT0001121M.html">伊朗革命卫队下令禁止网媒报道国内骚乱 </a>比如说这部分我先以</a>把它分解然后再替换掉非中文字符输出我是在页面里来了个<input id="textId" >把上面的片段复制到里面<input type="button" onclick="show()">function show(){var str=document.getElementById("textId").valuevar strs=str.split("</a>");for(var i=0;i<strs.length;i++){ alert(strs[i].replace(/[^\u4E00-\u9FA5]*/g,''));}}再理解理解看行不行 楼上大哥能不能写出汉语句子的正则表达式,我想通过正则表达式来分隔字符串Pattern p = Pattern.compile(汉语句子正则表达式);String[] terms = p.split(searchContents); 关注。。 用innertext不行吗?? 比如先得到<a>然后在.innertext这样因该能取那些<a>12343</a>之间的值吧。 不知道对不对。 1. 下载PilotEdit 2.6, http://topic.csdn.net/u/20090617/22/3b4e465d-c2cd-426d-9532-9865cdee8577.html新建一个文件,把数据拷贝到这个文件。ul class="f14blu"><li> <a href="http://news.163.com/09/0618/07/5C2T5KSN000120GU.html">伊朗反对派举行沉默游行 连续五天抗议选举结果 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0618/08/5C301T000001121M.html">美国疑借微型博客插手伊朗选举争端(图) </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0618/07/5C2UABD30001121M.html">伊朗最高领袖哈梅内伊或满足穆萨维部分诉求 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/17/5C1D2T6C000120GU.html">伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/16/5C1AR3PT0001121M.html">伊朗革命卫队下令禁止网媒报道国内骚乱 </a> <span class="cDGray f12px"> </span> </li> </ul><div class="titleBar_2"><h3>各方表态 </h3></div><ul class="f14blu"><li> <a href="http://news.163.com/09/0617/19/5C1KORLH0001121M.html">[伊朗]抗议英法意等欧洲六国干涉其内政 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/18/5C1H8PKM000120GU.html">[伊朗]外交部:部分外国媒体成"暴乱者的传话筒" </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/11/5C0N5JRF0001121M.html">[以色列]情报机构领导人称伊朗不会发生革命 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/00/5BVJ07LM000120GU.html">[伊朗]抗议欧盟发表声明干涉其总统选举 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/17/5BUPU1E8000120GU.html">[中国]外交部:中方尊重伊朗人民的选择 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/09/5BU0MR070001121M.html">[美国]奥巴马首次就伊朗事件表态 称"深感不安" </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/10/5BU2VH660001121M.html">[联合国]秘书长: 伊朗人民真实意愿应得到尊重 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/08/5BTQTHNO000120GU.html">[欧洲]德国外长称伊朗阻挠西方媒体采访 </a> <span class="cDGray2. 点排序按钮,选择“比较由正则表达式定义的字符串”,输入下面的正则表达式和目标字符串:正则表达式:>[|!<>]*[\19968-\40869|!<>]+[|!<>]*<目标字符串:%02%03%04\r\n3. 点“将目标字符串拷贝到剪贴板”,即可将你要的数据拷贝到剪贴板:伊朗反对派举行沉默游行 连续五天抗议选举结果 美国疑借微型博客插手伊朗选举争端(图) 伊朗最高领袖哈梅内伊或满足穆萨维部分诉求 伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼 伊朗革命卫队下令禁止网媒报道国内骚乱 各方表态 [伊朗]抗议英法意等欧洲六国干涉其内政 [伊朗]外交部:部分外国媒体成"暴乱者的传话筒" [以色列]情报机构领导人称伊朗不会发生革命 [伊朗]抗议欧盟发表声明干涉其总统选举 [中国]外交部:中方尊重伊朗人民的选择 [美国]奥巴马首次就伊朗事件表态 称"深感不安" [联合国]秘书长: 伊朗人民真实意愿应得到尊重 [欧洲]德国外长称伊朗阻挠西方媒体采访 请把上面贴子正则表达式中<>两边的空格删除,没有空格。空格是CSDN加上的。 就是提取网页中的内容吗?用jdk类库中的html解析类来解析就是了。 javax.swing.text.html.HTML; javax.swing.text.html.HTMLEditorKit; javax.swing.text.html.HTML.Tag; 呵呵,方法还真多哦,用JDK自带的也好,自己写正则表达式来替换也行,总之都行。楼主可以试着写一个不是中文的正则啊,而是其他的正则,就是替换所有英文,以及一些不用的符号为空就可以了吧,楼主,思想最重要了,呵呵,你想得到的是什么,直接替换就是了,比如,你把这些内容当做是一个长的字符串,然后写一个正则,这个正则肯定很简单,(因为就是一个字母,符号的正则而已,然后将这个正则中的字符都替换成空,)不就可以了,呵呵,当然,这个效率比较的低,希望楼主早日解决。 有关java连接数据库 Java 矢量图 ssh2事务配置管理 请高手帮忙解决一下 help! 在JC理可以运行,到Eclipse里就有错误 帮忙看一下 超级弱者问题 java中有没有哪个类可以判断文件的类型的? 请教一个很菜的问题(JSP) 线程问题 haowuyiyi J2SE6.0帮助文档 正则表达式
<li><a href="http://news.163.com/09/0618/07/5C2T5KSN000120GU.html">伊朗反对派举行沉默游行 连续五天抗议选举结果</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0618/08/5C301T000001121M.html">美国疑借微型博客插手伊朗选举争端(图)</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0618/07/5C2UABD30001121M.html">伊朗最高领袖哈梅内伊或满足穆萨维部分诉求</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/17/5C1D2T6C000120GU.html">伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/16/5C1AR3PT0001121M.html">伊朗革命卫队下令禁止网媒报道国内骚乱</a> <span class="cDGray f12px"></span></li> </ul>
<div class="titleBar_2">
<h3>各方表态</h3>
</div>
<ul class="f14blu">
<li><a href="http://news.163.com/09/0617/19/5C1KORLH0001121M.html">[伊朗]抗议英法意等欧洲六国干涉其内政</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/18/5C1H8PKM000120GU.html">[伊朗]外交部:部分外国媒体成"暴乱者的传话筒"</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/11/5C0N5JRF0001121M.html">[以色列]情报机构领导人称伊朗不会发生革命</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/00/5BVJ07LM000120GU.html">[伊朗]抗议欧盟发表声明干涉其总统选举</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/17/5BUPU1E8000120GU.html">[中国]外交部:中方尊重伊朗人民的选择</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/09/5BU0MR070001121M.html">[美国]奥巴马首次就伊朗事件表态 称"深感不安"</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/10/5BU2VH660001121M.html">[联合国]秘书长:伊朗人民真实意愿应得到尊重</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/08/5BTQTHNO000120GU.html">[欧洲]德国外长称伊朗阻挠西方媒体采访</a> <span class="cDGray
alert(str.match(re));自己可以再处理一下
看看行不行
比如说这部分我先以</a>把它分解
然后再替换掉非中文字符
输出我是在页面里来了个
<input id="textId" >
把上面的片段复制到里面
<input type="button" onclick="show()">function show(){
var str=document.getElementById("textId").value
var strs=str.split("</a>");
for(var i=0;i<strs.length;i++)
{
alert(strs[i].replace(/[^\u4E00-\u9FA5]*/g,''));
}
}再理解理解看行不行
Pattern p = Pattern.compile(汉语句子正则表达式);
String[] terms = p.split(searchContents);
新建一个文件,把数据拷贝到这个文件。ul class="f14blu">
<li> <a href="http://news.163.com/09/0618/07/5C2T5KSN000120GU.html">伊朗反对派举行沉默游行 连续五天抗议选举结果 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0618/08/5C301T000001121M.html">美国疑借微型博客插手伊朗选举争端(图) </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0618/07/5C2UABD30001121M.html">伊朗最高领袖哈梅内伊或满足穆萨维部分诉求 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/17/5C1D2T6C000120GU.html">伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/16/5C1AR3PT0001121M.html">伊朗革命卫队下令禁止网媒报道国内骚乱 </a> <span class="cDGray f12px"> </span> </li> </ul>
<div class="titleBar_2">
<h3>各方表态 </h3>
</div>
<ul class="f14blu">
<li> <a href="http://news.163.com/09/0617/19/5C1KORLH0001121M.html">[伊朗]抗议英法意等欧洲六国干涉其内政 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/18/5C1H8PKM000120GU.html">[伊朗]外交部:部分外国媒体成"暴乱者的传话筒" </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/11/5C0N5JRF0001121M.html">[以色列]情报机构领导人称伊朗不会发生革命 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/00/5BVJ07LM000120GU.html">[伊朗]抗议欧盟发表声明干涉其总统选举 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/17/5BUPU1E8000120GU.html">[中国]外交部:中方尊重伊朗人民的选择 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/09/5BU0MR070001121M.html">[美国]奥巴马首次就伊朗事件表态 称"深感不安" </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/10/5BU2VH660001121M.html">[联合国]秘书长: 伊朗人民真实意愿应得到尊重 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/08/5BTQTHNO000120GU.html">[欧洲]德国外长称伊朗阻挠西方媒体采访 </a> <span class="cDGray
2. 点排序按钮,选择“比较由正则表达式定义的字符串”,输入下面的正则表达式和目标字符串:
正则表达式:>[|!<>]*[\19968-\40869|!<>]+[|!<>]*<
目标字符串:%02%03%04\r\n3. 点“将目标字符串拷贝到剪贴板”,即可将你要的数据拷贝到剪贴板:伊朗反对派举行沉默游行 连续五天抗议选举结果
美国疑借微型博客插手伊朗选举争端(图)
伊朗最高领袖哈梅内伊或满足穆萨维部分诉求
伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼
伊朗革命卫队下令禁止网媒报道国内骚乱 各方表态 [伊朗]抗议英法意等欧洲六国干涉其内政
[伊朗]外交部:部分外国媒体成"暴乱者的传话筒"
[以色列]情报机构领导人称伊朗不会发生革命
[伊朗]抗议欧盟发表声明干涉其总统选举
[中国]外交部:中方尊重伊朗人民的选择
[美国]奥巴马首次就伊朗事件表态 称"深感不安"
[联合国]秘书长: 伊朗人民真实意愿应得到尊重
[欧洲]德国外长称伊朗阻挠西方媒体采访
空格是CSDN加上的。
用jdk类库中的html解析类来解析就是了。
javax.swing.text.html.HTML;
javax.swing.text.html.HTMLEditorKit;
javax.swing.text.html.HTML.Tag;