我把一网页转换成了字符串形式,想把其中的汉语短语或句子提取出来,各位兄弟有没有比较好的方法。

解决方案 »

  1.   

    如下字符串应该如何提取其中的汉语啊?ul class="f14blu">
    <li><a href="http://news.163.com/09/0618/07/5C2T5KSN000120GU.html">伊朗反对派举行沉默游行 连续五天抗议选举结果</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0618/08/5C301T000001121M.html">美国疑借微型博客插手伊朗选举争端(图)</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0618/07/5C2UABD30001121M.html">伊朗最高领袖哈梅内伊或满足穆萨维部分诉求</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/17/5C1D2T6C000120GU.html">伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/16/5C1AR3PT0001121M.html">伊朗革命卫队下令禁止网媒报道国内骚乱</a> <span class="cDGray f12px"></span></li> </ul>
    <div class="titleBar_2">
    <h3>各方表态</h3>
    </div>
    <ul class="f14blu">
    <li><a href="http://news.163.com/09/0617/19/5C1KORLH0001121M.html">[伊朗]抗议英法意等欧洲六国干涉其内政</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/18/5C1H8PKM000120GU.html">[伊朗]外交部:部分外国媒体成"暴乱者的传话筒"</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/11/5C0N5JRF0001121M.html">[以色列]情报机构领导人称伊朗不会发生革命</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0617/00/5BVJ07LM000120GU.html">[伊朗]抗议欧盟发表声明干涉其总统选举</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/17/5BUPU1E8000120GU.html">[中国]外交部:中方尊重伊朗人民的选择</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/09/5BU0MR070001121M.html">[美国]奥巴马首次就伊朗事件表态 称"深感不安"</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/10/5BU2VH660001121M.html">[联合国]秘书长:伊朗人民真实意愿应得到尊重</a> <span class="cDGray f12px"></span></li> <li><a href="http://news.163.com/09/0616/08/5BTQTHNO000120GU.html">[欧洲]德国外长称伊朗阻挠西方媒体采访</a> <span class="cDGray 
      

  2.   

     re=/[\u4E00-\u9FA5]/g;  //测试中文字符的正则
     alert(str.match(re));自己可以再处理一下
    看看行不行
      

  3.   

    bingsha1976大哥,能不能自习说一下,我要提取网页内的中文句子
      

  4.   

     <a href="http://news.163.com/09/0618/07/5C2T5KSN000120GU.html">伊朗反对派举行沉默游行 连续五天抗议选举结果 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0618/08/5C301T000001121M.html">美国疑借微型博客插手伊朗选举争端(图) </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0618/07/5C2UABD30001121M.html">伊朗最高领袖哈梅内伊或满足穆萨维部分诉求 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/17/5C1D2T6C000120GU.html">伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/16/5C1AR3PT0001121M.html">伊朗革命卫队下令禁止网媒报道国内骚乱 </a>
    比如说这部分我先以</a>把它分解
    然后再替换掉非中文字符
    输出我是在页面里来了个
    <input id="textId"  >
    把上面的片段复制到里面
    <input type="button" onclick="show()">function show(){
    var str=document.getElementById("textId").value
    var strs=str.split("</a>");
    for(var i=0;i<strs.length;i++)
    {
         alert(strs[i].replace(/[^\u4E00-\u9FA5]*/g,''));
    }
    }再理解理解看行不行
      

  5.   

    楼上大哥能不能写出汉语句子的正则表达式,我想通过正则表达式来分隔字符串
    Pattern p = Pattern.compile(汉语句子正则表达式);
    String[] terms = p.split(searchContents);
      

  6.   

    关注。。 用innertext不行吗?? 比如先得到<a>然后在.innertext这样因该能取那些<a>12343</a>之间的值吧。  不知道对不对。
      

  7.   

    1. 下载PilotEdit 2.6, http://topic.csdn.net/u/20090617/22/3b4e465d-c2cd-426d-9532-9865cdee8577.html
    新建一个文件,把数据拷贝到这个文件。ul class="f14blu">
    <li> <a href="http://news.163.com/09/0618/07/5C2T5KSN000120GU.html">伊朗反对派举行沉默游行 连续五天抗议选举结果 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0618/08/5C301T000001121M.html">美国疑借微型博客插手伊朗选举争端(图) </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0618/07/5C2UABD30001121M.html">伊朗最高领袖哈梅内伊或满足穆萨维部分诉求 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/17/5C1D2T6C000120GU.html">伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/16/5C1AR3PT0001121M.html">伊朗革命卫队下令禁止网媒报道国内骚乱 </a> <span class="cDGray f12px"> </span> </li> </ul>
    <div class="titleBar_2">
    <h3>各方表态 </h3>
    </div>
    <ul class="f14blu">
    <li> <a href="http://news.163.com/09/0617/19/5C1KORLH0001121M.html">[伊朗]抗议英法意等欧洲六国干涉其内政 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/18/5C1H8PKM000120GU.html">[伊朗]外交部:部分外国媒体成"暴乱者的传话筒" </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/11/5C0N5JRF0001121M.html">[以色列]情报机构领导人称伊朗不会发生革命 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0617/00/5BVJ07LM000120GU.html">[伊朗]抗议欧盟发表声明干涉其总统选举 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/17/5BUPU1E8000120GU.html">[中国]外交部:中方尊重伊朗人民的选择 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/09/5BU0MR070001121M.html">[美国]奥巴马首次就伊朗事件表态 称"深感不安" </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/10/5BU2VH660001121M.html">[联合国]秘书长: 伊朗人民真实意愿应得到尊重 </a> <span class="cDGray f12px"> </span> </li> <li> <a href="http://news.163.com/09/0616/08/5BTQTHNO000120GU.html">[欧洲]德国外长称伊朗阻挠西方媒体采访 </a> <span class="cDGray
    2. 点排序按钮,选择“比较由正则表达式定义的字符串”,输入下面的正则表达式和目标字符串:
    正则表达式:>[|!<>]*[\19968-\40869|!<>]+[|!<>]*<
    目标字符串:%02%03%04\r\n3. 点“将目标字符串拷贝到剪贴板”,即可将你要的数据拷贝到剪贴板:伊朗反对派举行沉默游行 连续五天抗议选举结果 
    美国疑借微型博客插手伊朗选举争端(图) 
    伊朗最高领袖哈梅内伊或满足穆萨维部分诉求 
    伊朗败选候选人穆萨维呼吁18日为丧生示威者哀悼 
    伊朗革命卫队下令禁止网媒报道国内骚乱 各方表态 [伊朗]抗议英法意等欧洲六国干涉其内政 
    [伊朗]外交部:部分外国媒体成"暴乱者的传话筒" 
    [以色列]情报机构领导人称伊朗不会发生革命 
    [伊朗]抗议欧盟发表声明干涉其总统选举 
    [中国]外交部:中方尊重伊朗人民的选择 
    [美国]奥巴马首次就伊朗事件表态 称"深感不安" 
    [联合国]秘书长: 伊朗人民真实意愿应得到尊重 
    [欧洲]德国外长称伊朗阻挠西方媒体采访 
      

  8.   

    请把上面贴子正则表达式中<>两边的空格删除,没有空格。
    空格是CSDN加上的。
      

  9.   

    就是提取网页中的内容吗?
    用jdk类库中的html解析类来解析就是了。 
     javax.swing.text.html.HTML;
     javax.swing.text.html.HTMLEditorKit;
     javax.swing.text.html.HTML.Tag;
      

  10.   

    呵呵,方法还真多哦,用JDK自带的也好,自己写正则表达式来替换也行,总之都行。楼主可以试着写一个不是中文的正则啊,而是其他的正则,就是替换所有英文,以及一些不用的符号为空就可以了吧,楼主,思想最重要了,呵呵,你想得到的是什么,直接替换就是了,比如,你把这些内容当做是一个长的字符串,然后写一个正则,这个正则肯定很简单,(因为就是一个字母,符号的正则而已,然后将这个正则中的字符都替换成空,)不就可以了,呵呵,当然,这个效率比较的低,希望楼主早日解决。