csdn这么多it人,都没人来帮帮忙吗、、、、

解决方案 »

  1.   

    csdn这么多牛人,却终于还是没人解答,自己搞了两天,还是在换行那个地方通不过去;
    参考了http://blog.csdn.net/thl331860203/article/details/7262097之后把所有回车换行去掉之后还是没法解决,最后只能不了了之。
    不晓得到底是不是换行的地方的问题,总之是没能解决
      

  2.   

    我怀疑就是你那个字符串的问题,我将你那个原字符串复制到txt文件中,放到raw下,gbk编码读取出来用正则验证过没问题的
      

  3.   

    我怀疑就是你那个字符串的问题,我将你那个原字符串复制到txt文件中,放到raw下,gbk编码读取出来用正则验证过没问题的
    原字符串想抓取的部分读出来如下:
    [code=html]<html>
          <table width="540" border="0" cellspacing="1" cellpadding="0">
            <tr> 
              <td width="32" height="24" align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">序号</font></strong></td>
              <td align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">标题</font></strong></td>
              <td width="72" align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">日期</font></strong></td>
              <td width="100" align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">来源</font></strong></td>
            </tr>
    <tr bgcolor=#EEEEEE> 
              <td height="24" align="center">1</td>
                 <td>&nbsp;<a href="/index.php/News/12286.html" title="就业办微信公众平台上线通知">就业办微信公众平台上线通知</a></td>
              <td align="center">2014-06-21</td>
              <td align="center"><a href="/index.php/News/index/classid/21">就业工作办公室</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">2</td>
                 <td>&nbsp;<a href="/index.php/News/12285.html" title="创新实践中心智能车组招新通知">创新实践中心智能车组招新通知</a></td>
              <td align="center">2014-06-20</td>
              <td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">3</td>
                 <td>&nbsp;<a href="/index.php/News/12284.html" title="IBM Power技术应用2014全国校园大赛通知">IBM Power技术应用2014全国校园大赛通知</a></td>
              <td align="center">2014-06-20</td>
              <td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">4</td>
                 <td>&nbsp;<a href="/index.php/News/12282.html" title="大工电子支付平台可缴玉兰卡欠款">大工电子支付平台可缴玉兰卡欠款</a></td>
              <td align="center">2014-06-20</td>
              <td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">5</td>
                 <td>&nbsp;<a href="/index.php/News/12281.html" title="11级嵌入式方向小学期周一上课地点变更">11级嵌入式方向小学期周一上课地点变更</a></td>
              <td align="center">2014-06-20</td>
              <td align="center"><a href="/index.php/News/index/classid/2">教务办公室</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">6</td>
                 <td>&nbsp;<a href="/index.php/News/12280.html" title="急!毕业班1005、1006班负责人">急!毕业班1005、1006班负责人</a></td>
              <td align="center">2014-06-20</td>
              <td align="center"><a href="/index.php/News/index/classid/16">后勤办公室</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">7</td>
                 <td>&nbsp;<a href="/index.php/News/12279.html" title="IBM大型主机技术应用2014全国校园大赛通知">IBM大型主机技术应用2014全国校园大赛通知</a></td>
              <td align="center">2014-06-20</td>
              <td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">8</td>
                 <td>&nbsp;<a href="/index.php/News/12278.html" title="2014年5月份学生寝室卫生检查成绩公示">2014年5月份学生寝室卫生检查成绩公示</a></td>
              <td align="center">2014-06-20</td>
              <td align="center"><a href="/index.php/News/index/classid/16">后勤办公室</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">9</td>
                 <td>&nbsp;<a href="/index.php/News/12277.html" title="关于2014届毕业生党员转组织关系说明">关于2014届毕业生党员转组织关系说明</a></td>
              <td align="center">2014-06-20</td>
              <td align="center"><a href="/index.php/News/index/classid/17">学院分党委</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">10</td>
                 <td>&nbsp;<a href="/index.php/News/12276.html" title="推优学生提交论文摘要的通知">推优学生提交论文摘要的通知</a></td>
              <td align="center">2014-06-20</td>
              <td align="center"><a href="/index.php/News/index/classid/2">教务办公室</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">11</td>
                 <td>&nbsp;<a href="/index.php/News/12275.html" title="2014届毕业生办理网上报退">2014届毕业生办理网上报退</a></td>
              <td align="center">2014-06-19</td>
              <td align="center"><a href="/index.php/News/index/classid/2">教务办公室</a></td>
            </tr><tr bgcolor=#EEEEEE> 
              <td height="24" align="center">12</td>
                 <td>&nbsp;<a href="/index.php/News/12274.html" title="“橙梦企航”2014年暑期企业行社会实践活动队员招">“橙梦企航”2014年暑期企业行社会实践活动队员招</a></td>
              <td align="center">2014-06-19</td>
              <td align="center"><a href="/index.php/News/index/classid/18">团委</a></td>
    有点长,但是跟原文一字不差的啊!
    你也可以直接去看看原来的网页:http://ssdut.dlut.edu.cn/index.php/News/student.html
    或者你可不可以帮我写一个正则,就是Pattern p=Pattern.compile("这里面这句");
    我想抓出来的是一楼图片中那四项,都崩溃了,本来只是想写个小客户端玩来着,现在陷进去出不来
      

  4.   

    我怀疑就是你那个字符串的问题,我将你那个原字符串复制到txt文件中,放到raw下,gbk编码读取出来用正则验证过没问题的
    另外说一句,原网页编码是gb2312,我的解析部分是utf-8
    httpClient = getHttpClient();
    httpGet = new HttpGet(url);
    HttpResponse response = httpClient.execute(httpGet);
    if (response.getStatusLine().getStatusCode() == 200) {
    //用utf-8编码转化为字符串
    byte[] bResult = EntityUtils.toByteArray(response.getEntity());
    if (bResult != null) {
    responseBody = new String(bResult,"utf-8");
    }
    }
    break;
    但是utf-8是可以抓取group1和group2的,一旦跨行就不行了,group3、4一直不行,按你的提示我换成gb2312或gbk前两项都成了乱码。。这不是编码在搞怪吧?虽然不一致
      

  5.   

    Pattern pattern = Pattern.compile( "(?is)&nbsp;<a href=\"(.*?)\" title=\"(.*?)\".*?\"center\">(.*?)</td>.*?classid/.*?\">(.*?)</a>");
      

  6.   

    看到这一句代码运行之后,我有说不出的感觉,酸甜苦辣啊,奋斗了两天,却只是这样一句代码!
    也看到了非常huge的差距,我前面的路还很远。
    同时必须非常感谢,只有您耐心并且成功的解答了问题。
    我之前也按照这个思路写过,问题出在了(?is)这一句,我查到了(?is)表示启用模式修改符号(i表示忽略大小写 s表示启用单行模式),我又试了(?s)也可以,但是请问为什么要用单行模式?明明是很多行
      

  7.   

    不用单行模式也可以,将   .*?  通通改为  [\s\S]*?    也可以PS:解析html最好别用正则,太死了,html代码随便改个地方正则就走不通了
      

  8.   

    不用单行模式也可以,将   .*?  通通改为  [\s\S]*?    也可以PS:解析html最好别用正则,太死了,html代码随便改个地方正则就走不通了
    多谢!主要是因为我是新手,确实正则解析html页面比较不方便,从标题进入正文之后<span>、<p>各种问题,我都傻眼了,用正则的话我是解决不了了。
    再次感谢!