正则表达式 的小问题 csdn这么多it人,都没人来帮帮忙吗、、、、 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 csdn这么多牛人,却终于还是没人解答,自己搞了两天,还是在换行那个地方通不过去;参考了http://blog.csdn.net/thl331860203/article/details/7262097之后把所有回车换行去掉之后还是没法解决,最后只能不了了之。不晓得到底是不是换行的地方的问题,总之是没能解决 我怀疑就是你那个字符串的问题,我将你那个原字符串复制到txt文件中,放到raw下,gbk编码读取出来用正则验证过没问题的 我怀疑就是你那个字符串的问题,我将你那个原字符串复制到txt文件中,放到raw下,gbk编码读取出来用正则验证过没问题的原字符串想抓取的部分读出来如下:[code=html]<html> <table width="540" border="0" cellspacing="1" cellpadding="0"> <tr> <td width="32" height="24" align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">序号</font></strong></td> <td align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">标题</font></strong></td> <td width="72" align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">日期</font></strong></td> <td width="100" align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">来源</font></strong></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">1</td> <td> <a href="/index.php/News/12286.html" title="就业办微信公众平台上线通知">就业办微信公众平台上线通知</a></td> <td align="center">2014-06-21</td> <td align="center"><a href="/index.php/News/index/classid/21">就业工作办公室</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">2</td> <td> <a href="/index.php/News/12285.html" title="创新实践中心智能车组招新通知">创新实践中心智能车组招新通知</a></td> <td align="center">2014-06-20</td> <td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">3</td> <td> <a href="/index.php/News/12284.html" title="IBM Power技术应用2014全国校园大赛通知">IBM Power技术应用2014全国校园大赛通知</a></td> <td align="center">2014-06-20</td> <td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">4</td> <td> <a href="/index.php/News/12282.html" title="大工电子支付平台可缴玉兰卡欠款">大工电子支付平台可缴玉兰卡欠款</a></td> <td align="center">2014-06-20</td> <td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">5</td> <td> <a href="/index.php/News/12281.html" title="11级嵌入式方向小学期周一上课地点变更">11级嵌入式方向小学期周一上课地点变更</a></td> <td align="center">2014-06-20</td> <td align="center"><a href="/index.php/News/index/classid/2">教务办公室</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">6</td> <td> <a href="/index.php/News/12280.html" title="急!毕业班1005、1006班负责人">急!毕业班1005、1006班负责人</a></td> <td align="center">2014-06-20</td> <td align="center"><a href="/index.php/News/index/classid/16">后勤办公室</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">7</td> <td> <a href="/index.php/News/12279.html" title="IBM大型主机技术应用2014全国校园大赛通知">IBM大型主机技术应用2014全国校园大赛通知</a></td> <td align="center">2014-06-20</td> <td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">8</td> <td> <a href="/index.php/News/12278.html" title="2014年5月份学生寝室卫生检查成绩公示">2014年5月份学生寝室卫生检查成绩公示</a></td> <td align="center">2014-06-20</td> <td align="center"><a href="/index.php/News/index/classid/16">后勤办公室</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">9</td> <td> <a href="/index.php/News/12277.html" title="关于2014届毕业生党员转组织关系说明">关于2014届毕业生党员转组织关系说明</a></td> <td align="center">2014-06-20</td> <td align="center"><a href="/index.php/News/index/classid/17">学院分党委</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">10</td> <td> <a href="/index.php/News/12276.html" title="推优学生提交论文摘要的通知">推优学生提交论文摘要的通知</a></td> <td align="center">2014-06-20</td> <td align="center"><a href="/index.php/News/index/classid/2">教务办公室</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">11</td> <td> <a href="/index.php/News/12275.html" title="2014届毕业生办理网上报退">2014届毕业生办理网上报退</a></td> <td align="center">2014-06-19</td> <td align="center"><a href="/index.php/News/index/classid/2">教务办公室</a></td> </tr><tr bgcolor=#EEEEEE> <td height="24" align="center">12</td> <td> <a href="/index.php/News/12274.html" title="“橙梦企航”2014年暑期企业行社会实践活动队员招">“橙梦企航”2014年暑期企业行社会实践活动队员招</a></td> <td align="center">2014-06-19</td> <td align="center"><a href="/index.php/News/index/classid/18">团委</a></td>有点长,但是跟原文一字不差的啊!你也可以直接去看看原来的网页:http://ssdut.dlut.edu.cn/index.php/News/student.html或者你可不可以帮我写一个正则,就是Pattern p=Pattern.compile("这里面这句");我想抓出来的是一楼图片中那四项,都崩溃了,本来只是想写个小客户端玩来着,现在陷进去出不来 我怀疑就是你那个字符串的问题,我将你那个原字符串复制到txt文件中,放到raw下,gbk编码读取出来用正则验证过没问题的另外说一句,原网页编码是gb2312,我的解析部分是utf-8httpClient = getHttpClient(); httpGet = new HttpGet(url); HttpResponse response = httpClient.execute(httpGet); if (response.getStatusLine().getStatusCode() == 200) { //用utf-8编码转化为字符串 byte[] bResult = EntityUtils.toByteArray(response.getEntity()); if (bResult != null) { responseBody = new String(bResult,"utf-8"); } } break;但是utf-8是可以抓取group1和group2的,一旦跨行就不行了,group3、4一直不行,按你的提示我换成gb2312或gbk前两项都成了乱码。。这不是编码在搞怪吧?虽然不一致 Pattern pattern = Pattern.compile( "(?is) <a href=\"(.*?)\" title=\"(.*?)\".*?\"center\">(.*?)</td>.*?classid/.*?\">(.*?)</a>"); 看到这一句代码运行之后,我有说不出的感觉,酸甜苦辣啊,奋斗了两天,却只是这样一句代码!也看到了非常huge的差距,我前面的路还很远。同时必须非常感谢,只有您耐心并且成功的解答了问题。我之前也按照这个思路写过,问题出在了(?is)这一句,我查到了(?is)表示启用模式修改符号(i表示忽略大小写 s表示启用单行模式),我又试了(?s)也可以,但是请问为什么要用单行模式?明明是很多行 不用单行模式也可以,将 .*? 通通改为 [\s\S]*? 也可以PS:解析html最好别用正则,太死了,html代码随便改个地方正则就走不通了 不用单行模式也可以,将 .*? 通通改为 [\s\S]*? 也可以PS:解析html最好别用正则,太死了,html代码随便改个地方正则就走不通了多谢!主要是因为我是新手,确实正则解析html页面比较不方便,从标题进入正文之后<span>、<p>各种问题,我都傻眼了,用正则的话我是解决不了了。再次感谢! 在广播中打开一个activity 的问题 android AIDL项目的服务端项目代码中没有客户端项目代码中的aidl文件 Android 帮助文档翻译! EClipse 编译 android 应用的问题 Dialog的使用 android mms android sqlite高效查询,插入;AutoCompleteTextView REST服务,webService服务的区别,哪位大神给简单指点一下!谢过了 获取可用内存不准确,咋整 android中怎么上传图片? 大家有没有搞过wifiDirect 传文件的 自定义actionbar底部显示
参考了http://blog.csdn.net/thl331860203/article/details/7262097之后把所有回车换行去掉之后还是没法解决,最后只能不了了之。
不晓得到底是不是换行的地方的问题,总之是没能解决
原字符串想抓取的部分读出来如下:
[code=html]<html>
<table width="540" border="0" cellspacing="1" cellpadding="0">
<tr>
<td width="32" height="24" align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">序号</font></strong></td>
<td align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">标题</font></strong></td>
<td width="72" align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">日期</font></strong></td>
<td width="100" align="center" bgcolor="#CCCCCC"><strong><font color="#FFFFFF">来源</font></strong></td>
</tr>
<tr bgcolor=#EEEEEE>
<td height="24" align="center">1</td>
<td> <a href="/index.php/News/12286.html" title="就业办微信公众平台上线通知">就业办微信公众平台上线通知</a></td>
<td align="center">2014-06-21</td>
<td align="center"><a href="/index.php/News/index/classid/21">就业工作办公室</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">2</td>
<td> <a href="/index.php/News/12285.html" title="创新实践中心智能车组招新通知">创新实践中心智能车组招新通知</a></td>
<td align="center">2014-06-20</td>
<td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">3</td>
<td> <a href="/index.php/News/12284.html" title="IBM Power技术应用2014全国校园大赛通知">IBM Power技术应用2014全国校园大赛通知</a></td>
<td align="center">2014-06-20</td>
<td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">4</td>
<td> <a href="/index.php/News/12282.html" title="大工电子支付平台可缴玉兰卡欠款">大工电子支付平台可缴玉兰卡欠款</a></td>
<td align="center">2014-06-20</td>
<td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">5</td>
<td> <a href="/index.php/News/12281.html" title="11级嵌入式方向小学期周一上课地点变更">11级嵌入式方向小学期周一上课地点变更</a></td>
<td align="center">2014-06-20</td>
<td align="center"><a href="/index.php/News/index/classid/2">教务办公室</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">6</td>
<td> <a href="/index.php/News/12280.html" title="急!毕业班1005、1006班负责人">急!毕业班1005、1006班负责人</a></td>
<td align="center">2014-06-20</td>
<td align="center"><a href="/index.php/News/index/classid/16">后勤办公室</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">7</td>
<td> <a href="/index.php/News/12279.html" title="IBM大型主机技术应用2014全国校园大赛通知">IBM大型主机技术应用2014全国校园大赛通知</a></td>
<td align="center">2014-06-20</td>
<td align="center"><a href="/index.php/News/index/classid/20">创新实践基地</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">8</td>
<td> <a href="/index.php/News/12278.html" title="2014年5月份学生寝室卫生检查成绩公示">2014年5月份学生寝室卫生检查成绩公示</a></td>
<td align="center">2014-06-20</td>
<td align="center"><a href="/index.php/News/index/classid/16">后勤办公室</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">9</td>
<td> <a href="/index.php/News/12277.html" title="关于2014届毕业生党员转组织关系说明">关于2014届毕业生党员转组织关系说明</a></td>
<td align="center">2014-06-20</td>
<td align="center"><a href="/index.php/News/index/classid/17">学院分党委</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">10</td>
<td> <a href="/index.php/News/12276.html" title="推优学生提交论文摘要的通知">推优学生提交论文摘要的通知</a></td>
<td align="center">2014-06-20</td>
<td align="center"><a href="/index.php/News/index/classid/2">教务办公室</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">11</td>
<td> <a href="/index.php/News/12275.html" title="2014届毕业生办理网上报退">2014届毕业生办理网上报退</a></td>
<td align="center">2014-06-19</td>
<td align="center"><a href="/index.php/News/index/classid/2">教务办公室</a></td>
</tr><tr bgcolor=#EEEEEE>
<td height="24" align="center">12</td>
<td> <a href="/index.php/News/12274.html" title="“橙梦企航”2014年暑期企业行社会实践活动队员招">“橙梦企航”2014年暑期企业行社会实践活动队员招</a></td>
<td align="center">2014-06-19</td>
<td align="center"><a href="/index.php/News/index/classid/18">团委</a></td>
有点长,但是跟原文一字不差的啊!
你也可以直接去看看原来的网页:http://ssdut.dlut.edu.cn/index.php/News/student.html
或者你可不可以帮我写一个正则,就是Pattern p=Pattern.compile("这里面这句");
我想抓出来的是一楼图片中那四项,都崩溃了,本来只是想写个小客户端玩来着,现在陷进去出不来
另外说一句,原网页编码是gb2312,我的解析部分是utf-8
httpClient = getHttpClient();
httpGet = new HttpGet(url);
HttpResponse response = httpClient.execute(httpGet);
if (response.getStatusLine().getStatusCode() == 200) {
//用utf-8编码转化为字符串
byte[] bResult = EntityUtils.toByteArray(response.getEntity());
if (bResult != null) {
responseBody = new String(bResult,"utf-8");
}
}
break;
但是utf-8是可以抓取group1和group2的,一旦跨行就不行了,group3、4一直不行,按你的提示我换成gb2312或gbk前两项都成了乱码。。这不是编码在搞怪吧?虽然不一致
也看到了非常huge的差距,我前面的路还很远。
同时必须非常感谢,只有您耐心并且成功的解答了问题。
我之前也按照这个思路写过,问题出在了(?is)这一句,我查到了(?is)表示启用模式修改符号(i表示忽略大小写 s表示启用单行模式),我又试了(?s)也可以,但是请问为什么要用单行模式?明明是很多行
多谢!主要是因为我是新手,确实正则解析html页面比较不方便,从标题进入正文之后<span>、<p>各种问题,我都傻眼了,用正则的话我是解决不了了。
再次感谢!