[[email protected]][/email]
上次在论坛里得到一兄弟帮忙把baidu的结果页面对应的正则表达式写出来了,如下:
String reg = "<h2 class=r>.*?" +
"<a.*? href=\"(.*?)\".*?>(.*?)</a>.*?</h2>";
Pattern p = Pattern.compile(reg,Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
Matcher m = p.matcher(str_1);
int i = 1;
while(m.find())
{
//直接在得到title和link的时候写入数据库?
title=m.group(2).replaceAll("<.*?>", "");//正则表达式
link=m.group(1);
......
}小弟照猫画虎,把google的写成这样:
String reg = "<h2 class=r>.*?" +
"<a.*? href=\"(.*?)\".*?>(.*?)</a>.*?</h2>";下边的部分和百度的一致,为什么就不能抓取到内容呢?请路过的大虾小虾都帮帮忙。谢谢。
上次在论坛里得到一兄弟帮忙把baidu的结果页面对应的正则表达式写出来了,如下:
String reg = "<h2 class=r>.*?" +
"<a.*? href=\"(.*?)\".*?>(.*?)</a>.*?</h2>";
Pattern p = Pattern.compile(reg,Pattern.CASE_INSENSITIVE | Pattern.DOTALL);
Matcher m = p.matcher(str_1);
int i = 1;
while(m.find())
{
//直接在得到title和link的时候写入数据库?
title=m.group(2).replaceAll("<.*?>", "");//正则表达式
link=m.group(1);
......
}小弟照猫画虎,把google的写成这样:
String reg = "<h2 class=r>.*?" +
"<a.*? href=\"(.*?)\".*?>(.*?)</a>.*?</h2>";下边的部分和百度的一致,为什么就不能抓取到内容呢?请路过的大虾小虾都帮帮忙。谢谢。
解决方案 »
- 利用正则表达式去掉html标签,但是保留图片的标签,同时替换图片的路径和名字
- Eclipse如何列出所有的breakpoint断点?在一个项目中加了太多的断点,都忘记了!提一个csdn的bug,在firefox下面,帖子列表不能完全看到,要用滚动条哦
- 关于建立对象
- 大家帮我看看这段关于抛出异常的程序有什么问题,老是说非法的表达式开始
- 重量组件与轻量组件
- <<JAVA核心技术 第七版>>中的一个问题??????/
- 那里能看到Java的类的继承关系图阿?
- 初学者的疑问
- 香港公司购买一个在线 GAME 的软件,出价 3.5万-4万 ,用JAVA编写或类似技术,有大虾自己有现成可以出售吗?
- 新手学Javascript应从那方面入手?
- 新手简单字符串解析问题请教
- this、super 关键字
"<a.*? href=\"(.*?)\".*?>(.*?)</a>.*?</table>";
小弟照猫画虎,把google的写成这样:
String reg = " <h2 class=r>.*?" +
" <a.*? href=\"(.*?)\".*?>(.*?) </a>.*? </h2>";