关于抓取网页内容

公司开发需要抓取网页并把其中有用的内容保存之文本。
目标网站是java做的，正常访问保存后包括一个框架网页index.html和一个文件夹(包括各种图，样式文件等，和main.html),我要抓取的是main.html里的内容。可是用webbrowser访问保留后的是index.html我怎么抓到main.html那个文件呢？