如何获取网页的链接与文字?

如何获取网页的链接与文字?链接地址:http://tv.yunshitv.com/ad/test.php

1。用 flie_get_contents 获得网页的所有内容
2。使用正则提取需要内容思路就这样。
如果规则的话，把html看为xml结构。
直接使用file_get_contents是可以获取到页面的结果的。
但是却无法直接使用正则匹配。
分析这个页面可以看到。页面其实是通过iframe把其他页面的内容嵌入进来的。
是sogou的一个推广服务：
http://lu.sogou.com/kwd?pid=yunshitv_com&ct=kwd&fmt=h_kwd&dn=8&iw=950&ih=90&fs=15&c_bo=c0c0c0&rn=3&cn=10&c_bg=000000&c_fg=ffff00&tdw=10&charset=gb2312&ilp=1&ti=%EF%BF%BD%DE%B1%EF%BF%BD%EF%BF%BD%EF%BF%BD%EF%BF%BD%C4%B5%EF%BF%BD&ref
去下个snoopy类吧，你要的都有，我也正好在做这个
array=document.getElementsByTagName("a");//将所有的链接取出为数组长。array[0].InnerText
//a中的链接文字