刚开始做网络爬虫,都很不熟悉,希望大家帮忙:就是找一个比较新的技术的网页,比如纳米技术,然后把与这个技术相关的所有网页的URL都下载到本地,在这些URL之间寻找联系,比如1网页和2网页连接,就返回1,不连接就返回0,最后得到的结果是这些URL之间的关系矩阵 最主要的问题是,怎么返回一个矩阵。还有要实现这些功能用那个软件最好,.NET中的C#, JAVA,这两个我都学过,不知道用哪个更好些拜托大家了。。

解决方案 »

  1.   

    建议用JAVA,JAVA中的Hashtable和HashMap对存储、读取二维或多维的矩阵数据很方便的,如果要防止URL存储的重复的情况下,大多数情况可以用LinkedList
      

  2.   

    能不能说一说具体的思想,或者我应该去着重看哪些书,我昨天个刚把ECLIPES装上,现在还是很迷茫,拜托2楼了
      

  3.   

    正要来接触网络爬虫技术,我也是C#和Java都OK,现在对爬虫仅仅是概念上的认识,希望给点建议,弱弱的问句有推荐的书看不?需要涉及到哪些技术?