我看到很多站群软件,输入关键字就能采集网页,也不需要写规则,我很好奇,数据是从哪里来的,采集的哪里,不可能像搜索引擎一样吧,是在很好奇,求高人解答

解决方案 »

  1.   

    直接把关键字提交到百度,GOOGLE查询,然后提取出需要的内容
      

  2.   

    通过百度或是GOOGLE搜索之后,会有数据返回,分析里面的URL,再获取URL的内容,再分析HTML的内容,使用正则表达示提取里面的一部分内容。
      

  3.   

    可能是就是从搜索引擎提取的,采集而来的肯定是垃圾网站,垃圾网站不会花费很高的成本部署,这种采集软件不会用高超的技术来实现。搜索引擎过来的基本都是新闻文章的详细页,软件采集到html标签里面的文字可以根据字数多少、行数多少、段落多少,分析出那些是文章内容。
      

  4.   

    搜索引擎过来的基本都是新闻文章的详细页,软件采集到html标签里面的文字可以根据字数多少、行数多少、段落多少,分析出那些是文章内容。
      

  5.   


    我也觉得不是这样,"分析里面的URL,再获取URL的内容,再分析HTML的内容",再分析HTML的内容的时候,url不同,HTML的格式也不同,这时候怎么分析呢?
    比如提交到百度,分析里面的url 得到a.com和b.com两个url,在获取a.com的网页内容和b.com的网页内容,这时候a.com和b.com的html内容相差很大,怎么分析呢?