有些站群软件只需要输入关键字就能采集的原理？

我看到很多站群软件，输入关键字就能采集网页，也不需要写规则，我很好奇，数据是从哪里来的，采集的哪里，不可能像搜索引擎一样吧，是在很好奇，求高人解答

直接把关键字提交到百度，GOOGLE查询，然后提取出需要的内容
通过百度或是GOOGLE搜索之后，会有数据返回，分析里面的URL，再获取URL的内容，再分析HTML的内容，使用正则表达示提取里面的一部分内容。
可能是就是从搜索引擎提取的，采集而来的肯定是垃圾网站，垃圾网站不会花费很高的成本部署，这种采集软件不会用高超的技术来实现。搜索引擎过来的基本都是新闻文章的详细页，软件采集到html标签里面的文字可以根据字数多少、行数多少、段落多少，分析出那些是文章内容。
搜索引擎过来的基本都是新闻文章的详细页，软件采集到html标签里面的文字可以根据字数多少、行数多少、段落多少，分析出那些是文章内容。
我也觉得不是这样,"分析里面的URL，再获取URL的内容，再分析HTML的内容",再分析HTML的内容的时候,url不同,HTML的格式也不同,这时候怎么分析呢?
比如提交到百度,分析里面的url 得到a.com和b.com两个url,在获取a.com的网页内容和b.com的网页内容,这时候a.com和b.com的html内容相差很大,怎么分析呢?