关于大旗网的几点疑惑 相信大家对大旗网并不陌生,www.daqi.com,它的网页上面是自己的东西下面是来自"猫扑","新浪"或是"天涯"的,不知道他的数据是怎么采集来的,他是怎么做的,最好帮忙深入的分析下这个网站. 解决方案 » 免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货 数据采集技术,参见《搜索引擎零距离》《搜索引擎零距离》目录转帖自:http://www.china-pub.com/195494 《搜索引擎零距离》http://verticalse.group.javaeye.com 垂直搜索讨论圈第1章 网页数据挖掘 11.1 网页数据挖掘定义 11.2 Web数据挖掘面临的问题 11.3 Web数据挖掘的分类 11.4 网页数据的结构与特点 31.4.1 HTML超文本标记语言 31.4.2 WML 无线标记语言 41.5 网页数据挖掘的基本方法 61.5.1 预备知识 71.5.2 变量模板匹配方法 81.5.3 树节点直接标识方法 101.5.4 语义规则识别方法 13第2章 智能网络爬虫 142.1 智能网络爬虫的定义与特点 142.2 抓取入口定义 142.3 次级页面自动发现 142.4 次级页面地址拼接 162.5 已爬地址处理 172.6 信息采集强度控制 192.7 模拟用户登录 192.8 验证码识别 202.9 代理服务器设置 202.10 JavaScript解析控制 21第3章 网页信息挖掘专用程序设计语言IRS 233.1 IRS语言的简介与设计原则 233.2 IRS脚本语法结构 233.2.1 页面配置块 233.2.2 页面名语句 233.2.3 爬虫配置声明语句 243.2.4 入口声明语句 243.2.5 编码配置 263.2.6 步长配置 263.2.7 重试次数配置 273.2.8 正则模式匹配语句 273.2.9 匹配名声明 283.2.10 IEE表达式 283.2.11 模式匹配修饰符 293.2.12 节点模式匹配语句 323.2.13 次级页面入口语句 333.2.14 保存语句 353.2.15 Ruby控制语句 353.2.16 爬虫配置语句 373.2.17 系统配置语句 373.2.18 外部配置文件 383.2.19 执行语句块 393.2.20 IRQL存储语句 403.2.21 IRQL语言中的数据表 443.2.22 IRQL内部函数 493.2.23 实例解析 55第4章 IRS虚拟机及编译器实现原理 694.1 Ruby基本语法 704.1.1 字句构造和表达式 704.1.2 字面值 714.1.3 控制结构 744.1.4 类和方法的定义 804.1.5 运算符表达式 844.1.6 变量和常量 894.1.7 方法调用 914.2 Java与JRuby的整合 934.2.1 Java中的Ruby运行库环境 934.2.2 IRSReflectionCallback类实现 944.2.3 在Java中编译执行Ruby脚本 994.2.4 Java内嵌Ruby方法总结 1004.3 词法分析和语法分析 1014.3.1 定义与简介 1014.3.2 SableCC 1034.4 IRS语言的语义分析 1374.5 IRVM虚拟机主类 1464.5.1 generateEntrance() 1474.5.2 getContent() 1494.5.3 match() 1604.5.4 save() 1744.5.5 compileAndRun() 198第5章 搜索引擎设计原理 2005.1 概述 2005.2 Lucene引擎的原理 2055.2.1 工作方式 2055.2.2 基本概念 2065.2.3 包结构 2075.2.4 索引操作 2085.2.5 搜索 2105.2.6 分析器 2145.2.7 性能优化 2155.2.8 并行集群 2165.3 Hadoop原理 2205.3.1 组成结构 2205.3.2 开发与使用 2225.4 Nutch搜索引擎的原理 2265.4.1 简介 2265.4.2 插件体系 2265.4.3 数据获取与分析 2285.5 Compas原理 2645.5.1 功能增强 2645.5.2 API简化 2655.5.3 编程方式 2655.6 Solr搜索引擎的原理 2665.6.1 概述 2665.6.2 使用Solr 269第6章 搜索引擎的商业化实现 2756.1 索引 2756.1.1 Solr实现 2756.1.2 MySE实现 2796.1.3 总结 3176.2 查询 3176.2.1 Solr实现 3176.2.2 MySE实现 3186.2.3 总结 358第7章 Hivemind 3597.1 模块(Modules) 3597.2 子模块与依赖性(Sub Modules& Dependency) 3607.3 服务点(ServicePoints) 3617.4 拦截器(Interceptor) 3627.5 配置点(ConfigurationPoints) 3637.6 符号资源(SymbolSources) 3647.7 转换器(Translators) 3657.8 对象提供器(ObjectProviders) 3687.9 服务模型(ServiceModels) 3707.10 启动&预加载(Startup & EagerLoad) 3737.11 服务构造器 376后记与感谢 393 http://www.china-pub.com/195494 《搜索引擎零距离》http://verticalse.group.javaeye.com 垂直搜索讨论圈 【求教】定时删除过后,MySql无法打开 选项卡 Struts2问题 提问一个问题,(jsp)我把所有图片查询出来了,name id 日期,发在文本框里,点击修改,我调试了一下,form里面什么都没有。。谢谢各位大虾 上传图片如何个图片加水印??? ajax session问题(急) 插件问题 JSF中如何动态生成选项卡? 在jsp架构的web站点中,我的pro文件应该放在哪里呢? 关于网站加密 经验共享:数据库自动重连 java读取网页内容问题
http://www.china-pub.com/195494 《搜索引擎零距离》
http://verticalse.group.javaeye.com 垂直搜索讨论圈
第1章 网页数据挖掘 1
1.1 网页数据挖掘定义 1
1.2 Web数据挖掘面临的问题 1
1.3 Web数据挖掘的分类 1
1.4 网页数据的结构与特点 3
1.4.1 HTML超文本标记语言 3
1.4.2 WML 无线标记语言 4
1.5 网页数据挖掘的基本方法 6
1.5.1 预备知识 7
1.5.2 变量模板匹配方法 8
1.5.3 树节点直接标识方法 10
1.5.4 语义规则识别方法 13
第2章 智能网络爬虫 14
2.1 智能网络爬虫的定义与特点 14
2.2 抓取入口定义 14
2.3 次级页面自动发现 14
2.4 次级页面地址拼接 16
2.5 已爬地址处理 17
2.6 信息采集强度控制 19
2.7 模拟用户登录 19
2.8 验证码识别 20
2.9 代理服务器设置 20
2.10 JavaScript解析控制 21
第3章 网页信息挖掘专用程序
设计语言IRS 23
3.1 IRS语言的简介与设计原则 23
3.2 IRS脚本语法结构 23
3.2.1 页面配置块 23
3.2.2 页面名语句 23
3.2.3 爬虫配置声明语句 24
3.2.4 入口声明语句 24
3.2.5 编码配置 26
3.2.6 步长配置 26
3.2.7 重试次数配置 27
3.2.8 正则模式匹配语句 27
3.2.9 匹配名声明 28
3.2.10 IEE表达式 28
3.2.11 模式匹配修饰符 29
3.2.12 节点模式匹配语句 32
3.2.13 次级页面入口语句 33
3.2.14 保存语句 35
3.2.15 Ruby控制语句 35
3.2.16 爬虫配置语句 37
3.2.17 系统配置语句 37
3.2.18 外部配置文件 38
3.2.19 执行语句块 39
3.2.20 IRQL存储语句 40
3.2.21 IRQL语言中的
数据表 44
3.2.22 IRQL内部函数 49
3.2.23 实例解析 55
第4章 IRS虚拟机及
编译器实现原理 69
4.1 Ruby基本语法 70
4.1.1 字句构造和表达式 70
4.1.2 字面值 71
4.1.3 控制结构 74
4.1.4 类和方法的定义 80
4.1.5 运算符表达式 84
4.1.6 变量和常量 89
4.1.7 方法调用 91
4.2 Java与JRuby的整合 93
4.2.1 Java中的Ruby运行库
环境 93
4.2.2 IRSReflectionCallback
类实现 94
4.2.3 在Java中编译执行Ruby
脚本 99
4.2.4 Java内嵌Ruby
方法总结 100
4.3 词法分析和语法分析 101
4.3.1 定义与简介 101
4.3.2 SableCC 103
4.4 IRS语言的语义分析 137
4.5 IRVM虚拟机主类 146
4.5.1 generateEntrance() 147
4.5.2 getContent() 149
4.5.3 match() 160
4.5.4 save() 174
4.5.5 compileAndRun() 198
第5章 搜索引擎设计原理 200
5.1 概述 200
5.2 Lucene引擎的原理 205
5.2.1 工作方式 205
5.2.2 基本概念 206
5.2.3 包结构 207
5.2.4 索引操作 208
5.2.5 搜索 210
5.2.6 分析器 214
5.2.7 性能优化 215
5.2.8 并行集群 216
5.3 Hadoop原理 220
5.3.1 组成结构 220
5.3.2 开发与使用 222
5.4 Nutch搜索引擎的原理 226
5.4.1 简介 226
5.4.2 插件体系 226
5.4.3 数据获取与分析 228
5.5 Compas原理 264
5.5.1 功能增强 264
5.5.2 API简化 265
5.5.3 编程方式 265
5.6 Solr搜索引擎的原理 266
5.6.1 概述 266
5.6.2 使用Solr 269
第6章 搜索引擎的商业化实现 275
6.1 索引 275
6.1.1 Solr实现 275
6.1.2 MySE实现 279
6.1.3 总结 317
6.2 查询 317
6.2.1 Solr实现 317
6.2.2 MySE实现 318
6.2.3 总结 358
第7章 Hivemind 359
7.1 模块(Modules) 359
7.2 子模块与依赖性(Sub Modules
& Dependency) 360
7.3 服务点(ServicePoints) 361
7.4 拦截器(Interceptor) 362
7.5 配置点(ConfigurationPoints) 363
7.6 符号资源(SymbolSources) 364
7.7 转换器(Translators) 365
7.8 对象提供器(ObjectProviders) 368
7.9 服务模型(ServiceModels) 370
7.10 启动&预加载
(Startup & EagerLoad) 373
7.11 服务构造器 376
后记与感谢 393
http://www.china-pub.com/195494 《搜索引擎零距离》
http://verticalse.group.javaeye.com 垂直搜索讨论圈