用纯C语言写了一个HtmlParse(网页分析器)外带采集功能,大小只有200K(免费+开源+操作示意图)下载地址: http://tieba.cangzhuo.com/tieba-%25B2%25D8%25D7%25BE-kz-ff11da70f37b11dd8000354100003541.html用法很简单,比如:你把网页分析器保存到D:\那你直接在 dos 窗口下输入:
d:\czhtmlparse "http://tieba.cangzhuo.com/"
然后回车就可以了!
运行需要一个参数,
第一个参数
"http://tieba.cangzhuo.com/"
表示要下载的地址目前测试过的大型网站有
http://www.csdn.net/
http://www.google.cn/目前支持 GB2312编码、UTF-8编码自动转换、ISO-8859-1 及无编码类型网页!
下一版本将增加对BIG5编码类型网页的转换支持!我打算等有 200人回复说好的时候就开源!大家要是喜欢就回复哈!
d:\czhtmlparse "http://tieba.cangzhuo.com/"
然后回车就可以了!
运行需要一个参数,
第一个参数
"http://tieba.cangzhuo.com/"
表示要下载的地址目前测试过的大型网站有
http://www.csdn.net/
http://www.google.cn/目前支持 GB2312编码、UTF-8编码自动转换、ISO-8859-1 及无编码类型网页!
下一版本将增加对BIG5编码类型网页的转换支持!我打算等有 200人回复说好的时候就开源!大家要是喜欢就回复哈!
解决方案 »
- 这是怎么回事啊!很奇怪!谁见过
- ERP系统的订单子系统
- MyEclipse中只要文件一改成某个名字就会出错,见鬼了
- operamasks 中出现Wrong number of arguments
- 喷血跪求高手回答,这个函数是啥功能?
- Struts+Spring+Hibernate Web工程的初始化过程?
- (搜索引擎的模糊匹配)lucene适合海量数据的模糊匹配吗?寻求“类百家姓”在lucene的实现方法?
- hibernate3.1.1出现“org.hibernate.MappingException: Could not read mappings from resource:”错误
- 正则表达式问题,帮忙看下,tks
- j2ee,j2se,j2me中都有jre和sdk,能否谈谈区别,及各自的准确定位
- 用JAVA做一个小型数据库
- 求助,weblogic服务器经常出现Queue Length堵塞,导致系统当机,可能是什么原因导致的,如果是代码问题,怎么样才能找到原因?
另外增加了对宽字符的支持!另补充说明:未使用任何第三方类库和正则库,完全自己编码实现!欢迎大家批评指正!多提宝贵意见!谢谢!