用纯C语言写了一个HtmlParse(网页分析器)外带采集功能，大小只有200K(免费+开源+操作示意图)

用纯C语言写了一个HtmlParse(网页分析器)外带采集功能，大小只有200K(免费+开源+操作示意图)下载地址: http://tieba.cangzhuo.com/tieba-%25B2%25D8%25D7%25BE-kz-ff11da70f37b11dd8000354100003541.html用法很简单,比如:你把网页分析器保存到D:\那你直接在 dos 窗口下输入:
d:\czhtmlparse "http://tieba.cangzhuo.com/"
然后回车就可以了!
运行需要一个参数，
第一个参数
"http://tieba.cangzhuo.com/"
表示要下载的地址目前测试过的大型网站有
http://www.csdn.net/
http://www.google.cn/目前支持 GB2312编码、UTF-8编码自动转换、ISO-8859-1 及无编码类型网页！
下一版本将增加对BIG5编码类型网页的转换支持！我打算等有 200人回复说好的时候就开源!大家要是喜欢就回复哈!

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

下来试了，并不好用d:/czhtmlparse "http://www.163.com"主机地址为空！网页下载失败或页面小于1K，无法进行正常解析！
楼主不是菜鸟是广告机 ^_^
在CSDN发网址可以升排名
菜就一个字，TMD的垃圾，这SB不知道有没有源码，或者源码很垃圾，怕丢人，不敢放出来，这么简单的东西，直接用C　TIDY库就可以分析出来，才十多行代码，真TMD菜
#include <tidy.h>
#include <buffio.h>
#include <stdio.h>
#include <errno.h>
int main(int argc, char **argv )
{
  const char* input = "<title>Foo</title><p>Foo!";
  TidyBuffer output = {0};
  TidyBuffer errbuf = {0};
  int rc = -1;
  Bool ok;  TidyDoc tdoc = tidyCreate();                     // Initialize "document"
  printf( "Tidying:\t%s\n", input );  ok = tidyOptSetBool( tdoc, TidyXhtmlOut, yes );  // Convert to XHTML
  if ( ok )
    rc = tidySetErrorBuffer( tdoc, &errbuf );      // Capture diagnostics
  if ( rc >= 0 )
    rc = tidyParseString( tdoc, input );           // Parse the input
  if ( rc >= 0 )
    rc = tidyCleanAndRepair( tdoc );               // Tidy it up!
  if ( rc >= 0 )
    rc = tidyRunDiagnostics( tdoc );               // Kvetch
  if ( rc > 1 )                                    // If error, force output.
    rc = ( tidyOptSetBool(tdoc, TidyForceOutput, yes) ? rc : -1 );
  if ( rc >= 0 )
    rc = tidySaveBuffer( tdoc, &output );          // Pretty Print  if ( rc >= 0 )
  {
    if ( rc > 0 )
      printf( "\nDiagnostics:\n\n%s", errbuf.bp );
    printf( "\nAnd here is the result:\n\n%s", output.bp );
  }
  else
    printf( "A severe error (%d) occurred.\n", rc );  tidyBufFree( &output );
  tidyBufFree( &errbuf );
  tidyRelease( tdoc );
  return rc;
}LZ个垃圾，给你个TIDY＋BOOST分析的代码，轻松实现你那个垃圾功能，你个菜鸟，有没有源码，没源码就跟大爷学习一下
HtmlParser 网页采集分析器已经升级更新已经增加对UTF-8中文繁体、GBK中文繁体、BIG5中文繁体转换成BG2312的功能!
另外增加了对宽字符的支持!另补充说明:未使用任何第三方类库和正则库,完全自己编码实现!欢迎大家批评指正!多提宝贵意见!谢谢!
楼主你太牛叉叉了！！
我们多交流哈！！
请加我的MSN [email protected]