我用vb做了个爬虫,具体功能就是把网页里的链接和连接名爬到文本框,然后输出为.txt文本文件,在把文本文件里的内容按分类存放到数据库(access)的相应的字段里。
  例如:
     '第一行   网易http://www.163.com
     '第二行   新浪http://www.sina.com
   数据库字段为   name     http   如何能把“网易”放到name字段  http://www.163.com 放到http字段里呢?
注意:因为是用正则提取的所以名称与链接中间没有任何符号,所以不能用空格与|来分割字段,,,,请高手解答谢谢!!!

解决方案 »

  1.   

    一行一行读取。判断有了http就把前面的放到第一个字段里。然后把后面的放到第二个字段里。正则都会用了这个算法都不会么?或者是我的理解有问题
      

  2.   

    关键是从文本文件存入数据库的时候,用正则遍历txt是全文遍历,,,不是一行一行啊,,,,我想了好久都没解决,,,
      

  3.   

    为什么要用正则呢?
    直接用 split 函数就OK了
    A()=split(txtData,"http://")
    for i=0 to 数据条数
    name =A(i)
    http ="http://" + A(i+1)
    把name和http插入数据库
    next 
    思路就这样 嘿嘿 
    其实有些时候用正则并不一定好
      

  4.   

    或者 用记事本 打开TXT 查找HTTP://替换成 HTTP://
    这个应该是最简单的吧 别老想用程序弄哦