我原来使用instr、left、right之类的字符串操作符对一些网站的源文件进行分析、提取数据,但现在那个网站进行了升级,数据格式有了很大的变化,很不规则,所以现在准备改用正则表达式
由于要处理的数据量比较大,一般每次要处理700~1000个网页源文件,每个网页源文件如果保存为txt文件大约100~200K,以前用instr、left、right的方法,完成整个分析提取过程大约要10~16分钟(是实时访问网站,包括连接、接收数据的时间),以前使用正则表达式处理的数据量都不大,速度不是问题,但现在这数据量有点担心
有没有哪位以前试过比较过的?