TStream格式问题.需要广博知识来回答.分数不成问题,有好的建议也可.

我的程序需要分析用TStream读进来的文件内容,比如我要分析所有含"中国"或China等字段的文档资料.遇到这样的问题:
1.内容编码复杂,有中文英文或其他格式编码可能有unicode,ascii等;
2.使用char字符串做内容查找时有问题比如"中文"两个字在TStream我发现变成了\'c9\'e8\'bc\'c6之类的编码,查找确实比较困难
3.不熟悉TStream的数据格式
比如在BCB中我用RichEdit读入"123中文abc"然后存进TMemoryStream结果变成了:
{\rtf1\ansi\ansicpg936\deff0\deflang1033\deflangfe2052{\fonttbl{\f0\fnil\fcharset0 MS Sans Serif;}{\f1\fnil\fcharset134 MS Sans Serif;}}
\viewkind4\uc1\pard\f0\fs16 123\lang2052\f1\'d6\'d0\'ce\'c4\lang1033\f0 abc\lang2052\f1
\par
\par }
谁能解释一下上面的格式吗?面对以上困难,怎么办有没有一种好办法?分数不成问题,有好的建议也可.

解决方案 »

免费领取超大流量手机卡，每月29元包185G流量+100分钟通话, 中国电信官方发货

RTF格式也要理解？那么html呢？Word呢？你死定了！
只不过是想查找内容比如关键字"中国"或China