我想把HTML页面里面的文字内容提取出来,可是如果用记事本打开的时候,里面有许多源代码,我只想要其中的文字部分!!!

解决方案 »

  1.   

    procedure TForm1.Button3Click(Sender: TObject);
     var
     str1:tstrings;
     substr,substr1:string;
     i :integer;
     txtfile:textfile;
     begin
     assignfile(txtfile,'c:\yyy.txt');
     reset(txtfile);
     Rewrite(txtfile);
    str1:=tstringlist.Create;str1.LoadFromFile('c:\yyy.htm');
    for i:=1 to str1.Count do
         begin
         substr:=str1[i];
         //showmessage(inttostr(pos('>',substr)));
          substr1:=copy(substr,pos('>',substr)+1,pos('<',substr)-pos('>',substr)-1);
          writeln(txtfile,substr1);     end;
      

  2.   

    加一句
     CloseFile(txtfile);
      

  3.   

    for i:=1 to str1.Count do
    要改成:
    for i:=0 to str1.Count-1 do
      

  4.   

    如果要分类呢?
    比如链接、文本、图片等等。
    呵呵,这样是不可以的。
    要用到MSHTML_tlb