我知道怎样做,但是没有作过,不好意思了WORD:
我用的是Office XP,在MS站点上提供了XP的.Net接口,可以用C#编程得到所有的文字HTML:
如果想得到“<a> XXXX</a>”形式的,可以直接用Socket的子类建立Http联结,读取到的就是了,如果想得到文字“XXXX”有些麻烦,需要区分哪些是控制符哪些是文字,如“<a><<b>XXXX</b>></a>”,Html的知识我不太懂,不好讲了,但我想是可以穷举的吧!以下是我想到的情况:
页面中有Script,有对其他页面的引用如Frame,有对B端Cookie的读取等,另外,如果文字在图片里的就不好办
我用的是Office XP,在MS站点上提供了XP的.Net接口,可以用C#编程得到所有的文字HTML:
如果想得到“<a> XXXX</a>”形式的,可以直接用Socket的子类建立Http联结,读取到的就是了,如果想得到文字“XXXX”有些麻烦,需要区分哪些是控制符哪些是文字,如“<a><<b>XXXX</b>></a>”,Html的知识我不太懂,不好讲了,但我想是可以穷举的吧!以下是我想到的情况:
页面中有Script,有对其他页面的引用如Frame,有对B端Cookie的读取等,另外,如果文字在图片里的就不好办
app.Visible = false;
string strFile = "c:\\bbb.doc";
object obj = System.Reflection.Missing.Value;
Object infile = (object)strFile;
Word.Document doc = app.Documents.Open(ref infile, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj);
string strnew = "c:\\bbb.txt";
Object outfile = (object)strnew;
Object fmt = (object)Word.WdSaveFormat.wdFormatText;
doc.SaveAs(ref outfile, ref fmt, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj, ref obj);
doc.Close(ref obj, ref obj, ref obj);
app.Quit();
app = null;