我在做一个多线程并行处理HTML页面的程序,在页面分析过程中遇到了难题,请教高手。目前我将通过WebRequest获取的HTML数据流通过IHTMLDocument3来获取dom树,从而转化为XML进一步转化为结构化数据。问:这种方式可取么?有没有更好的方式来将HTML数据流转化为结构化数据。如果可取的话如何将WebRequest获取的HTML数据流转化为dom树,我不知道如何在多线程程序中高效的将字符转类型转化为IHTMLDocument3。
解决方案 »
- N家公司都有的面试题,求答案。。。
- c# winform程序 关闭窗体后弹出内存不足 可能有哪些原因
- 安装软件时提示:Unable to load dll "SQLite.interop.dll"如何解决
- 请问GridView绑定List的问题
- 猫和老鼠
- Asp.net使用DllImport在Window7下的兼容性问题
- 在C#下开发.NET 出现的Session问题.
- VB中的相应语句在C#中怎么写
- ※※※※请问dataGrid中如何产生一个双击某行的时间,并读出该行的数据※※※※
- 请问一个线程HttpWebRequest使用时,(发生阻塞或超时的解决办法) ??
- 着急请教:在WIN2000 SERVER上部署的C#程序,怎么无法上传文件
- (winfrom)在c#中treeview控件关于checked的问题
各网站的页面结构(指<Table><TH><TD></TD></TH></Table>)不同。 是
<TH><TD></TD></TH>,
也可能是<TH><TD><TH><TD></TD></TH></TD><TD></TD><TD></TD></TH>等等
这样是与xml的风格截然不同的。建议你这样处理:
把网页中有用的内容先选取出来,再使用正则表达式进行分解,形成符合xml文档的格式数据后,在保存为xml文件。这时,你的实现方法就可以多种多样了。