这是我毕设的题目,请问哪位大侠能给我讲讲 就是输入一个网页URL,将网页中的内容经过分析,自动在ORACLE中存储。
例如:有个表格式的 比如财务报表 将网页中的有用信息 存入到ORACLE中
我目前的想法是 先将网页源代码取下来存成文件,然后对源代码中的HTML标签进行分析 找出<tr></tr> 中的信息 第一行一般为标题 按照标题动态建立表,并将后面的内容存入表中,目前来看主要是分析算法伤脑筋 再有就是始终没想好 采用哪种技术 
请问ORACLE中有没有更简单好用的技术 谁能给我讲讲

解决方案 »

  1.   

    先做个同义词分类。
    然后建立同义词的数据字典。
    最后实现一个Web页面扫描和文本提取的东东。
    入库需要与分类相结合。
      

  2.   

    这个太简单了,我做个一个个人搜索引擎
    找个词典,我有一个人民报社的词典.
    然后抓网页看你不用另存为太菜了,自己编网络蜘蛛只抓html和htm的asp什么有参数
    抓了也没用,注意协议,http和https的是不一样的
    然后用最大逆向分词,过滤没用的标点符号等,然后寸在数组中,超过50000就有问题了
    你告诉我你用什么开发工具,很简单的
      

  3.   

    我用的oracle和C#
    你说的这些我不太明白 我们倒是学过数据挖掘的课 可是全是纯理论 没有任何实例 
    怎么和你联系
      

  4.   

    说的这些我实在难以理解 最好有个例子 我们本科刚毕业的不会那么深的啊 
    我就想把网页抓下来 存入oracle中就成 一定帮帮忙 狙击手 你是我们校友吧