我们的客户是个猎头公司,每天收到N份简历,目前是人为的把简历的基本信息录入到数据库,如姓名,邮件,手机,邮编什么的。我们把这些简历里面的文字内容提取出来,他们告诉我说,oracle有这样包,可以从文字中把这些类似的信息分析出来。求高手指点,这些简历没有固定的格式,就像普通自己写的一样。

解决方案 »

  1.   

    有这样的包,什么用途?提取信息?还是解析信息?
    完全不一样的功能,,,简历的什么格式的>?附件?WORD? 网页?邮件?
      

  2.   

    利用utl_file包,可以逐行读取文本文件,然后用oracle的正则表达式函数把里面的内容截取出来但是你的简历是什么类型的文件还要保密吗,楼上问了那么多次也没见你说.
      

  3.   


    正则提取国家省市有什么难度,你给它造个字典不就完了,现成的地区列表网上随便找 没有什么高级的算法能让计算机去完成编写者都不知道如何去做的事(比如一个你都不知道是不是地名的关键字,你觉得你能让计算机识别出来吗,能也是有人先写了字典你直接拿来用)所以,我觉得有些时候是人太懒了,懒到基本的逻辑思维都不顾了。当然,自己写,要考虑的太多了....
    反正我不这么看,我觉得理论方向的东西,找现成是对的,总不至于让人去精研关系数学之后再学SQL,但是应用方向,成天找现成的东西,跳槽/加薪的时候很难当成自己的砝码
      

  4.   


    听上去你觉的这个应用很容易了,我没有你那么高的本事。
    我是说“就连看似简单的国家都不好搞”,并不是不能搞。搞个国家的字典,然后循环查询,这样是可以完成,效率太低了,有多少个国家就要循环少遍,方法有点笨,可我也想不出别的办法,只好说“就连看似简单的国家都不好搞”。
    正是我自己想不出好办法(并非只是国家),所有才来找现成的。我听说ORACLE有这样类似的软件,如果你能给我些帮助,我很感谢你。
      

  5.   

    我们做的不是中文系统,是英文的系统,不过中文也应该有这样类似的问题
    比如英国来说,Britain, the United Kingdom ,the United Kingdom of Great Britain and Northern Ireland,UK这些都是指英国,美国也一样America,U.S.,U.S.A.,USA,United States,United States of America这些都是指美国,如果再深入的话,大小写也是个问题。contains在搜索blob/clob的字段,是不区分大小写的,我这样写,where contains(upper(txtfile),upper('USA')),这样的话会报错,我想blob/clob字段不能upper的。用like查询的时候,也区分大小写的,而且like不会用到索引的,查询会更慢的。
    这样的因素加在一起的话,循环就不止200多次了。
    “把一个200多行的表循环一次真是效率太低了”,单纯的循环没什么效率可言的,可每一次循环都是要对blob/clob字段进行查找的。
      

  6.   

    any body can help me?