大虾们,你们好!   之前发过一个帖子关于web信息抽取的帖子,一位大虾用正则表达式的方法帮我解决了提取某一类网站的问题。但是我需要到网站上爬出很多网站进行提取,这样的话网站的格式都不一样,如果每类网站都写一个规则,那不是写不完?  不知道还有没有其他好的方法。  我想做到的是:比如一个公司发布的求职岗位。我们需要从这个网页中提取岗位的名称,要求等信息存到数据库中,形成结构化的数据。    真心希望有人能提供代码! 
  

解决方案 »

  1.   

    此方法目前Google也正在研究。没辙!
      

  2.   

    其实不可能有通用方法。
    你可以用正则表达式获取汉字和汉字标点,但并不能保证获取的质量,如果文章中含有英文或英文字符,就会获取不全面。
    用正则表达式去掉html标签来获取剩余字符也可以,但js代码不是html代码,也要去掉..
      

  3.   

    楼主你好,我现在也在看这方面的内容,你能不能把你的网页和抽取规则发一个给我,让我学习一下,谢谢了!  邮箱是[email protected]