大虾们,你们好! 之前发过一个帖子关于web信息抽取的帖子,一位大虾用正则表达式的方法帮我解决了提取某一类网站的问题。但是我需要到网站上爬出很多网站进行提取,这样的话网站的格式都不一样,如果每类网站都写一个规则,那不是写不完? 不知道还有没有其他好的方法。 我想做到的是:比如一个公司发布的求职岗位。我们需要从这个网页中提取岗位的名称,要求等信息存到数据库中,形成结构化的数据。 真心希望有人能提供代码!
解决方案 »
- PropertyGrid 复杂属性怎么展开
- 获取throw new exception抛出异常信息的问题
- 怎样在Form2中操作Form1的控件?
- 利用SaveFileDialog将byte[] 写成txt或doc格式到指定目录下应该如何做?
- 谁使用过windows窗体中的datagridview的虚拟模式?
- .net login控件自动登录的问题
- 怎么才能够在线程中关闭起用线程的窗口吗?我的会出错提示
- 对一个DataTable 的某一列用DataView排序,怎么10以内的排在10以上的前面啊
- 如何格式化winform的datagrid中列的数值
- 无法打开web项目bbs
- SqlServer求导入导出Excel实例
- 请教 1 到100随机数不重复插入数组 效率问题
你可以用正则表达式获取汉字和汉字标点,但并不能保证获取的质量,如果文章中含有英文或英文字符,就会获取不全面。
用正则表达式去掉html标签来获取剩余字符也可以,但js代码不是html代码,也要去掉..