本人现在在做一个系统,要利用网络爬虫从一些类似主题的网站上爬出类似主题的文章,然后显示在我的网站上。
现在我遇到几点问题,想找人请教下:
1.有的文章连页面上的内容和相关的html标签一起拔下来后,发现长度特别长,到时候要能分页显示出来,我该采取何种存储方式要好些?我用的是sql server 数据库
2.我将内容从网站上拔下来后,有哪些字符和内容需要进行处理,比如单引号之类的,不然保存时会报错啊。