老师留了个题,把网络爬虫下载下来得大量网页源代码(经过净化的)
如url,time,摘要,指纹,正文等相关信息,保存起来(尽量不要浪费太大空间),因为正文信息有长有短。
让用mysql建库和库表,
进行插入,每一天都会重复下载大量这样的代码,进行更新,因为每天都会有大量网页更新,把已有相同的网页信息替换,
如何设计mysql库让查找不同网页的指纹把不同的指纹的网页进行更新,如何让插入速度更快??????????
请求高手指教,如何建库表和索引表