建立一个小型的百度知道或者百科百科的搜索原型系统
   抓取百度知道或者百科百科的网页
       如何link follow,怎么抓取到更多的页面
       URL结构,只抓取感兴趣的页面
   解析页面:抽取出结构化信息,包括标题,正文或者其它
   建立索引
       索引结构设计,索引哪些内容对相关性是有帮助的
       如何表示一个term的权重,TFIDF?BM25
       中文分词
   相关性排序
       文本相关性
       还有其它特征吗
   前端搭建
   产品设计