建立一个小型的百度知道或者百科百科的搜索原型系统
抓取百度知道或者百科百科的网页
如何link follow,怎么抓取到更多的页面
URL结构,只抓取感兴趣的页面
解析页面:抽取出结构化信息,包括标题,正文或者其它
建立索引
索引结构设计,索引哪些内容对相关性是有帮助的
如何表示一个term的权重,TFIDF?BM25
中文分词
相关性排序
文本相关性
还有其它特征吗
前端搭建
产品设计
抓取百度知道或者百科百科的网页
如何link follow,怎么抓取到更多的页面
URL结构,只抓取感兴趣的页面
解析页面:抽取出结构化信息,包括标题,正文或者其它
建立索引
索引结构设计,索引哪些内容对相关性是有帮助的
如何表示一个term的权重,TFIDF?BM25
中文分词
相关性排序
文本相关性
还有其它特征吗
前端搭建
产品设计
解决方案 »
免费领取超大流量手机卡,每月29元包185G流量+100分钟通话, 中国电信官方发货