最近在写一个采集器,需要对抓取到的数据进行处理,然后再post上去.用的C#,现在遇到的问题是如何对采集的数据进行显示和发布.1.我采集到的数据,例子<title>这里是标题</title>....f.dfdfdf<h3>这里是内容<\h3>.
2.我采集的规则 <title>[标签:标题]</title>....f.dfdfdf<h3>[标签:内容]<\h3>.
3.要的第一个效果:显示需要对采集到的数据显示,最后的效果是
标题:这里是标题
内容:这里是内容第二个效果:发布,需要将采集的数据以数据包的形式发布上去。效果如下
biaoti:这里是标题
neirong:这里是内容显示和发布之间的关联:将[标签:标题]的标题提取出来用拼音代替换(其它也可以),然后将规则换成正则表达式,<title>(?<biaoti>[\s\S]*?)</title>\.\.\.\.f\.dfdfdf<h3>?<neirong>[\s\S]*?)<\h3>
然后获取的内容biaoti:这里是标题
neirong:这里是内容这上边的可以直接用来post数据.如果要显示,需要将biaoti转换回去,也就是原来的标题。标题:这里是标题
内容:这里是内容这样如何实现才好。因为 [标签:标题] 这个只是个例子,可能这些字符个数不定的。想做一个通用的程序,所以这个问题一定要解决才可以。