我现在在做网页特征码的提取,步骤是这样的:“网页在导航信息中较少的出现标点符号,尤其是句号几乎不会出现,另外导航信息多出现在 HTML 语言中的超链接标记中。因此,我们在提取特征码时可以尽量把导航信息等干扰信息去处掉,再把句号作为一个提取的位置,分别在句号两边提取L/2长的词串构成网页的一个特征码。之所以要在句号的两边分别取L/2长的词串,是因为在L/2-1和L/2处的字很难构成一个词,因此更能保证特征码的唯一性。下面是几个特征码的例子:“百七十二人其中很多是”,“的社会效果但是大陆报”,“率几十倍这表明法律”。”
请问怎么实现这个特征码的提取,也就是怎么将句号两端共10个字提取出来(假定L=10),如果两边不足5个字,就用某个符号代替?