我想将一个文档(类似词典),对单词提供了释义和其它方面的一些信息,我想做的是将词源(etymology,简写为:ety)信息提取出来, 文档格式如:
1) aardvark ety C19: from obsolete Afrikaans, from aarde earth+ varken pig
2) Ab ety from Hebrew, from Akkadian abu要做的是将“ety” 后面引出的信息中,把表示单词来源的那个单词(一般在from 词后  , 提取出来(一般为国家名称,大写字母开头,有时也是地区名称, 常见的有Latin,Greek, French, German),如
aardvark ety C19: from obsolete Afrikaans, from aarde earth+ varken pig
Ab ety from Hebrew, from Akkadian abu
Abaddon ety Hebrew: literally, destruction最后生成的文档是一张表格(叫做词源表),做成EXCEL的也可以;格式是三格:编号,单词 和对应的 词源,如  
                                                                       12   aardvark, Afrikaans
                                                              13  Ab,Akkadian
请教大家有什么好方法呢?