请问,怎样能从文本中提取某些固定的信息

maggie03003 2007-11-14 02:10:19
我想将一个文档(类似词典),对单词提供了释义和其它方面的一些信息,我想做的是将词源(etymology,简写为:ety)信息提取出来, 文档格式如:
1) aardvark ety C19: from obsolete Afrikaans, from aarde earth+ varken pig
2) Ab ety from Hebrew, from Akkadian abu

要做的是将“ety” 后面引出的信息中,把表示单词来源的那个单词(一般在from 词后 , 提取出来(一般为国家名称,大写字母开头,有时也是地区名称, 常见的有Latin,Greek, French, German),如
aardvark ety C19: from obsolete Afrikaans, from aarde earth+ varken pig
Ab ety from Hebrew, from Akkadian abu
Abaddon ety Hebrew: literally, destruction

最后生成的文档是一张表格(叫做词源表),做成EXCEL的也可以;格式是三格:编号,单词 和对应的 词源,如
12 aardvark, Afrikaans
13 Ab,Akkadian
请教大家有什么好方法呢?
...全文
72 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
lihaifeng0412 2007-11-14
  • 打赏
  • 举报
回复
关注下 学习
Kreocn 2007-11-14
  • 打赏
  • 举报
回复
用正则表达式吧...我对这个也不是很懂...但是知道这个可以做到....
wyz6578397 2007-11-14
  • 打赏
  • 举报
回复

欢迎高手加入 群:18592092 我们期等你的加入!充实自已实力!同时也能帮助他人.

62,623

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧