C# 求教 提取新闻中地点方法

nickyzhi 2014-04-15 04:05:01
我现在有几个文件夹的数据,一个文件夹大概100篇从纽约时报爬的新闻。

我现在的问题是怎么从这新闻里面提取它的发生地点?

我已经做的工作是提取新闻关键字、题目以及作者等信息。

难点是新闻里有的地点写在开头,但是有的在新闻中间不好判断。

求大神帮忙!
...全文
166 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
shawn_yang 2014-04-16
  • 打赏
  • 举报
回复
除非文章地点有特殊格式表示,否则只能用地点库来匹配
本拉灯 2014-04-15
  • 打赏
  • 举报
回复
做个地点字典,为防止一个文章同时出现这个字典两个以下为这个字典做个 优先级关建字,然后把抓下来的新闻与这个字典做比较 这样更精确一些。地点可能会很多,但不可能无限的增加。毕竟一下地方名称是固定的。
threenewbee 2014-04-15
  • 打赏
  • 举报
回复
关键你对准确率有没有要求。没有要求的话,你可以将句子开头,但是首字母大写的单词提取出来,这些单词就是专有名词。 而如果它前面带着at in之类的介词,那么是地点的可能性就很大了。
nickyzhi 2014-04-15
  • 打赏
  • 举报
回复
顶一下。 希望有大神指教: 怎么提取地点的关键字呢?
nickyzhi 2014-04-15
  • 打赏
  • 举报
回复
引用 3 楼 caozhy 的回复:
比如这样的新闻: a flight from Kuala Lumpur to Beijing vanishes. 地点到底是什么?
确实有想到这个问题,鉴于这个问题的难度,所以如果提取地点名词成功的话,我就很满足了。关于提取地点,有什么可以指教的么?
threenewbee 2014-04-15
  • 打赏
  • 举报
回复
比如这样的新闻: a flight from Kuala Lumpur to Beijing vanishes. 地点到底是什么?
nickyzhi 2014-04-15
  • 打赏
  • 举报
回复
我在想能不能弄一个库,把知道的国家名称和城市名称加进去然后匹配,不知道行不行得通。
X_SpringSun 2014-04-15
  • 打赏
  • 举报
回复
这个难度略大,什么都不知道,就是文字 怎么去知道哪几个字是地点呢? 除非地点的前面和后面有特殊标识,然后去匹配。

110,545

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧