征求下大家意见~~~~~~

Lie_li 2009-02-12 11:28:07
这样的~~

从某网站抓取的一批数据,城市这一项

同一个城市有好几种写发

比如北京

beijing

Beijing

beijingcity

bejingtianjing

beijingchina

bei jig city

当我对城市信息统计时,肯定少不了数据清晰工作.

每次都有少则几大千 多则几W

要是我一个个手动来弄的话,蛮烦的


所以我现在打算用程序来做,用正则来清洗数据

而用正则的话,我就必须要把中国的所有城市先给搜罗来然后改成各种形式的正则


那么

这效率,速度上是否.......

或者你有更好的方法?
...全文
44 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
冀章的小目标 2009-02-12
  • 打赏
  • 举报
回复
还是正则吧
ip_moon 2009-02-12
  • 打赏
  • 举报
回复
我一般用正则。。。
Lie_li 2009-02-12
  • 打赏
  • 举报
回复
正则能力不是我担心的

我担心的是速度上


我的数据源 少则几大千 多则几万


全中国有多少城市? 需要匹配的量~?


等待被匹配的数据有几大千 或几万

然后每条数据需要经过的判断又是不知道多少



速度~ 效率 ~ 是我关注的问题
kao331431214 2009-02-12
  • 打赏
  • 举报
回复
而用正则的话,我就必须要把中国的所有城市先给搜罗来然后改成各种形式的正则
你网上找下 这样的正则以前应该有人做过的
自己做也行 总比人工处理强
而且有了以后 做处理就是点点按钮的事情了呵呵

58,454

社区成员

发帖
与我相关
我的任务
社区描述
Java Eclipse
社区管理员
  • Eclipse
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧