征求下大家意见~~~~~~
这样的~~
从某网站抓取的一批数据,城市这一项
同一个城市有好几种写发
比如北京
beijing
Beijing
beijingcity
bejingtianjing
beijingchina
bei jig city
当我对城市信息统计时,肯定少不了数据清晰工作.
每次都有少则几大千 多则几W
要是我一个个手动来弄的话,蛮烦的
所以我现在打算用程序来做,用正则来清洗数据
而用正则的话,我就必须要把中国的所有城市先给搜罗来然后改成各种形式的正则
那么
这效率,速度上是否.......
或者你有更好的方法?