关于如何进行数据标准化的问题
有如下几类地址:1.沧湖东二里30#1201 2.南山路208号404 3.风和苑17-299 4.南营24座101 5.井大新村南401
现在要将这些地址标准化,可以看到地址中的具体住宅地址,有些是小区名字,有些是路名和门牌号,并且楼房号的写法也不一致,有的是#,有的是-,有的是座
现在需将所有地址归入到一个标准化的库中,库中选项有路名 门牌号 小区 楼栋编号 单元号 房间号
例:南山路208号404 经过标准化后 路名:南山路 门牌号:208 房间号:404
风和苑17-299 经过标准化后 小区:风和苑 楼栋编号:17 房间号:299
数据量比较庞大,请问有何高效的算法能够实现该标准化的问题,谢谢!
[解决办法]
这个需求能照顾精度就不错了。
从地址信息里面提取出门牌号,小区名这样的信息,需要用模式识别的算法。
看上去决策树效率比较高。
不过,如果真的数据量非常大的话,也可以先排序,对于重复率比较高的关键词,再进行识别。