首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

关于怎么进行数据标准化的有关问题

2012-09-18 
关于如何进行数据标准化的问题有如下几类地址:1.沧湖东二里30#12012.南山路208号4043.风和苑17-2994.南营2

关于如何进行数据标准化的问题
有如下几类地址:1.沧湖东二里30#1201 2.南山路208号404 3.风和苑17-299 4.南营24座101 5.井大新村南401

  现在要将这些地址标准化,可以看到地址中的具体住宅地址,有些是小区名字,有些是路名和门牌号,并且楼房号的写法也不一致,有的是#,有的是-,有的是座
  现在需将所有地址归入到一个标准化的库中,库中选项有路名 门牌号 小区 楼栋编号 单元号 房间号
  例:南山路208号404 经过标准化后 路名:南山路 门牌号:208 房间号:404
  风和苑17-299 经过标准化后 小区:风和苑 楼栋编号:17 房间号:299

数据量比较庞大,请问有何高效的算法能够实现该标准化的问题,谢谢!

[解决办法]
这个需求能照顾精度就不错了。

从地址信息里面提取出门牌号,小区名这样的信息,需要用模式识别的算法。
看上去决策树效率比较高。

不过,如果真的数据量非常大的话,也可以先排序,对于重复率比较高的关键词,再进行识别。

热点排行