关于字符串的操作:如何翻译住址(已知存在住址词库),请进来看我描述
已知:我已经建好了一个表not_english,字段和值如下:
id chinese english
1省Province
2市City
3县County
4镇Town
5区District
6路Road
7街Street
(不断添加).....
已知:河南省南阳市中州路42号 翻译为
Room 42,Zhongzhou Road, Nanyang City,Henan Province
其中河南、南阳、中州,均为汉字转换拼音而来,已经解决。
省、市、路,其译文已经在数据库中指定。
问题:给出一个长长的住址,如何有效的去翻译它?算法如何实现?如何判断出住址中是否存在数据库中指定的住址关键字(如省、市、县、乡、花园)?
请大家给一个思路,谢谢。
[解决办法]
这是某人给我的建议
该问题用到的技术主要有:
1.中文分词技术
2.必须有中文词库,你这个地方用你的数据表就可以。
3.在加载页面之前对文字进行分词处理(英文翻译的倒装顺序等)
1. 完整的分词相当复杂,实现成本很高.(除非你盗版别人的)
就你所需要的应用(地名分析),完全没有必要上整套的分词系统.不就是半句话嘛!
2. 不需要专用的词库!
从现实出发,要想多快好省的完成这项目,最省力的办法就是容错运行,最后人工修改.
不管3721,先写程序把地址表全部转换为按区域等级分类的结构体.
然后将可能有错的挑出来单独修改. 比如 "某某市菜市口街 "存在两个 "市 ",需要人为干预.
3. 如果想做得好,可以找国家地理或行政管理部门索取或购买现成的地址表.