首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 软件管理 > 软件架构设计 >

Baidu2006笔试算法题

2012-03-02 
求助:Baidu2006笔试算法题对给定的上亿条无序的url,请按照domain、site以及path分别排序,并请指出排序过程

求助:Baidu2006笔试算法题
对给定的上亿条无序的url,请按照domain、site以及path分别排序,并请指出排序过程中可能会遇到的哪些问题?如何提高效率? 
例如:http://www.baidu.com/path/about.html,domain、site以及path的定义分别如下: 
Domain:baidu.com 
Site:www.baidu.com 
Path: www.baidu.com/path 

上亿条?

怎么处理?内存吃得销吗? 是采用内部排序还是外部排序?




[解决办法]
B+树?
[解决办法]
看不懂,帮你顶
[解决办法]
awk....
[解决办法]
必然是外排序,还没看到那里,过两天再想想看。现在的想法是,按Domain分类,Domain内再分site,最后对path排序->site排序->domain排序,其中同一site的path排序可以在同一台机器上做,而且每个site内的path、site排序、domain排序是可以并行的。然后对具体的某个排序再选择合适的外排序算法。

热点排行