把web网页中的数据保存下来之后,怎样快速处理
比如,我定期半天把联想的item信息下载下来
具体的web网页在这里:
http://outlet.lenovo.com/SEUILibrary/controller/e/outlet_us/LenovoPortal/en_US/catalog.workflow:item.detail?GroupID=445&Code=1024XD3
我要用什么做一个像搜索引擎那样的索引,然后保存在内存中,当用户检测的时候,能快速获取到信息呢?
用什么方式来处理比较方便?
数据量貌似有几万个到几十万,因为不止联想的还是华硕的、apple这些其他的。
求帮助!
Web 行业数据 搜索引擎 联想 Apple
[解决办法]
用数据库,比如MySQL。
[解决办法]
用分词 程序统计网页里面每个单词出现的次数,然后为每一个常用词建立一个按出现次数排序的表,以此作为关键字查询的排名,最终排名还需要参照其它因素
[解决办法]