首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 网络技术 > 网络基础 >

<<这乃是搜索引擎>>学习笔记-算法之索引压缩

2012-08-27 
这就是搜索引擎学习笔记-算法之索引压缩前一段时间.在微博上中奖了.一个叫张俊林的帅锅.送了俺一本书.

<<这就是搜索引擎>>学习笔记-算法之索引压缩
前一段时间.在微博上中奖了.
一个叫张俊林的帅锅.送了俺一本书.由于工作(其实是懒惰),一直木有好好看..书到手一个月了才看了80多页.
现在终于要过年了.开始看了..顺路给自己做个笔记.在这里我郑重推荐此书

<<这就是搜索引擎:核心技术详解>>

定  价:¥45.00

作  者:张俊林 著

出 版 社:电子工业出版社

出版时间:2012-1-1

http://product.dangdang.com/product.aspx?product_id=22574992


好了广告 做完了..我先介绍一些索引压缩算法..

一.为什么压缩索引
海量的网页保存.需要消耗大量的磁盘空间.同事在索引读取的时候增加的磁盘的io.影响了性能所以压缩.


二.压缩的标准指标
1.压缩率  2.压缩速度 3.解压速度


三现在下面介绍第一种压缩算法.

EliasGamma算法

EG压缩算法利用分解函数将待压缩的数字分解为两个因子.之后分别用医院编码和二进制编码来表达这两个因子.

Elias Gamma 分解式如下  X = 2e + d (是2的e次方 .但是打不出来)

这里x为待解压的数字.e和d分别为其因子.对于因子 e+1采用一元编码表示.对于d用宽度为e的二进制编码来表示

1 楼 cjf068 2012-02-08   哈哈,运气这么嗨呢,我还打算买一本搜索方面的书 2 楼 ansjsun 2012-02-08   cjf068 写道哈哈,运气这么嗨呢,我还打算买一本搜索方面的书
强烈吐血推荐这本书..真的真的狠好..入门..晋级都不是问题..如果你已经是高手了..那呵呵...就算了 3 楼 cjf068 2012-02-08  
强烈吐血推荐这本书..真的真的狠好..入门..晋级都不是问题..如果你已经是高手了..那呵呵...就算了ansjsun 写道cjf068 写道哈哈,运气这么嗨呢,我还打算买一本搜索方面的书
强烈吐血推荐这本书..真的真的狠好..入门..晋级都不是问题..如果你已经是高手了..那呵呵...就算了
哈哈 ,看来我得去入手一本,近期准备入门一下垂直搜索 4 楼 ansjsun 2012-02-08   cjf068 写道
强烈吐血推荐这本书..真的真的狠好..入门..晋级都不是问题..如果你已经是高手了..那呵呵...就算了ansjsun 写道cjf068 写道哈哈,运气这么嗨呢,我还打算买一本搜索方面的书
强烈吐血推荐这本书..真的真的狠好..入门..晋级都不是问题..如果你已经是高手了..那呵呵...就算了
哈哈 ,看来我得去入手一本,近期准备入门一下垂直搜索
这本书也有将爬虫..但是比较深入...用到pagereng 等...


对了你感觉垂直搜索..和普通搜索有啥区别啊..我的理解比较浅显..就是别采集到站外就可以了...说白了就是采集指定的网址..还有一点就是..支持定制抽取吧 5 楼 cjf068 2012-02-08   我觉得垂直搜索关键就是专业,提取的信息专注于某一类业务,只是针对某个特定领域的专门搜索 6 楼 ansjsun 2012-02-08   解比较浅显..就cjf068 写道我觉得垂直搜索关键就是专业,提取的信息专注于某一类业务,只是针对某个特定领域的专门搜索
受教了..专门的字典..术语库...专门的检索...我也感兴趣..正在试着写个索引程序等我写完了试试哈 7 楼 lsycxyj 2012-04-05   博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢! 8 楼 ansjsun 2012-04-05   s delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!

我理解的是比如e 那么就是2的e次方  如果是9  e=3 那么3个bit可以表示..内存中是001 9 楼 ansjsun 2012-04-05   EliasGammaansjsun 写道s delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!

我理解的是比如e 那么就是2的e次方  如果是9  e=3 那么3个bit可以表示..内存中是001



写错了 9应该是0001001


两倍的e为字节的宽度.d为后续的字

解码就是2前面3个0代表3次方 , 后面为001 则为1  即是9 10 楼 lsycxyj 2012-04-05   ansjsun 写道EliasGammaansjsun 写道s delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!

我理解的是比如e 那么就是2的e次方  如果是9  e=3 那么3个bit可以表示..内存中是001



写错了 9应该是0001001


两倍的e为字节的宽度.d为后续的字

解码就是2前面3个0代表3次方 , 后面为001 则为1  即是9

9的Gamma是1110:001,Delta是110:00:001,如果把分隔符“:”也算一位的话,明显占用空间比9要大,为什么还能称为“压缩”?还是大位宽的情况下才算是“压缩”? 11 楼 ansjsun 2012-04-06   lsycxyj 写道ansjsun 写道EliasGammaansjsun 写道s delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!
lsycxyj 写道博主你好!我看了一下,利用elias delta的算法运算后,明明是一个数字9却变成占用了8位(连同分割位的话甚至更多)的数,为什么还称为“压缩”呢?希望能解答一下。谢谢!

我理解的是比如e 那么就是2的e次方  如果是9  e=3 那么3个bit可以表示..内存中是001



写错了 9应该是0001001


两倍的e为字节的宽度.d为后续的字

解码就是2前面3个0代表3次方 , 后面为001 则为1  即是9

9的Gamma是1110:001,Delta是110:00:001,如果把分隔符“:”也算一位的话,明显占用空间比9要大,为什么还能称为“压缩”?还是大位宽的情况下才算是“压缩”?


9是一个int..int是32位...小于32就算压缩吧..

热点排行