关于搜索聊天记录
奶酪(524300045) 16:33:15 语言都是一样,思想最重要andy(40508730) 16:33:27 伟大的小白(439297317) 16:31:16各种语言都用 不是说 让做刷马桶的去烧饭你刷马桶要用马桶刷你烧饭要用烧饭的andy(40508730) 16:33:36 主要思想是完成工作0.0(237667802) 16:33:38 思想这东西,太抽象了天上虹(175535850) 16:33:42 linux下c/c++推荐基本书吧,罗成(409661706) 16:33:45 语言太杂了 真不好···奔波于语法的学习伟大的小白(439297317) 16:34:06 思想.. 对你说赫赫 你对c来个闭包思想看看低调(313316432) 16:34:07 语法还真不是重点西电-hadoop(715691357) 16:34:12 恩 最关键的 你得能上网 能google 能百度 能csdn 能加hadoop技术交流群伟大的小白(439297317) 16:34:20 你对 java来个指针思想看看天上虹(175535850) 16:34:30 更重要的是没事了能上上防御塔 伟大的小白(439297317) 16:34:29 思想这东西 你忽悠忽悠刚毕业的还差不多 低调(313316432) 16:34:31 对各种库啊 api啊什么的 记得多天上虹(175535850) 16:34:43 大家看人人小站没 摧毁了一座防御塔0.0(237667802) 16:34:58 别再谈思想了,谈不起罗成(409661706) 16:35:05 最合适就是最好的吧··0.0(237667802) 16:35:49 最多谈谈架构西电-hadoop(715691357) 16:36:24 有个问题放在那里 你就赶紧想个法子解决了 就行了 天上虹(175535850) 16:36:24 没有哪种思想能适合每一个公司的业务的 罗成(409661706) 16:36:47 老板就别想给1份的工资就让人做2份工作的事···招的是JAVA程序员 就别逼人家搞C的项目···业余时间帮你用C做个开源消息队列还行天上虹(175535850) 16:37:34 我以前说想去搞搞c的。。。没想到真想起我了。。。0.0(237667802) 16:37:50 那就搞呗0.0(237667802) 16:38:07 把自己卖给了老板,不搞,人家不给你饭吃天上虹(175535850) 16:38:17 加薪搞不搞c 罗成(409661706) 16:39:01 中国就是项目搞得太急躁··没时间重构···不能精雕细琢0.0(237667802) 16:39:45 没有品质优良的项目,哪来重构的基础西电-hadoop(715691357) 16:40:04 都啥时代了 谁还有心思搞绣花针 能搞出来 卖出去 能用就行了 反正用的人也不知道咋回事西电-hadoop(715691357) 16:40:08 哈哈天上虹(175535850) 16:40:18 话说中国干什么事情都说要”又快又好“,上至天朝下至百姓伟大的小白(439297317) 16:40:25 重构了你的代码 谁来重构我的钱包0.0(237667802) 16:40:36 不必抱怨那么多海风(78441391) 16:46:51 问大家一个问题,有没有碰到只能Map,不能Reduce的情况Reduce=0% 卡这了nknk(290377570) 16:48:23 你用combine了吗?海风(78441391) 16:53:25 在hive命令行运行的小Q(178960751) 18:14:29 连鸿蒙国际这样的烂东西都能上人民日报.汗!小Q(178960751) 18:15:07 kwee(836232886) 18:15:34 娱乐新闻嘛日期:2011/11/24lykke.lm(715356603) 9:15:11 org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create file /user/suse/tik/segments/20111123175211/content/part-00003/data for DFSClient_attempt_201111220922_0412_r_000003_1 on client 192.168.1.15 because current leaseholder is trying to recreate file.at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:1045)at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:981)at org.apache.hadoop.hdfs.server.namenode.NameNode.create(NameNode.java:377)at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source)at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)at java.lang.reflect.Method.invoke(Method.java:597)at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:508)at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:959)at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:955)at java.security.AccessController.doPrivileged(Native Method)at javax.security.auth.Subject.doAs(Subject.java:396)at org.apache.hadoop.ipc.Server$Handler.run(Server.java:953)请问谁遇到过这种错误lykke.lm(715356603) 9:15:24 运行几个小时之后就报这个错误332106123(332106123) 9:16:47 好像是权限问题lykke.lm(715356603) 9:16:53 不是 lykke.lm(715356603) 9:17:02 要是权限问题的话 任务根本运行不起来 lykke.lm(715356603) 9:17:09 我这个是运行了 10几个小时的时候报的 开心延年-alipay<myn@163.com> 10:13:41 目标:让单机版的lucene能够支持十亿级别索引的查询索引更改点1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)2. Term压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做)3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余)4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处下表为对100W~10亿条md5值进行创建索引以及查询的情况读的时间为查询10W条md5的时间,单位毫秒写为创建完整索引的时间,单位为毫秒。 lykke.lm(715356603) 10:15:34 lucene 搜索 85.2 g的索引文件要多久 lykke.lm(715356603) 10:15:54 5 秒多?xiaolong(312210901) 10:16:28 什么需求需要在单板机上做索引呢 (来自手机QQ: http://mobile.qq.com/v/ ) 风车车(54343885) 10:16:38 这个好高级呀开心延年-alipay<myn@163.com> 10:16:45 50毫秒 lykke.lm(715356603) 10:16:50 不可能吧 开心延年-alipay<myn@163.com> 10:16:57 修改了索引啦 lykke.lm(715356603) 10:17:01 85,2 g 50毫秒lykke.lm(715356603) 10:17:12 你怎么修改的呢》bruce_yang(782506462) 10:17:13 此代码只应天上有,人间哪得几回看lykke.lm(715356603) 10:17:14 能说说么 开心延年-alipay<myn@163.com> 10:17:17 二分法查找 性能还是不错的 lykke.lm(715356603) 10:17:30 和查找没关系 难道你不用lucene 检索么?》风车车(54343885) 10:17:38 不是把所有的索引都加载到内存中么开心延年-alipay<myn@163.com> 10:17:46 lucene的索引结构改了 开心延年-alipay<myn@163.com> 10:18:00 全加到内存了 肯定达不到亿的级别开心延年-alipay<myn@163.com> 10:26:05 只改动了这几个类lykke.lm(715356603) 10:26:25 发源码吧 开心伟大的小白(439297317) 10:26:34 跳跃表的性能 > 二分法吧kelo_北京(13581754) 10:26:41 是呀,开心云 - 华(46249327) 10:26:50 单机 lucene能够支持十亿级别索引的查询 lykke.lm(715356603) 10:27:05 我也觉得不可能 开心延年-alipay<myn@163.com> 10:27:18 代码给你 自己测试下就知道啦 bruce_yang(782506462) 10:27:23 改了建立索引的 java代码?lykke.lm(715356603) 10:27:23 我现在的索引大约10个g 单机 根本不行 伟大的小白(439297317) 10:27:34 难 追求速度 需要内存全加载bruce_yang(782506462) 10:27:42 10G 多少条数据啊bruce_yang(782506462) 10:27:44 lm伟大的小白(439297317) 10:27:46 那多坑跌阿bruce_yang(782506462) 10:27:47 luykkelykke.lm(715356603) 10:27:55 我那个 是网页翟光亚(304428768) 10:28:01 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)这个会占用多大内存?翟光亚(304428768) 10:28:09 感觉没有必要这样的伟大的小白(439297317) 10:28:30 我一直没搞明白伟大的小白(439297317) 10:28:41 跳跃表就是为了节约内存设计的lykke.lm(715356603) 10:28:52 单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储 lykke.lm(715356603) 10:28:59 用MulitSearch 伟大的小白(439297317) 10:29:01 怎么二分法反而内存小 。。。。?why?伟大的小白(439297317) 10:29:08 ss开心延年-alipay<myn@163.com> 10:29:09 13581754@qq.com;670906880@qq.com;251547518@qq.com;yangfuchao2010@gmail.com;开心延年-alipay<myn@163.com> 10:29:14 文件二分法啊 开心延年-alipay<myn@163.com> 10:29:18 文件是定长的 lykke.lm(715356603) 10:29:21 715356603@qq,comlykke.lm(715356603) 10:29:33 g给我发啊 哥们 kwee(836232886) 10:29:52 ikweesung@gmail.com越测越开心(19730953) 10:29:53 还有panluhai@gmail.com 支持下阿里兄弟kelo_北京(13581754) 10:30:02 发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事332106123(332106123) 10:30:20 332106123@qq.com bruce_yang(782506462) 10:30:46 kelo 你眼睛分布式?在路上(386728737) 10:30:47 同求,386728737@qq.com, bruce_yang(782506462) 10:30:48 研究bruce_yang(782506462) 10:30:52 单机 ?bruce_yang(782506462) 10:30:56 还搞啥分布式开心延年-alipay<myn@163.com> 10:31:01 我业余时间搞着玩的哈 就修改了几天bruce_yang(782506462) 10:31:01 知道sensei没bruce_yang(782506462) 10:31:16 正需要做搜索呢bruce_yang(782506462) 10:31:20 你那个不是会bug吧?开心延年-alipay<myn@163.com> 10:31:35 你测试下 开心延年-alipay<myn@163.com> 10:31:45 验证下结果是否正确就知道了 开心延年-alipay<myn@163.com> 10:31:56 邮件中我给出了测试代码在路上(386728737) 10:32:25 强烈建议开心把源码共享到群kelo_北京(13581754) 10:32:39 是呀开心延年-alipay<myn@163.com> 10:33:11 都发给大家了 风(51263) 10:33:50 squallzhong@gmail.com,我也要一份广州-ZBIRD(258987928) 10:34:56 zbird.6208@gmail.com广州-ZBIRD(258987928) 10:35:07 在路上(386728737) 10:35:59 开心,都改了哪些类?开心延年-alipay<myn@163.com> 10:36:12 在路上(386728737) 10:36:28 能否兼容lucene3.3~3.4版本?开心延年-alipay<myn@163.com> 10:36:40 TermInfosReader与TermInfosWriter开心延年-alipay<myn@163.com> 10:36:46 肯定不兼容了 开心延年-alipay<myn@163.com> 10:36:51 索引都变了 bruce_yang(782506462) 10:36:51 找不到啊开心延年-alipay<myn@163.com> 10:36:56 你以为我是作者啊 bruce_yang(782506462) 10:36:57 叫啥名字lykke.lm(715356603) 10:37:06 呵呵日期:2011/11/24开心延年-alipay<myn@163.com> 10:37:07 你邮箱多少bruce_yang(782506462) 10:37:14 yangfuchao2010@gmail.combruce_yang(782506462) 10:37:28 不兼容?bruce_yang(782506462) 10:37:41 擦kwee(836232886) 10:37:43 ikweesung@gmail.com开心延年-alipay<myn@163.com> 10:37:47 就三天晚上 还兼容啊 呵呵在路上(386728737) 10:38:14 我的意思是说,代码能否工作在3.4下,索引重建bruce_yang(782506462) 10:38:30 北京一家牛逼个欧诺公司bruce_yang(782506462) 10:38:33 公司bruce_yang(782506462) 10:38:36 又要不去的没bruce_yang(782506462) 10:38:42 乐荐网络(www.joyrec.com)开心延年-alipay<myn@163.com> 10:40:44 没测试过呀 bruce_yang(782506462) 10:42:41 还是没收到呢bruce_yang(782506462) 10:42:42 开心 开心延年-alipay<myn@163.com> 10:43:33 你的邮箱不让发吧 高调-失业中(13574798) 10:43:33 群共享源码bruce_yang(782506462) 10:43:46 lucene2000@163.combruce_yang(782506462) 10:43:48 这个吧kwee(836232886) 10:44:00 ikweesung@163.com. bruce_yang(782506462) 10:46:23 收到了 tks高调-失业中(13574798) 10:46:30 13574798@qq.comkwee(836232886) 10:46:53 谢谢 收到。伟大的小白(439297317) 10:47:03 变那么多人研究luncene了?开心延年-alipay<myn@163.com> 10:47:12 空间不足 无法上传 汗 高调-失业中(13574798) 10:47:35 上传到零时空间bruce_yang(782506462) 10:48:16 lucene4 听说改动很大kelo_北京(13581754) 10:48:25 邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据bruce_yang(782506462) 10:48:26 性能提升 非常大bruce_yang(782506462) 10:48:41 kelo。北京开心延年-alipay<myn@163.com> 10:48:43 lucene4 都出来啦 开心延年-alipay<myn@163.com> 10:48:47 改动了啥呀 bruce_yang(782506462) 10:48:47 你现在数据多少bruce_yang(782506462) 10:48:57 lucene4 已经 测试了bruce_yang(782506462) 10:48:58 开始bruce_yang(782506462) 10:49:08 算法改动很大伟大的小白(439297317) 10:50:30 lucene4把api接口都换了伟大的小白(439297317) 10:50:41 实现策略也是伟大的小白(439297317) 10:50:48 基本不能过度kelo_北京(13581754) 10:51:16 没看到呀kelo_北京(13581754) 10:51:25 看看svn里头的kelo_北京(13581754) 10:51:48 呵呵,自玩的清澈高远(305412982) 10:51:55 lucene更新很快bruce_yang(782506462) 10:52:19 bruce_yang(782506462) 10:52:27 http://paris8.org/a/bbs/viewthread.php?tid=6098伟大的小白(439297317) 10:53:37 真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多 才多久阿bruce_yang(782506462) 10:53:45 http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0bruce_yang(782506462) 10:53:47 原文 bruce_yang(782506462) 10:54:31 哪位研究过sensei开心延年-alipay<myn@163.com> 10:55:10 不行了 得干活了 如果还有人想要源码 发邮件给myn@163.com 我定期回复 伟大的小白(439297317) 10:55:11 上次也是 去年弄得cas 今年发现版本更新bruce_yang(782506462) 10:55:40 搞这么大 更新太快了bruce_yang(782506462) 10:55:52 lucene3 变化很大bruce_yang(782506462) 10:55:59 现在4也很大广州-ZBIRD(258987928) 10:56:17 谁转发一份给偶。呵呵。谢谢伟大的小白(439297317) 10:56:41 lucene2 -> 3 不兼容 -> 4 不一定兼容bruce_yang(782506462) 10:58:17 linkedin 公司的分布式搜索bruce_yang(782506462) 10:58:23 哪位研究过源远流长(117405390) 10:58:30 zoie? bruce_yang(782506462) 10:58:34 不是bruce_yang(782506462) 10:58:38 sensei