愿意有偿请教:网页索引数据库 怎么建?(现有数据库表:标题、简介、网址三个字段)
网页索引数据库 怎么建?(现有数据库表:标题、简介、网址三个字段)
想使用Lucene.net搞一个微搜索引擎玩玩。
请教请教!
QQ:271937025 13727859861
[解决办法]
不知道楼主需要怎样的索引,我介绍的是倒排索引,这是最有效的索引方式
4张表:StopWordList(存放stopwords),Document(存放收集的文档,包括html,pdf,doc等等,字段主要有docId,title,content,format,url....), Vocab(词库,数据库内所有文档中出现的不同的词),TermDoc(关联词库表和文档表的表,字段有三docId,termId,pos,其中pos是指单词在文本中出现的位置,三个字段构成联合主键)
仅供楼主参考
[解决办法]
呵呵,本科生还是?
我做过一个主题标引+搜索系统。
数据库的构建根据实际需要,你的问题太笼统了。
不知道你学过信息检索、信息组织、搜索引擎的相关知识吗?
说一下我的主体思路:
1,重要文档:分词表、词间关系、分类词表、后控分词表、后控词间关系、停用词表
2,数据来源:采集的各类信息,转换为txt文件存储,并记录原始文件的位置等各类信息。(存储于txt文件中即可)
3,对txt文件进行分词、词频分析、概念理解、索引词规范化、获取最终索引词,并记录索引词的优先级和价值度
4,对用户搜索语句进行上述同样分析
5,进行匹配、推送
当然还包含许多细节问题。具体实现最好有情报、信息相关的教授指导。
总体框架搭好了,数据库设计就好做了。
而不是先考虑数据库怎么建。
供参考