首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > .NET > VB Dotnet >

愿意有偿请问:网页索引数据库 如何建?(现有数据库表:标题、简介、网址三个字段)

2012-03-05 
愿意有偿请教:网页索引数据库 怎么建?(现有数据库表:标题、简介、网址三个字段)网页索引数据库怎么建?(现有

愿意有偿请教:网页索引数据库 怎么建?(现有数据库表:标题、简介、网址三个字段)
网页索引数据库   怎么建?(现有数据库表:标题、简介、网址三个字段)
想使用Lucene.net搞一个微搜索引擎玩玩。
请教请教!
QQ:271937025     13727859861

[解决办法]
不知道楼主需要怎样的索引,我介绍的是倒排索引,这是最有效的索引方式

4张表:StopWordList(存放stopwords),Document(存放收集的文档,包括html,pdf,doc等等,字段主要有docId,title,content,format,url....), Vocab(词库,数据库内所有文档中出现的不同的词),TermDoc(关联词库表和文档表的表,字段有三docId,termId,pos,其中pos是指单词在文本中出现的位置,三个字段构成联合主键)

仅供楼主参考
[解决办法]
呵呵,本科生还是?
我做过一个主题标引+搜索系统。
数据库的构建根据实际需要,你的问题太笼统了。
不知道你学过信息检索、信息组织、搜索引擎的相关知识吗?

说一下我的主体思路:
1,重要文档:分词表、词间关系、分类词表、后控分词表、后控词间关系、停用词表
2,数据来源:采集的各类信息,转换为txt文件存储,并记录原始文件的位置等各类信息。(存储于txt文件中即可)
3,对txt文件进行分词、词频分析、概念理解、索引词规范化、获取最终索引词,并记录索引词的优先级和价值度
4,对用户搜索语句进行上述同样分析
5,进行匹配、推送

当然还包含许多细节问题。具体实现最好有情报、信息相关的教授指导。
总体框架搭好了,数据库设计就好做了。

而不是先考虑数据库怎么建。

供参考

热点排行