首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 数据库 > SQL Server >

SQL多条件模糊查询解决方案(相仿百度搜索)

2012-11-20 
SQL多条件模糊查询解决方案(类似百度搜索)参考博文:SQL LIKE语句多条件贪婪匹配算法SQL LIKE语句多条件贪

SQL多条件模糊查询解决方案(类似百度搜索)

参考博文:

 

         SQL LIKE语句多条件贪婪匹配算法

         SQL LIKE语句多条件贪婪加权匹配算法(改进版)

         SQL LIKE语句多条件贪婪加权匹配(新增必要词指定)

 

前言:


         算法的基本特性在前几篇博客中已经做了详细的说明,经过不断的改进优化,到归仓的时候了,也就是说,该算法告一段落,不再更新。

         作为最终的解决方案,简要的总结一下算法特性,以方便读者参阅。

        

         l  目的:主要用于多条件模糊匹配。

         l  贪婪特性:返回满足条件尽可能多的记录。

         l  权重特性:为关键词分配权重,代表关键词的重要性,在不破坏贪婪特性的前提下,返回权重高的记录。

         l  必要关键词指定特性:在不破坏贪婪特性和权重特性的前提下,返回的结果中必须包含指定的关键词。

         l  典型应用:问-答系统,例如百度提问、京东商品咨询。

 

         经过分析,在最终的解决方案中,提供两个版本的算法,已经封装成存储过程和函数,直接导入数据库即可。

 

普通版本:

 

         l  描述:基于SQL的LIKE语句实现,使用简单,但受限于LIKE语句,不适合超大数据量处理。指定必要词会加快处理速度。

         l  使用范围:万级别的数据量,数据量超过1万条,将导致运行缓慢。

         l  使用方法:直接在查询分析器中运行脚本导入数据库即可。

         l  调用示例:execute proc_Common_SuperLike'id','t_test','content','20','|','[i]|o|c'

         l  参数说明:id表的主键字段名称。t_test表名。content匹配内容字段名称。20选出20个记录(从顶至下匹配度越来越低)。|关键字的分隔符号。[i]|o|c一共有i,o,c三个关键字,通过|分隔,其中i是必要词。

 

 

GOCREATE function Get_StrArrayLength( @str varchar(1024),  --要分割的字符串 @split varchar(10)  --分隔符号)returns intas begin  declare @location int  declare @start int  declare @length int  set @str=ltrim(rtrim(@str))  set @location=charindex(@split,@str)  set @length=1   while @location<>0     begin      set @start=@location+1      set @location=charindex(@split,@str,@start)      set @length=@length+1     end   return @length end GO CREATE function Get_StrArrayStrOfIndex( @str varchar(1024),  --要分割的字符串 @split varchar(10),  --分隔符号 @index int --取第几个元素)returns varchar(1024)asbegin declare @location int declare @start int declare @next int declare @seed int set @str=ltrim(rtrim(@str)) set @start=1 set @next=1 set @seed=len(@split) set @location=charindex(@split,@str) while @location<>0 and @index>@next   begin    set @start=@location+@seed    set @location=charindex(@split,@str,@start)    set @next=@next+1   end if @location =0 select @location =len(@str)+1 --这儿存在两种情况:1、字符串不存在分隔符号 2、字符串中存在分隔符号,跳出while循环后,@location为0,那默认为字符串后边有一个分隔符号。 return substring(@str,@start,@location-@start)endGOCREATE PROCEDURE proc_Common_SuperLike--要查询的表的主键字段名称@primaryKeyName varchar(999),--要查询的表名@talbeName varchar(999),--要查询的表的字段名称,即内容所在的字段@contentFieldName varchar(999),--查询记录的个数(TOP *),匹配的个数越多,排名越靠前@selectNumber varchar(999),--匹配字符分隔标记@splitString varchar(999),--匹配字符组合字符串@words varchar(999)ASdeclare @sqlFirst varchar(999)declare @sqlCenter varchar(999)declare @sqlLast varchar(999)declare @next int  declare @arrayLength intdeclare @newTable varchar(999)BEGINset @newTable=''set @sqlCenter=''set @next=1set @arrayLength=dbo.Get_StrArrayLength(@words,@splitString)while @next<=@arrayLengthbegin--构造sql查询条件(中间部分)--判断是否是必要词if CHARINDEX('[',dbo.Get_StrArrayStrOfIndex(@words,@splitString,@next))>0beginset @sqlCenter = @sqlCenter+'SELECT '+@primaryKeyName+','+CONVERT(varchar(999),@arrayLength-@next+1)+' AS wordPower FROM '+@talbeName+' WHERE CONTAINS(' + @contentFieldName + ',''"*'+REPLACE(REPLACE(dbo.Get_StrArrayStrOfIndex(@words,@splitString,@next),'[',''),']','')+'*"'') UNION ALL '--构造必要词set @newTable=@newTable+'CONTAINS(' + @contentFieldName + ',''"*'+REPLACE(REPLACE(dbo.Get_StrArrayStrOfIndex(@words,@splitString,@next),'[',''),']','')+'*"'') AND 'endelsebeginset @sqlCenter = @sqlCenter+'SELECT '+@primaryKeyName+','+CONVERT(varchar(999),@arrayLength-@next+1)+' AS wordPower FROM '+@talbeName+' WHERE CONTAINS(' + @contentFieldName + ',''"*'+dbo.Get_StrArrayStrOfIndex(@words,@splitString,@next)+'*"'') UNION ALL 'endset @next=@next+1end--判断是否有必要词if CHARINDEX('[',@words)>0begin---处理必要词部分,去除最后无用语句set @newTable=left(@newTable,(len(@newTable)-4))set @newTable='AS t_Temp WHERE '+ @primaryKeyName +' IN (SELECT '+@primaryKeyName+' FROM ' + @talbeName+' WHERE ' + @newTable + ')'endelsebeginset @newTable='AS t_Temp'end--处理sql语句中间部分,去除最后无用语句set @sqlCenter=left(@sqlCenter,(len(@sqlCenter)-10))--构造sql语句开头部分set @sqlFirst='SELECT TOP '+@selectNumber+' '+@primaryKeyName+',COUNT(*)+SUM(wordPower) AS finalPower FROM ('--构造sql语句结尾部分set @sqlLast=') ' + @newTable + ' GROUP BY '+@primaryKeyName+' ORDER BY finalPower DESC'--拼接出完整sql语句,并执行Execute(@sqlFirst+@sqlCenter+@sqlLast)END


附-SQL数据库表全文索引创建指南:

 

        --开启全文索引

        sp_fulltext_database enable

        --创建索引目录(创建出来是一个目录,用来放索引文件)

        CREATE FULLTEXT CATALOG 索引目录名称  --例如myFullText

        --创建全文索引

        CREATE FULLTEXT INDEX ON 表名(字段名)   --为哪个表的哪个字段创建全文索引,例如t_test(content)

        KEY INDEX 主键索引名称 ON 索引目录名称  --注意是主键索引名称,而不是主键字段名称!例如,PK__t_test__3213E83F0EA330E9;指定全文索引目录,即放在哪个目录下,例如myFullText

 

        注意:如果在创建数据库表全文索引之前,数据库表中已经有大量记录,那么创建全文索引是需要时间的,因此创建完全文索引后马上使用可能查不到数据。



1楼lfmilaoshi3天前 00:03
内容比较丰富n米老师

热点排行