中文分词算法效率问题
小弟最近写了一个基于词典的中文分词算法,不知道是否算效率,请各位高手指教下。
我的词典是载入到内存中的,我随便找了几个句子测试,测试结果如下:
关键字: 内容存入剪贴板
中文分词算法结束:
中文部分
内容
存入
剪贴
剪贴板
英文部分
分词算法耗时:00:00:00.1760101
关键字: 您的问题得到解答并完成结帖操作,将返还您本帖50%可用分! 查看论坛积分策略,让您快速获得可用分。
中文分词算法结束:
中文部分
您的
的问题
问题
问题得到
得到
解答
完成
操作
返还
本帖
可用
查看
论坛
积分
策略
让您
快速
获得
可用
英文部分
50%
分词算法耗时:00:00:00.3400194
关键字: 有回复的时候通知我
中文分词算法结束:
中文部分
回复
复的
的时候
时候
通知
通知我
英文部分
分词算法耗时:00:00:00.0870050
关键字: 这里发言,表示您接受了CSDN社区的 用户行为准则。
中文分词算法结束:
中文部分
这里
发言
表示
接受
接受了
受了
社区
区的
用户
行为
行为准则
为准
为准则
准则
英文部分
CSDN
分词算法耗时:00:00:00.1370078
关键字: 请对您的言行负责,并遵守中华人民共和国有关法律法规,尊重网上道德。
中文分词算法结束:
中文部分
对您
您的
言行
负责
并遵守
遵守
守中
中华
中华人民
华人
人民
人民共和
人民共和国
共和
共和国
国有
有关
有关法律
法律
法律法规
律法
法规
尊重
网上
道德
英文部分
分词算法耗时:00:00:00.3000171
关键字: 转载文章请注明出自“CSDN(www.csdn.net)”。如是商业用途请联系原作者。
中文分词算法结束:
中文部分
转载
文章
请注明
注明
出自
如是
商业
业用途
用途
请联系
联系
原作
原作者
作者
英文部分
CSDN
www.csdn.net
分词算法耗时:00:00:00.2140122
请各位高手看看这样是否效率?还请各位高手给点分词算法的思路。
[最优解释]
衡量中文分词好不好,不仅要看速度,还得看正确率啊。。
你的处理未登录词汇的效果咋样
[其他解释]
Private Sub Form_Load()
Dim sentence As String
Dim words As String
Dim WordApp As Object
sentence = "请对您的言行负责,并遵守中华人民共和国有关法律法规,尊重网上道德。"
words = ""
Set WordApp = CreateObject("Word.Application")
WordApp.Documents.Add
WordApp.Selection.TypeText Text:=sentence
WordApp.Selection.HomeKey
Do
WordApp.Selection.MoveRight Unit:=2, Count:=1, Extend:=1
If WordApp.Selection.Text = vbCr Then Exit Do
words = words + WordApp.Selection.Text + vbCrLf
WordApp.Selection.MoveRight Unit:=1, Count:=1
Loop
WordApp.Quit SaveChanges:=0
Set WordApp = Nothing
MsgBox words
End
End Sub
[其他解释]
。。。你写的我们哪知道
[其他解释]
你用的啥算法来分词的
[其他解释]