推荐系统试验方法和指标
在介绍推荐系统指标之前,首先看一下计算和获得这些指标的主要实验方法。在推荐系统中,主要有三种评测推荐效果的实验方法,即离线实验(offline experiment) ?用户调查(user study)和在线实验 (online experiment) .?
1. ?离线实验
(1) 通过日日志收集用户行为数据,并按照一定的格式生成一个标注的数据集。
? (2)按照一定的规则将数据集划分为训练集和测试集。
?(3) 在训练集上训练用户兴趣模型, 在测试集上进行测试。
?(4) 通过事先定义的离线评测指标评测算法效果。
?
2. ?用户调查
用户调查需要一批真实的用户, 让他们在需要的推荐系统上完成一些任务。在他们完成任务的,纪录他们的行为,并让他们回答一些问题。 最后,我们通过他们的行为和答案了解测试系统的性能。
?
3. ? 在线实验
完成以上两个步骤之后, 可以在推荐系统上做一个 AB test,将他和旧的系统进行对比。
附上AB test 网站(http://www.abtests.com)
AB test 可以公平的获取不同算法在实际在线时候的性能指标,包括商业上关注的指标。
一个简答的AB test 系统,用户进入网站之后,会给用户打上在测试种属于哪个分组的标签,然后用户浏览网页的时候,行为会通过日志系统发送到后台的日志数据库。 在后台,实验人员首先配置流量分配系统。 其次,实验人员需要统计日志数据库种的数据,生成测试数据,比较结果。
?
评测指标
1. ?用户满意度
2. ?预测准确度
1) 评分预测
2) TopN推荐
3. ?覆盖率
4. ?多样性
5. ? 新颖性
6. ?惊喜度
7. ?信任度
8. ?实事性
9. ?健壮性
?