比如,对一本书的评分,下面列出两个描述方式,前者是我所提倡的,括号里的是豆瓣现在采用的。
1分:我很不喜欢(很差)
2分:我不喜欢(较差)
3分:还行(还行)
4分:我喜欢(推荐)
5分:我非常喜欢(力荐)
一个显然的区别是:前者是从主观出发的,后者则主要是基于客观情况的。前者表达了自己对对象的喜好程度,后者表达的是基于自己的评判尺度下对象的质量好坏。
进而造成的区别是:从前者的情感诉求出发,得到的数据结果是反映对象之间类别的区别的;而从后者的情感诉求出发,得到的数据结果是反映对象之间质量的区别的。前者可以用来对对象进行分类,进而对人群进行分众;后者的分类只是对对象质量的高低分类。
在书籍领域上述现象不算明显,因为看一本书的成本很大,我在看之前已经作好了题材上的区分:我喜欢什么样的所以我才去看什么样的。而对于电影、新闻这种大众化的素材,这种现象会很明显。我已经观察到用收藏与否来替换打分作为计算依据,效果不会相差太多。这就是说,推荐系统变成一个0-1系统,分值已经没有产生太大的影响。
对于大部分用户,即使他不喜欢<红楼梦>,你提示说1分是“很差”,社会知识也会告诉他们不能这样做(以下衍生多种可能,请随意想像,比如1分变3分,比如收藏了不评分,再比如干脆不收藏了),但如果你提示说1分是“我不喜欢”,他会欣然而往。错误的解释系统会导致错误的推荐系统,尽管这似乎还不太明显,因为我们还没实现更好(没坐过宝马之前,每个人都会为夏利而欢呼,但我们需要进步)。
推荐系统里,解释是很重要的,这包括推荐后的解释,还有不太为人所关注的:推荐前的解释。
参考文献:http://www.wentrue.net/blog/?p=565