面试开放题 | RAMSEY

1. 有一批优惠信息，用户信息完整，如何组织将其推荐给其他用户。（协同过滤）（转载）

显然这是基于用户的协同过滤算法。这种以用户为主体的算法比较强调的是社会性的属性，也就是说这类算法更加强调把和你有相似爱好的其他的用户的物品推荐给你。

KNN方法（与目标用户最相邻的K个用户）

在找和你兴趣爱好相似的小伙伴的时候，我们可能可以找到几百个，但是有些是好基友，但有些只是普通朋友，那么一般的，我们会定一个数K，和你最相似的K个小伙伴就是你的好基友了，他们的爱好可能和你的爱好相差不大，让他们来推荐东西给你（比如肥皂）是最好不过了。

何为和你相似呢？简单的说就是，比如你喜欢macbook,iphone,ipad，A小伙伴喜欢macbook,iphone,note2,小米盒子,肥皂，蜡烛,B小伙伴喜欢macbook,iphone,ipad,肥皂,润肤霜,C女神喜欢雅诗兰黛,SK2,香奈儿，D屌丝喜欢ipad,诺基亚8250,小霸王学习机。B小伙伴和你更加相似，而C女神完全和你不在一个档次上，那我们推荐的时候会把肥皂推荐给你，因为我们觉得肥皂可能最适合你。

最直接的办法就是把目标用户和数据库中的所有用户进行比较，找出和目标用户最相似的K个用户。

过滤一些和你没有关系的用户，建立一个物品到用户的反查表，什么是反查表呢？反查表就是喜欢macbook的有你，A，B，喜欢iphone的有你，B。。。就是喜欢某些物品的用户，有了这个表，我们就可以看出来，和你有关系的用户就只有A和B，D了，而C女神和你没有任何交集，所以不用计算C。

通过这K个用户来推荐商品

好了，你的好基友我们也算出来了，接下来要向你推荐商品了。但是我们可推荐的商品有小米盒子，note2，蜡烛，润肤霜，肥皂这么四种，到底哪种才是你需要的呢？这里的算法就比较广泛了，我们可以不排序，都一股脑推荐给你，但这明显可能有些你不怎么感兴趣，我们也可以做一些处理，假如我们算出来A和你的相似度是25%，B和你的相似度是80%，那么对于上面这些产品，我们的推荐度可以这么来算

小米盒子: 1*0.25 = 0.25
note2: 1*0.25 = 0.25
蜡烛: 1*0.25 = 0.25
润肤霜: 1*0.8 = 0.8
肥皂: 1*0.8+1*0.25=1.05

存在问题

比如一些非常流行的商品可能很多人都喜欢，这种商品推荐给你就没什么意义了，所以计算的时候需要对这种商品加一个权重或者把这种商品完全去掉也行。

再有，对于一些通用的东西，比如买书的时候的工具书，如现代汉语词典，新华字典神马的，通用性太强了，推荐也没什么必要了。

这些都是推荐系统的脏数据，如何去掉脏数据。

参考资料：

1）http://blog.csdn.net/ygrx/article/details/15501679

2）https://github.com/wyh267

3）http://blog.csdn.net/ygrx/article/details/11105755 LRU Cache