- 作者:老汪软件技巧
- 发表时间:2024-09-22 11:00
- 浏览量:
前言
最近几年刷手机、浏览电脑网页时总是收到各种各样的推送,这一切都归功于推荐系统。当然,有的很合我心意,有的却让我感觉自己深陷信息茧房。趁闲暇时间我也想对推荐系统一探究竟,并且尝试自己基于相关算法实现一个简易的版本。这是该系列的第一篇文章,主要围绕推荐系统的起源和发展、相关专业术语、框架组成、算法分类等方面展开。
推荐系统的起源与发展
作为计算机应用领域的一大亮点,推荐系统最初在国外兴起。
起源阶段:商业化阶段:蓬勃发展阶段成熟应用阶段
而国内在推荐系统领域的起步较晚,而且多以应用实现为主。
信息超载与长尾效应这两个概念所描述的现象极大地推动了推荐系统的发展。
信息超载含义
所谓的信息超载,指的就是在互联网时代,人们每天接收到的信息量远远超出了个人的处理能力,从而难以找到真正对自己有用的信息。
意义
从信息超载的角度,推荐系统可被定义为一种主动的信息过滤系统:通过挖掘用户的潜在需求,主动地将相关信息展示或推送给用户。
长尾效应含义
主流的商品市场份额实际上和非主流的商品累积占有的市场份额是一致的,后者甚至更多。后者就像一条“长尾”,也是很重要的关注对象。
意义
从长尾效应的角度,推荐系统可被定义为一种个性化的双边匹配系统。
推荐系统的组成框架
如图所示,一个典型的推荐系统应该具有如下几个模块:
其中,在对用户进行建模时涉及到了用户画像的概念:
用户画像
简言之,就是给用户 贴标签 ,挖掘其性别、年龄、职业、购物偏好等等方面的信息。
标签应有以下特征:
从用途上看,标签可以分为以下几类:
项目画像
如果说用户画像是通过标签来描述用户的属性,那么项目画像描述的就是项目的属性。其主要是挖掘某个项目的主题、适用范围、目标人群等等的信息。
算法分类
根据不同的参考维度,可以将推荐系统中的算法划分为不同的种类。以下仅从算法思想、目标函数以及数据表示三个维度讨论算法的分类。
目标函数数据表示
其中,协同过滤算法将是本系列的后续文章中会重点讨论的内容;而在实际的应用场景中,通常不会只用一种算法,而是将多种算法结合使用,也就是混合推荐。
参考文献