分析百度知道推荐系统的应用价值(实习生笔试题)

recommendation-system

前言

我选择题目2,即对一个百度产品分析推荐系统的应用价值。
这个产品我选择的是百度知道,作为一个百度知道老用户,我有这份情感认同去选择它。
在2005年11月我在百度知道提出第一个问题,同时积极关注自己所擅长的方向,热衷回答融入其中,但是后来我也确实慢慢淡出了百度知道,转而关注社会化的问答网站如国内的知乎。由于网站定位和目标用户群体的不同,作为一种互联网基础设施,百度知道在长达八年的时间里确实提供了一个十分重要的信息交流平台和渠道;作为第一大中文问答社区,无论从内容沉积和用户数量上,百度知道有其不可磨灭的价值。
而推荐系统能够把这种价值尽可能大地输出。

1.推荐系统对百度知道的价值

用户价值

a.作为一个用户个体,在认知的过程中能接受到最适合自己的信息,以增长自我修养合和知识面。实现自我价值的提升。

b.通过推荐系统引导用户寻找到正确的解决方案,从而解决实际问题。

传播价值

c.用户看到当前系统推送的热点主题,以话题的形式传递给自己身边的人,完成信息的传播和流通。

平台/推广价值

d.通过推荐系统引导正确的用户回答正确的问题(擅长的),达到需求者和提供者的精准对接。

e.记录用户的点击和使用偏好,通过对大数据的分析,挖掘其中的价值。如将品牌动向、需求趋势转化为可用成分。

f.用户从推荐系统中获取了有价值的东西,从而促进用户的活跃,提出或回答更多有价值的问题,增加用户粘性和忠诚度,促使平台正向发展。

g.为百度其他产品引入流量和用户。

2.在特定页面以及场景下推荐系统的高价值性

首页

a.推荐当前的热点话题,每天的更新保证了用户的持续使用,吸引用户关注度,包括吸收新用户和流量的引入,增加社区用户带入感。

b.根据用户习惯(浏览、提问、回答、关注的分类、关注的关键词、点赞、点叉)推荐特定内容,比如我感兴趣的问题、擅长方向的新提问,促使用户的点击进入回答,增加社区活跃度和用户依赖。
(“关键词”、“分类”等的设定实现了“点”和“线”交叉覆盖的效果)

搜索列表页面

c.推荐系统优先展示推荐度高的回答,降低用户在寻找流程中的困惑,缩短寻找答案的周期,达到效率最大化
比如搜索“ram rom 区别”,得到的第一个“优质回答”结果是4037个推荐,已经较直白地解释了我的疑问,就不需要用户一一浏览每个回答。当然,如果还是心存疑惑的话,可以继续浏览推荐度较低的回答,得出一个比较综合的心理结果。

d.相关搜索的推荐:也许用户不一定能很好地描述自己的提问,通过推荐系统向用户推荐更准确的描述方式,达到请求精准化。

e.当用户搜索电影电视等:返回其他百度平台内容推荐,比如搜索“肖申克的救赎”,百度知道会前置返回百度视频的一些内容和链接。价值在于百度的站内引流。

f.当用户搜索百度百科内容时候:返回百度百科的链接,用户得到的是更严谨的书面定义,而非相对接近自然语言的问答内容。一方面可以给用户最标准化的词条定义,另一方面也可以为百度百科引入用户和流量。

提问页面

g.通过语意分析,推荐系统给出已有类似答案的建议,防止在整个平台产生相同提问,降低数据的冗余率。

h.正确的分类推荐:假如需求者的分类没有正确,在流通的过程中极少被提供者见到,缺少了有效度高的回答,提问的价值必然会大打折扣,所以推荐一个正确的分类可以大幅增加提问的价值。

回答页面

i.推荐和当前回答类似或相关的问题:如果用户的需求是此方面的广泛涉猎,或者是对同类型知识点有较高的兴趣,推荐系统可以吸引用户针对这个知识点的持续点击,延长用户在百度知道的停留周期,增加附加值。

j.根据以往回答以及关注的方向推荐用户有能力回答的问题,在流通的过程中增加曝光度(包括个人中心首页/百度知道首页)。

分类页面

k.用户排行榜:激励高活跃用户,保证社区活跃度。

l.专家推荐:可以为用户提供专业的服务支持。也是“专家咨询”的入口,引导用户体验“问医生”、“问律师”、“问教师”等新功能。

专题页面

m.如果说分类是流动的河水,那么专题就是沉淀下来的三角洲,用户可以更方便地获取同一方面的典型知识。对培养用户的收获感、增加内容聚合度有较高价值。

3.设计一个高价值的推荐模块

一个高价值的推荐模块需要最高程度地解决用户需求,套用文学中“时间、地点、人物”的概念,优秀的推荐模块需要出现在合适的触发时机、在页面的恰当位置、展示给需要他的人看。

基于以上理念,我设计了一个专题推荐的模块。

这个模块和“我关注的关键词”模块、“相关知识”模块、“精彩推荐”模块有相似之处。不同之处在于“我关注的关键词”侧重点是用户需要回答的问题;而“相关知识”模块在于一个问题的点,而非整个面;“精彩推荐”只是一个列表,没有很好地按类别分类。

值得说明的是,我的构想是基于已有大量的专题的前提下。

出现页面

专题页面
精彩推荐页面
特定搜索结果页面
(百度百科特定词条页面):暂不考虑,因为有一定可能性会出现和百度百科内容重复的内容,此时再出现百度知道专题的索引显然是不合时宜的

推荐时机

专题页面:当用户浏览完整个页面,但是觉得求知欲还没满足的时候(实现专题的内部索引)

精彩推荐页面:用户(特别是游客)在主页、精彩推荐页无目的浏览的时候

特定搜索结果页面:用户以单个关键词或者目的性不明确词条搜索的时候,如“贝多芬”,而非目的性明确的搜索字段,如“贝多芬 致爱丽丝 背景”

百度百科特定词条:用户需要广泛获取该方面知识的时候,以及用户对这个关键词产生浓厚兴趣的时候

推荐内容

专题关键词(一级标签)、专题名称(二级标签)、专题内前置(排序规则在下面提到)问答的标题(后面带有其推荐数)

一级标签是当前搜索词或关键字段(这里的例子是“贝多芬”)抽象化提炼结果的推荐,是一个分类。如“音乐家“、“伟人”(是并列关系,“音乐家”不一定是“伟人”、“伟人”不一定是“音乐家”,但是搜索词是这两者的交集)。
二级标签是该分类下具体的专题,也就是当前搜索词在一级标签的分类中的类似结果。如“莫扎特”、“海顿”。
最后一级包含优质回答的标题。不是全部,只显示前置的几个。

展现形式

通过一级和二级标签的形式展现,用鼠标在一级标签上的悬浮实现二级标签的切换,后者指向一个有效专题的页面。
前置问答的标题后面带有点赞的数量,给用户一个量化的结果。
这三级推荐内容结合 时间、点赞数、浏览率、回答者质量 等方面加权后综合排序。不同的权重设计使推荐系统给出的排序灵活可靠。

当然不同的页面展示的内容和形式不尽相同。如“精彩推荐”页面就无需展示专题内问答的标题。

示意图

“特定搜索结果”页面示意图如下:
特定搜索结果
“精彩推荐”页面示意图如下:
精彩推荐

4.A/B测试相关

评估方法

分别改变以下变量分别多次进行A/B测试:
模块展示的位置、模块大小、(模块内排版方式)描述文字、文字大小、文字颜色、是否有点赞数、排序算法、匹配算法 等
然后在大流量的状况下统计各方面指标,按时间段、变量、指标等在统计图表示出来
(有必要也可以在这个模块中增加关闭此模块的选项)

评估新版本收益的指标

模块转化率

模块指向页面停留时间

页面点击计数:指用户看完一个页面后跳到下一个页面如此反复持续点击的总次数

页面停留周期时间长度:指用户看完一个页面后跳到下一个页面如此反复持续点击的时间总长度

指向页面点赞增长率

专题内容评论率

评估新版本损害的指标

用户到达指向页面不继续浏览的比例

对该模块误点击的比例(停留时间小于1s的比例)

用户回到已浏览页面的比例

用户关闭该模块的比例(假如有给用户关闭此模块的选项)

如何决定是否全流量上线

简单地说收益大于损害就可以上线了么?显然不是,针对指标期望较低的部分进行改进和优化,如用户停留时间较短,则试着改进A/B测试中影响改指标最大的一项,直到测试结果达到较好的水平,此时才可以全流量上线。

1 Response

Leave a Reply to hduzn Cancel reply

You must enable javascript to see captcha here!