信息流充斥在我们生活中的每一个角落,如同河流一样哺育着每一个人。我们阅读的每一条新闻、看的每一段视频,一切通过信息流出现在我们眼前的东西,多多少少都受到了智能推荐的驱动。
自2016年开始,信息流几乎进入了所有的头部App。同时各个平台间也开始暗自发力,希望掌握更强大的智能推荐算法。更好的智能推荐体验,意味着更多流量和优质的转化率。那么智能推荐的技术支点究竟在哪?
主动与被动间的认知鸿沟,智能推荐如何才能了解用户?其实智能推荐的行为逻辑很简单,那就是把适合的内容推荐给适合的用户。但在简单的行为逻辑中的,却是智能推荐的本质:内容和用户两方面的双向深度理解。
首先在对用户的理解上,很多平台都会陷入一个误区,那就是把用户的被动反应当成了主动索求。比如很多资讯类推荐平台冷启动时,都会让用户选择自己感兴趣的话题,这一行为就已经把用户画像圈定在了平台自己设置的范围之内。实际这种理解用户的方式略有片面,即使不断挖掘也只能察觉到用户在阅读这一个场景中的状态,无法察觉用户在阅读中的喜好、无法察觉用户当下的需求。这也就形成了信息流最严重的污名——信息茧房,智能推荐只会根据用户的兴趣爱好推荐内容,久而久之用户就会被自己关心的事物围绕,从而失去对外界的整体认知。尤其当低俗、猎奇、软色情这些刺激眼球的信息出现时,人们难免会因为下意识的好奇进行浏览,这一典型的被动反应将相关的标签加入了用户画像中,导致相关内容大量污染用户的信息流。
其实有时候信息茧房的形成并非内容出产者和平台故意灌输带有刺激性的内容给用户,而是一些信息流产品缺少获取用户主动索取行为的途径,犹如将用户放置入一个狭小的环境中,用户对环境产生的一点点反应都会在环境中形成反复的回声。可我们无法确定环境之外用户的主动行为,从而形成了巨大的认知鸿沟。
了解内容才是在大数据外的硬实力
目前很多智能推荐算法了解用户的方式,是利用数据挖掘捕捉用户的每一次点击、浏览行为,对大数据进行汇总、归纳和关联。通过协同过滤算法,寻找用户与用户、内容与内容间的相似点,以此为依据为用户推荐其他内容。这就涉及到了双向深度理解的另一端,也就是对技术硬实力要求最高的内容理解。和电商、音乐等平台不同,资讯类平台上的内容数量巨大,种类多而庞杂,加之内容本身作为消费品,为了换取流量货币,内容产出者很容易会使用标题党甚至违规内容来吸引点击。举个例子,当有热门八卦发生时,会有很多作者在标题上提及热门事件蹭热度,内容却与标题毫无关联。或者有作者自己为作品搭上历史、科普等标签,作品中的图片、文字却是软色情内容。这时如果单纯依靠用户间共同喜好做协同过滤推荐,很容易造成推荐不准的情况。
展开全文
可作为信息流产品,每天由大量作者出产大量内容,只利用人工审核分类是不实际的,利用人工智能技术对内容进行批量理解才是最好的选择。对于图片内容可以建立深度学习模型,用图像识别分辨图片是否涉及违规。对于文字,可以用自然语言处理技术和知识图谱技术实现对内容的理解,分辨是否有文不对题的情况。像Facebook就应用深度学习技术分析了大量标题党标题,建立了专门识别夸张标题的模型来减少标题党状况的存在。
很多资讯类平台都为自己巨大的用户量感到自豪,认为拥有大量用户数据就可以无所不能,实际就是因为用户量巨大,所以很难从用户身上寻找到天然的共同点,需要更强大的技术能力,从用户和内容两方面进行挖掘,进而满足个体用户的深层需求。
资讯推荐谜题,大企业真的有天然优势吗?
如果无法驾驭河流,结果往往是被河水淹没。由于只依赖大数据,缺乏足够的自然语言处理、知识图谱等双向深度理解的技术底牌,在某些推荐算法主导的资讯类平台上体现的最为显著,出现了难以治理低俗内容、推荐不准确等等多种问题。一个不得不承认的事实是,相比一些业务单一的平台,BAT这类大厂有自身产品群丰富,又有足够的人力和基本投身于人工智能技术建设,更容易做到智能推荐技术的双向深度理解。以在内容行业扎根很深的百度为例,相比很多内容平台,百度信息流很少受到内容质量方面的诟病。
首先,百度丰富的产品群使得用户画像更加全面,尤其是搜索+信息流双引擎的存在,使得用户的行为更加一致和顺畅。搜索可以有效矫正推荐算法在用户需求分析上的偏差。让用户自己突破信息茧房。第二点,则是百度自身的AI能力方面的优势,成为了百度信息流最重要的技术底牌。
百度长期做搜索产品,对知识图谱、分词技术有着大量累积,让百度信息流可以更深入的理解文字内容,不仅能理解每一句话在说什么,还能精准的理解内容的感情倾向并为之加上标签。利用知识图谱的深度挖掘和关联能力,构建起科普、娱乐、历史等等细分类别的内容体系,从而实现更精准的内容推荐。尤其对于图片、短视频这类富媒体内容,图像识别技术就起到了重要作用。当需要对图片内容进行审核和分类时,应用了卷积神经网络的图像识别技术可以快速建立各种模型,实现对丰富的图片内容进行认识和判断,及时找到违规内容并进行处理。
借助于人工智能技术,通过对视频内容的深刻理解和精准分析,百度可以为每一个小视频提炼一个6~10秒的精彩摘要,便于用户快速了解视频内容。基于同样的技术能力,还可以找出短视频所对应的爱奇艺中的长视频。而通过机器学习对视频内容的特征向量进行提取,则为资讯平台中每一段短视频建立了独一无二的视频指纹,不仅仅能实现精准的匹配推荐,还可以保证视频不被盗用,维护了内容创作者的权利。
还有一点,百度有熊掌号、百家号、百度新闻等等多种内容入口,加之百度正在通过“创作大脑”将人工智能技术开放给内容创作者,其中的视频自动转化图文功能、自动识别图片内容并提供相关信息等功能,都在吸引着更多优质内容出产方加入百度内容生态之中,不光媒介结构更加丰满,也给了用户更充实的内容。同时人工编辑的存在也为百度信息流把握着内容价值观的导向,为创作者驱逐劣币,让更多优质内容留存下来。
和其他资讯类平台不同,重金挖角KOL、高额补贴用户和自媒体作者这些事情很少发生在百度信息流产品中。不难看出,当百度整体发展方向扭转向人工智能时,技术优势让百度信息流有能力实现用户和内容双向的深度理解,这是智能推荐背后真正的支点,也是一张全能的王牌。当智能推荐的信息流已经将我们的生活“包围”,我们或许需要一些时间去习惯。但我们无需抗拒这一事实,当前的些许不适只是科技发展带来的生长痛。
信息流本身就是一种受智能推荐技术驱动的产品,相信各个平台对双向深度理解的追逐不会停止,找对了支点就能将水流引向正确的方向。终有一天信息流不再是信息茧房的代言词,而是如流水一般,哺育着我们对信息的渴求。(脑极体)