近期,擎盾集团在信息检索领域的顶级国际会议SIGIR(Special Interest Group on Information Retrieval)上发表了一篇题为《Improving News Recommendation via Bottlenecked Multi-task Pre-training》的研究论文。该论文提出了一种基于信息瓶颈多任务预训练的方法,旨在提高推荐系统的性能。
SIGIR专注于信息存储、检索和传播的各个方面,包括研究战略、输出方案和系统评估。每年,SIGIR会议吸引来自世界各地的研究者和工程师汇聚一堂,分享他们最新的研究成果。作为该领域的重要交流平台,SIGIR会议已经成为了全球信息检索领域内的一个不可或缺的重要组成部分。
论文的研究内容
(资料图)
该论文提出了一种基于信息瓶颈多任务预训练的方法。这种方法在预训练阶段使用多个训练任务,以迫使模型学习有关新闻的稠密向量表示,并将更丰富的语义信息压缩到该向量中。具体来讲,首先使用一个transformer类型的Encoder结构将新闻编码表征成一个稠密向量,然后使用一个transformer类型的Decoder结构从该稠密向量和掩码过的新闻中恢复新闻。在该过程中,通过控制Encoder和Decoder的掩码率迫使模型将更丰富的语义信息压缩到新闻的稠密向量表示中。最后,新闻推荐系统将使用这个稠密向量作为新闻的表征来给出候选新闻的排序。该方法设计了三种任务:Masked News Recovering、Masked Co-occurring News Recovering 和 Masked Topic-Similar News Recovering,简称为MNR、MCR和MTR。
其中,MNR任务通过重建新闻本身的方法,着重将更多语义信息从新闻本身捕捉到新闻的稠密向量表示中。该任务在Encoder部分会随机mask掉新闻的部分token,然后使用Decoder从Encoder获得的稠密向量和被mask后的新闻文本中恢复新闻本身。
MCR任务通过重建与该新闻共现的新闻的方式,旨在表征频繁同时出现的新闻之间的关系,因为同时出现的新闻可以很好地反映用户对两篇不同新闻文章的潜在偏好。该任务首先从用户浏览历史里挑选出新闻的共现新闻,在Encoder部分会随机mask掉原新闻的部分token,在Decoder时候会mask掉共现新闻的部分token,然后从原新闻的稠密向量表示和被mask后的共现新闻的文本中恢复共现新闻。
MTR任务通过重建有着相似主题的新闻,来捕获相似新闻之间的共性特征。通常,新闻文章可以分为几个主题类别(例如政治),这些也是描述用户偏好的重要特征。一般来说,用户可能更喜欢阅读自己感兴趣的主题相关的新闻。所以该方法设计了(MTR)任务来捕捉这样的关系。由于新闻文章中的实体可以反映主题信息,因此可以依靠一个简单的度量方法,即两篇新闻提及的实体重叠率,来估计它们的主题相似度。在挑选出相似新闻之后,在Encoder部分会随机mask掉原新闻的部分token,在Decoder时候会mask掉相似新闻的部分token,然后从原新闻的稠密向量表示和被mask后的相似新闻的文本中恢复相似新闻。
在预训练完成后,使用fine-tuning的方法将预训练得到的模型参数应用于新闻推荐任务中。与其他基于预训练模型的推荐方法相比,该方法在数据集MIND上表现出了不错的效果。Table1是与RetroMAE、Condenser的对比,Table2是加入不同训练任务的对比。Figure2是NARM(原始版本Encoder)与NARM(将Encoder替换为本文的预训练模型)在MIND上的效果对比。
论文的意义
该论文的方法受到了 RetroMAE 和 Condenser 两个模型的启发,方法的思想也很容易理解。训练任务实际上并不局限于文中提到的三种任务,在具体的使用场景中可以适当扩展或修改。文中仅展示了该方法在新闻检索领域上的实验效果,但是这种预训练方法并不局限于该领域,与稠密文本检索相关的自然语言处理领域,如信息检索、问答系统、文本分类、推荐系统等,也可以使用该方法。
本篇论文全程由擎盾算法团队李庆主要投入、刘松林协助,并由算法工程师周昆及肖熊锋指导完成。擎盾集团长期以来对前沿科技保持高度关注,在众多课题上也与北京大学、南京大学及东南大学等高校展开合作研究,期待更多优秀的小伙伴加入团队共同推进相关课题的研究,擎盾集团也将持续提供算法实习及全职岗位。
标签:
仓储物流“成渝圈”如何乘势而上? 12月3日,连接昆明和万象的中老铁路全线开通运营,被惠及的显...
两件西周青铜簋时隔三千年成功配对 考古工作者介绍,这个铜簋的盖、身分别时隔40余年出土,纹饰...
“医保砍价”不是一个人在战斗 晁星 “我眼泪都快掉下来了”“每一个小群体都不该被放弃”…...
“购物成瘾”真的是一种病 刘艳 牛雅娟 本周日即将迎来“双十二”促销季,很多人又开始摩拳...
因迷恋山间风景,一男子在甘孜州稻城县海拔4000多米的无人区迷失方向,随后与同伴失联。12月的稻城...
嫌疑人DNA信息比中后,成都市公安局刑侦支队技术处DNA实验室民警白小刚一下坐在凳子上,恍惚迟疑间...
一批反映南京大屠杀历史的新书发布 新华社南京12月7日电(记者邱冰清、蒋芳)“以史为鉴,开创未来...
我在现场·照片背后的故事|电影《亲爱的》里面没有的结局,在我眼前“上映” 12月6日,在深圳市...
冥想?泡脚?不如听听助眠音乐 晚上睡不着,白天睡不醒,成为最贴合都市人群的“睡眠画像”。随...
养老话题 老年教育面临缺口 “终身教育”潜力无限 【现实挑战】“新老年”群体愿意在培养兴...
孙海洋被拐14年儿子如何找到的? 警方侦办另一宗拐骗儿童案时发现线索,通过人像比对、DNA确认找...
北京天文馆、圆明园将对未成年人免费开放 12月6日,北京天文馆发布通知称,12月8日起试行对未成...
今年全国粮食总产量再创新高 连续7年保持在1 3万亿斤以上 根据对全国31个省(区、市)的抽样调...
斑块软的很危险 硬的就无碍? 血管里的“垃圾”分类 赶快学起来! 一项最新研究显示:中国...
诺西那生钠注射液大幅降价 聚焦医保谈判背后脊髓性肌萎缩症家庭 医保目录公布那天 好多家长都...
抖音“窗花剪剪”遭抄袭 被判获赔20万元 法院认为“窗花剪剪”的这种表达方式理应受到《著作权...
公安机关近日侦破3起拐卖儿童案件 失散十几年 3组家庭终于团圆了 北京青年报记者12月6日从公...
2021年度十大网络用语发布 本报讯(记者 路艳霞)作为年度“汉语盘点”活动最具网络特色的组成部...
北京天文馆向未成年人免费开放 本报讯(记者 牛伟坤)北京天文馆对票价免费及优惠政策作出调整:1...
2021北京百个网红打卡地发布 本报讯(记者 李洋)2021北京网红打卡地推荐榜单昨晚正式发布。自然...