首页
首页 > 学校 > > 详情

【喜讯】擎盾在信息检索领域顶级国际会议SIGIR发表的论文被收录 天天百事通

2023-04-11 10:56:07来源:哔哩哔哩

近期,擎盾集团在信息检索领域的顶级国际会议SIGIR(Special Interest Group on Information Retrieval)上发表了一篇题为《Improving News Recommendation via Bottlenecked Multi-task Pre-training》的研究论文。该论文提出了一种基于信息瓶颈多任务预训练的方法,旨在提高推荐系统的性能。

SIGIR专注于信息存储、检索和传播的各个方面,包括研究战略、输出方案和系统评估。每年,SIGIR会议吸引来自世界各地的研究者和工程师汇聚一堂,分享他们最新的研究成果。作为该领域的重要交流平台,SIGIR会议已经成为了全球信息检索领域内的一个不可或缺的重要组成部分。

论文的研究内容


(资料图)

该论文提出了一种基于信息瓶颈多任务预训练的方法。这种方法在预训练阶段使用多个训练任务,以迫使模型学习有关新闻的稠密向量表示,并将更丰富的语义信息压缩到该向量中。具体来讲,首先使用一个transformer类型的Encoder结构将新闻编码表征成一个稠密向量,然后使用一个transformer类型的Decoder结构从该稠密向量和掩码过的新闻中恢复新闻。在该过程中,通过控制Encoder和Decoder的掩码率迫使模型将更丰富的语义信息压缩到新闻的稠密向量表示中。最后,新闻推荐系统将使用这个稠密向量作为新闻的表征来给出候选新闻的排序。该方法设计了三种任务:Masked News Recovering、Masked Co-occurring News Recovering 和 Masked Topic-Similar News Recovering,简称为MNR、MCR和MTR。

其中,MNR任务通过重建新闻本身的方法,着重将更多语义信息从新闻本身捕捉到新闻的稠密向量表示中。该任务在Encoder部分会随机mask掉新闻的部分token,然后使用Decoder从Encoder获得的稠密向量和被mask后的新闻文本中恢复新闻本身。

MCR任务通过重建与该新闻共现的新闻的方式,旨在表征频繁同时出现的新闻之间的关系,因为同时出现的新闻可以很好地反映用户对两篇不同新闻文章的潜在偏好。该任务首先从用户浏览历史里挑选出新闻的共现新闻,在Encoder部分会随机mask掉原新闻的部分token,在Decoder时候会mask掉共现新闻的部分token,然后从原新闻的稠密向量表示和被mask后的共现新闻的文本中恢复共现新闻。

MTR任务通过重建有着相似主题的新闻,来捕获相似新闻之间的共性特征。通常,新闻文章可以分为几个主题类别(例如政治),这些也是描述用户偏好的重要特征。一般来说,用户可能更喜欢阅读自己感兴趣的主题相关的新闻。所以该方法设计了(MTR)任务来捕捉这样的关系。由于新闻文章中的实体可以反映主题信息,因此可以依靠一个简单的度量方法,即两篇新闻提及的实体重叠率,来估计它们的主题相似度。在挑选出相似新闻之后,在Encoder部分会随机mask掉原新闻的部分token,在Decoder时候会mask掉相似新闻的部分token,然后从原新闻的稠密向量表示和被mask后的相似新闻的文本中恢复相似新闻。

在预训练完成后,使用fine-tuning的方法将预训练得到的模型参数应用于新闻推荐任务中。与其他基于预训练模型的推荐方法相比,该方法在数据集MIND上表现出了不错的效果。Table1是与RetroMAE、Condenser的对比,Table2是加入不同训练任务的对比。Figure2是NARM(原始版本Encoder)与NARM(将Encoder替换为本文的预训练模型)在MIND上的效果对比。

论文的意义

该论文的方法受到了 RetroMAE 和 Condenser 两个模型的启发,方法的思想也很容易理解。训练任务实际上并不局限于文中提到的三种任务,在具体的使用场景中可以适当扩展或修改。文中仅展示了该方法在新闻检索领域上的实验效果,但是这种预训练方法并不局限于该领域,与稠密文本检索相关的自然语言处理领域,如信息检索、问答系统、文本分类、推荐系统等,也可以使用该方法。

本篇论文全程由擎盾算法团队李庆主要投入、刘松林协助,并由算法工程师周昆及肖熊锋指导完成。擎盾集团长期以来对前沿科技保持高度关注,在众多课题上也与北京大学、南京大学及东南大学等高校展开合作研究,期待更多优秀的小伙伴加入团队共同推进相关课题的研究,擎盾集团也将持续提供算法实习及全职岗位。

标签:

上一篇:
下一篇:

资源

课程

上海新增一名本地确诊病例