【喜讯】擎盾在信息检索领域顶级国际会议SIGIR发表的论文被收录天天百事通

2023-04-11 10:56:07来源：哔哩哔哩

近期，擎盾集团在信息检索领域的顶级国际会议SIGIR（Special Interest Group on Information Retrieval）上发表了一篇题为《Improving News Recommendation via Bottlenecked Multi-task Pre-training》的研究论文。该论文提出了一种基于信息瓶颈多任务预训练的方法，旨在提高推荐系统的性能。

SIGIR专注于信息存储、检索和传播的各个方面，包括研究战略、输出方案和系统评估。每年，SIGIR会议吸引来自世界各地的研究者和工程师汇聚一堂，分享他们最新的研究成果。作为该领域的重要交流平台，SIGIR会议已经成为了全球信息检索领域内的一个不可或缺的重要组成部分。

论文的研究内容

(资料图)

该论文提出了一种基于信息瓶颈多任务预训练的方法。这种方法在预训练阶段使用多个训练任务，以迫使模型学习有关新闻的稠密向量表示，并将更丰富的语义信息压缩到该向量中。具体来讲，首先使用一个transformer类型的Encoder结构将新闻编码表征成一个稠密向量，然后使用一个transformer类型的Decoder结构从该稠密向量和掩码过的新闻中恢复新闻。在该过程中，通过控制Encoder和Decoder的掩码率迫使模型将更丰富的语义信息压缩到新闻的稠密向量表示中。最后，新闻推荐系统将使用这个稠密向量作为新闻的表征来给出候选新闻的排序。该方法设计了三种任务：Masked News Recovering、Masked Co-occurring News Recovering 和 Masked Topic-Similar News Recovering，简称为MNR、MCR和MTR。

其中，MNR任务通过重建新闻本身的方法，着重将更多语义信息从新闻本身捕捉到新闻的稠密向量表示中。该任务在Encoder部分会随机mask掉新闻的部分token，然后使用Decoder从Encoder获得的稠密向量和被mask后的新闻文本中恢复新闻本身。

MCR任务通过重建与该新闻共现的新闻的方式，旨在表征频繁同时出现的新闻之间的关系，因为同时出现的新闻可以很好地反映用户对两篇不同新闻文章的潜在偏好。该任务首先从用户浏览历史里挑选出新闻的共现新闻，在Encoder部分会随机mask掉原新闻的部分token，在Decoder时候会mask掉共现新闻的部分token，然后从原新闻的稠密向量表示和被mask后的共现新闻的文本中恢复共现新闻。

MTR任务通过重建有着相似主题的新闻，来捕获相似新闻之间的共性特征。通常，新闻文章可以分为几个主题类别（例如政治），这些也是描述用户偏好的重要特征。一般来说，用户可能更喜欢阅读自己感兴趣的主题相关的新闻。所以该方法设计了（MTR）任务来捕捉这样的关系。由于新闻文章中的实体可以反映主题信息，因此可以依靠一个简单的度量方法，即两篇新闻提及的实体重叠率，来估计它们的主题相似度。在挑选出相似新闻之后，在Encoder部分会随机mask掉原新闻的部分token，在Decoder时候会mask掉相似新闻的部分token，然后从原新闻的稠密向量表示和被mask后的相似新闻的文本中恢复相似新闻。

在预训练完成后，使用fine-tuning的方法将预训练得到的模型参数应用于新闻推荐任务中。与其他基于预训练模型的推荐方法相比，该方法在数据集MIND上表现出了不错的效果。Table1是与RetroMAE、Condenser的对比，Table2是加入不同训练任务的对比。Figure2是NARM(原始版本Encoder)与NARM(将Encoder替换为本文的预训练模型)在MIND上的效果对比。

论文的意义

该论文的方法受到了 RetroMAE 和 Condenser 两个模型的启发，方法的思想也很容易理解。训练任务实际上并不局限于文中提到的三种任务，在具体的使用场景中可以适当扩展或修改。文中仅展示了该方法在新闻检索领域上的实验效果，但是这种预训练方法并不局限于该领域，与稠密文本检索相关的自然语言处理领域，如信息检索、问答系统、文本分类、推荐系统等，也可以使用该方法。

本篇论文全程由擎盾算法团队李庆主要投入、刘松林协助，并由算法工程师周昆及肖熊锋指导完成。擎盾集团长期以来对前沿科技保持高度关注，在众多课题上也与北京大学、南京大学及东南大学等高校展开合作研究，期待更多优秀的小伙伴加入团队共同推进相关课题的研究，擎盾集团也将持续提供算法实习及全职岗位。

标签：

资源

数字化改革赋能电网 “电力+”让百姓享智慧红利

“小型坦克”来了！杭州首次在省内提出山地微型桩作业

河北发布首个总林长令全面助力“林长治”深入开展

七旬老人百本剪报册见证铁路百年变迁

用心品尝，残疾人在这家黑暗餐厅寻找“光明”

【喜讯】擎盾在信息检索领域顶级国际会议SIGIR发表的论文被收录天天百事通

资源

课程

仓储物流“成渝圈”如何乘势而上？

时隔三千年的再次相遇！两件西周青铜簋成功配对

“医保砍价”不是一个人在战斗

“购物成瘾”真的是一种病……何种程度算成瘾？

稻城海拔4000多米无人区辅警通宵搜救失联男子

追凶15年！成都警方破获部督特大命案积案

一批反映南京大屠杀历史的新书发布

电影《亲爱的》里面没有的结局，在我眼前“上映”

睡眠障碍成现代人健康隐患 57%失眠人听助眠音乐

老年教育面临缺口：老年大学常常“一座难求”

孙海洋被拐14年儿子如何找到的？线索来自另一起案件

北京天文馆、圆明园将对未成年人免费开放

今年全国粮食总产量再创新高连续7年保持在1.3万亿斤以上

血管里的“垃圾”分类赶快学起来！

没人应该被放弃！医保目录公布那天，好多家长哭了

抖音“窗花剪剪”特效遭抄袭被判获赔20万元

失散十几年 3组家庭终于团圆了

2021年度十大网络用语发布

北京天文馆向未成年人免费开放

2021北京百个网红打卡地发布

【喜讯】擎盾在信息检索领域顶级国际会议SIGIR发表的论文被收录 天天百事通

资源

课程

仓储物流“成渝圈”如何乘势而上？

时隔三千年的再次相遇！两件西周青铜簋成功配对

“医保砍价”不是一个人在战斗

“购物成瘾”真的是一种病……何种程度算成瘾？

稻城海拔4000多米无人区 辅警通宵搜救失联男子

追凶15年！成都警方破获部督特大命案积案

一批反映南京大屠杀历史的新书发布

电影《亲爱的》里面没有的结局，在我眼前“上映”

睡眠障碍成现代人健康隐患 57%失眠人听助眠音乐

老年教育面临缺口：老年大学常常“一座难求”

孙海洋被拐14年儿子如何找到的？线索来自另一起案件

北京天文馆、圆明园将对未成年人免费开放

今年全国粮食总产量再创新高 连续7年保持在1.3万亿斤以上

血管里的“垃圾”分类 赶快学起来！

没人应该被放弃！医保目录公布那天，好多家长哭了

抖音“窗花剪剪”特效遭抄袭 被判获赔20万元

失散十几年 3组家庭终于团圆了

2021年度十大网络用语发布

北京天文馆向未成年人免费开放

2021北京百个网红打卡地发布

【喜讯】擎盾在信息检索领域顶级国际会议SIGIR发表的论文被收录天天百事通

稻城海拔4000多米无人区辅警通宵搜救失联男子

今年全国粮食总产量再创新高连续7年保持在1.3万亿斤以上

血管里的“垃圾”分类赶快学起来！

抖音“窗花剪剪”特效遭抄袭被判获赔20万元