博士生郭志强和马志远论文被ACMMM 2022录用-现代数据工程与实时计算实验室
现代数据工程与实时计算实验室

博士生郭志强和马志远论文被ACMMM 2022录用
时间:2022年07月08日 08:40   访问量:

中国计算机学会(CCF)推荐的A类国际学术会议The 30th ACM International Conference on Multimedia ACMMM 2022)论文录用结果揭晓。实验室博士生郭志强(导师李国徽教授)的论文“TopicVAE: Topic-aware Disentanglement Representation Learning for Enhanced Recommendation”和博士生马志远(导师李剑军教授)的论文CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training分别被录用。

针对推荐系统中常见的用户多样性兴趣学习问题,考虑用户对某个物品的交互行为取决于用户在该物品多样性语义主题上的耦合偏好,提出了一种主题感知的解耦表征学习模型(TopicVAE)。首先利用一个基于注意力的主题提取模块从商品的内容信息中提取主题级的商品表征和主题-物品概率分布,然后设计了主题级的变分自编码器从用户交互行为向量中推断用户的多个主题级解耦表征。为了满足多个解耦表征之间的独立性,设计了主题引导的自监督对比损失来指导主题级解耦表征的学习。此外,在训练过程中,设计了一种启发式正则的训练方式实现细粒度的表征级解耦。在多个公共数据集上的实验结果表明,TopicVAE的性能优于现有最先进的基线方法,进一步的实证实验说明了TopicVAE学习到的解耦表征具有一定的可解释性。

针对现有基于对比学习的视觉-语言预训练方法在进行跨模态训练时存在的非对称性嵌入、非均匀性采样、局部性感知等问题,提出了一种新的基于跨模态联想学习的视觉-语言预训练框架CMAL。受人类大脑在认知事物时所具备的独特的联想思维的启发,致力于在该框架中实现一个通过交换视觉-文本特征进行交叉预测的联想学习方法。该方法在双流架构的基础上,首先将预训练的文本及视觉特征分别嵌入不同的语义空间,然后通过一个跨模态的关联提示层进行视觉-文本的特征互换,之后通过一个跨模态的关联交互层进行视觉-文本隐层特征的深层注意力学习,最后通过交叉的跨模态映射分类层进行特征还原,通过设定这种跨模态交叉联想的目标,模型可以实现自监督的预训练,并最终被迁移到下游任务上去提升下游多模态任务的表现。在视觉问答(VQAv2)、视觉推理(NLVR)、视觉蕴含(SNLI-VE)以及视觉指代理解(REC)等四个经典多模态任务上的实验结果表明,CMAL在更小的预训练图像数据上能够取得与之前模型相当甚至更好的效果。特别是在SNLI-VEREC test测试集上,CMAL取得了当前的SOTA性能。

ACMMM是多媒体处理、分析与计算领域最具影响力的国际顶级会议,本届会议共收到有效投稿论文2473篇,最终录用690篇,录用率约为27.9%


地址:湖北省武汉市洪山区珞瑜路1037号,华中科技大学南一楼西南501室 邮编:430074 电话:027-87556601
计算机科学与技术学院,现代数据工程与实时计算实验室 有问题和意见请与网站管理员联系:adelab@163.com

温馨提示:为保证能正常的浏览此网站,请用IE9.0以上版本查看!    访问人次: