近日,实验室博士生马志远的论文“UniTranSeR: A Unified Transformer Semantic Representation Framework for Multimodal Task-Oriented Dialog Systems”被人工智能计算语言学领域顶级国际学术会议The 60th Annual Meeting of the Association for Computational Linguistics(ACL 2022)录用,李剑军副教授为论文通讯作者。ACL属于CCF-A类top会议,近年来录用率维持在20%-22%之间。
论文针对现有的单模态对话系统难以很好的应对图像、文本和知识混合的多模态任务型对话需要,提出了一种新的基于特征对齐和意图推理的多模态对话模型UniTranSeR。该模型通过一个视觉-文本Transformer来映射不同模态的语义信息进入到一个统一的向量空间中去,从而解决了多模态信息的异构性嵌入难题。在使用Transformer进行统一模态嵌入的基础上,该模型进一步设计了一个特征对齐层去学习对话中跨模态的细粒度语义对齐,然后通过一个基于注意力的意图推理层去有效的捕获用户的真实对话意图,从而生成准确的多模态对话回复。实验结果验证了UniTranSeR模型的有效性,并且在多模态任务型对话领域极具代表性的MMD数据集上达到了SOTA性能。