近日,实验室杨中博士后论文“Universal Set Similarity Search via Multi-Task Representation Learning”被国际数据库顶级会议ICDE2025接收为长文。
集合(sets)相似性搜索是数据处理中的一项基础操作,在数据清理与整合、信息检索、剽窃检查、基因检测等不同领域有着广泛的应用。最常用集合相似性度量包括重叠相似性(Overlap)、杰卡德相似性(Jaccard)、余弦相似性(Cosine)和骰子相似性(Dice)。传统方法难以同时解决不同相似性度量和查询类型下的搜索问题,传统方法通常是针对特定的相似性设计的,并为了适应不同相似性而进行扩展改造,导致不同相似性度量的有效性存在明显偏差,为了解决这个问题,文章研究了一种基于盒嵌入(Box embedding)的多任务表示学习方法(MTB),和通用的集合相似性搜索算法(USearch),这是一种通用搜索框架,可容纳各种集合相似性和查询问题。ICDE是数据库领域的三大顶级国际会议之一,也属CCF A类会议。