近日,实验室博士生杨中的论文“Adaptive Overlap Set Similarly Top-k Joins”被国际数据库顶级会议ICDE 2020接收为长文。
该文章主要研究了基于overlap相似度的set similarity top-k join问题,该问题旨在找到2个数据集合的join结果中相似度最大的前k个结果。该文章创新性地提出了通过自适应地调整state-of-the-art方法中迭代的步长(step size),即每次检索元素的个数,从而大大提高了算法的效率,并从理论和实验两个方面证明了该方法的正确性和有效性。此外,文章还探讨了该方法在其他常用的相似度函数上的可行性。
注:ICDE与SIGMOD、VLDB并称为国际数据库三大学术会议,为计算机学会推荐的A类会议。