实验室解决集合相似性查询中多种相似性度量的适用性问题-现代数据工程与实时计算实验室
现代数据工程与实时计算实验室

实验室解决集合相似性查询中多种相似性度量的适用性问题
时间:2024年12月13日 16:04   访问量:

近日,实验室杨中博士后论文“Universal Set Similarity Search via Multi-Task Representation Learning被国际数据库顶级会议ICDE2025接收为长文。

集合(sets)相似性搜索是数据处理中的一项基础操作,在数据清理与整合、信息检索、剽窃检查、基因检测等不同领域有着广泛的应用。最常用集合相似性度量包括重叠相似性(Overlap)、杰卡德相似性(Jaccard)、余弦相似性(Cosine)和骰子相似性(Dice)。传统方法难以同时解决不同相似性度量和查询类型下的搜索问题,传统方法通常是针对特定的相似性设计的,并为了适应不同相似性而进行扩展改造,导致不同相似性度量的有效性存在明显偏差,为了解决这个问题,文章研究了一种基于盒嵌入(Box embedding)的多任务表示学习方法(MTB),和通用的集合相似性搜索算法(USearch),这是一种通用搜索框架,可容纳各种集合相似性和查询问题。ICDE是数据库领域的三大顶级国际会议之一,也属CCF A类会议。


地址:湖北省武汉市洪山区珞瑜路1037号,华中科技大学南一楼西南501室 邮编:430074 电话:027-87556601
计算机科学与技术学院,现代数据工程与实时计算实验室 有问题和意见请与网站管理员联系:adelab@163.com

温馨提示:为保证能正常的浏览此网站,请用IE9.0以上版本查看!    访问人次: