近日,实验室博士生杨中的论文“minIL: A Simple and Small Index for String
Similarity Search with Edit Distance”被国际数据库顶级会议ICDE 2022接收为长文,
基于编辑距离的字符串查找问题是数据库领域中最基本的问题之一,广泛用于各种应用当中,例如拼写检查、抄袭检查、语音识别、DNA测序等等,为高效的解决这个问题,文章提出了一种基于最小哈希的压缩算法和多层倒排的索引结构minIL,基于最小哈希的压缩算法能够隐式的对齐相似的字符串并保证了压缩后的字符串的相似度,而多层索引相比已有的索引方法相比结构简单,空间开销小,并引入了学习索引的技术提高索引的搜索效率。
实验结果表明文章提出的方法能同时减小了空间和查询时间的开销,性能超过现有的方法。