近日,信息科学与工程学院张亮教授农业智能学习与计算团队芦旭博士在《ieee transactions on multimedia》在线发表了题为“multi-facet weighted asymmetric multi-modal hashing based on latent semantic distribution”的研究论文。
随着互联网的快速发展,大规模、高维的多模态数据已经渗透到社交网络和存储媒体中,给多媒体数据检索带来了重大挑战。在大多数多媒体检索应用中,提高检索精度和减少存储消耗是重要问题。目前,哈希技术因其对大规模数据检索的支持而备受关注,其目标是将高维特征空间中的原始数据映射到低维汉明空间中的紧凑哈希码中,从而保留原始数据的语义相似性(或距离)。哈希技术采用汉明距离准则,通过简单的异或运算来估计实例之间的相似性,从而大大加快了计算速度,节省了存储空间。
目前,多模态哈希算法因其能够配置互补的多模态融合并支持快速的多媒体检索而受到越来越多的关注。然而,现有方法中广泛采用的“粗粒度”模态加权策略总是忽略了不同特征的独特贡献,并受到参数调整的困扰。此外,传统的监督方法通常采用“硬语义”来反映数据与标签之间的逻辑关系,但未能深入研究类别对数据的描述程度。针对这些问题,本文提出了一种基于潜在语义分布的多角度加权非对称多模态哈希方法(fismh)。该方法包含一个多角度加权多模态融合模块,利用模态和特征权重来实现多模态融合;一个基于潜在语义分布的非对称哈希学习模块,利用成对相似性和语义分布来指导哈希学习,并通过非对称形式避免了具有挑战性的成对分解。语义分布是从特征空间的固有信息中学习的,可以进一步保留类内关系;利用离散哈希优化来减少量化损失并直接学习哈希码。大量实验表明,该方法优于现有的有监督和无监督多模态哈希方法,展示了其卓越性能。
本文的合作者还有空天信息大学张化祥教授,山东师范大学刘丽教授,山东农业大学牟少敏教授、宁立新博士。该研究得到了国家自然科学基金项目、山东省泰山学者项目、山东省自然科学基金重大基础研究项目、山东省科技型中小企业创新能力提升项目的资助。
原文链接:https://ieeexplore.ieee.org/document/10428107
编 辑:万 千
审 核:贾 波