引用
Wang H, Chen C, Liu W, et al. Incorporating Label Embedding and Feature Augmentation for Multi-Dimensional Classification[C]//AAAI. 2020: 6178-6185.
摘要
特征扩增是解决多维分类(MDC)问题的最常用策略之一,它通过整合标签信息来操纵特征空间。然而,常规的特征扩增方法没有考虑类内的排他性,可能会导致性能退化。为了填补这一空白,提出了一种新的神经网络模型,它无缝地结合了标签嵌入和特征扩增(LEFA)技术来学习标签相关性。具体而言,基于注意因子分解机,引入互相关感知网络来学习同时描述类间相关性和类内排他性的低维标签表示。然后利用学习到的潜在标签向量对原始特征空间进行扩充。在七个真实世界的数据集上进行的大量实验证明了 LEFA 优于最先进的 MDC 方法。
本文主要贡献:
- 针对多维分类问题,提出了一种有效的深层模型,它将标签嵌入和特征扩增技术(LEFA)无缝地结合在一起。
- 基于注意因子分解机,我们提出了一个互相关感知网络来同时描述 MDC 任务的类间依赖性和类内互斥性。
- 在 7 个真实世界数据集上的综合实验表明,LEFA 的性能优于其他最先进的 MDC 分类器。
背景知识
多维分类(MDC)旨在处理每个数据实例与多个类变量相关联的问题。由于应用广泛,MDC 引起了巨大的关注。二元相关性(Binary Relevance,BR)是 MDC 问题中最流行的方法之一,它将多维任务分解为一组多类分类问题。尽管 BR 具有计算效率,但它忽略了类空间之间的交叉相关性。因此,BR 在每个单一分类任务上都能很好地工作,但在全局上表现不佳。许多有效的技术已经被提出来解决这个问题。
然而现有的特征扩增方法有两个主要的缺点。1)相关性提取的任务是由一些简单的基础分类器完成的,如支持向量机(SVM。这些简单的分类器通常在那些具有复杂标签相关性的数据集上无能为力,因此这些方法的泛化能力在许多应用中受到限制。2)它们可能会错误地学习类内标签之间的相关性,从而导致性能退化。
LEFA 方法
- 互相关感知网络
图 1 C2AN 模型网络架构
如图 1 所示为 C2AN 模型网络架构。在本小节中,我们将逐层介绍所提出的 C2AN 模型。
标签编码网络:传统的标签嵌入方法存在无法处理稀疏的标签空间和复杂的类空间依赖关系以及忽略了类间标签之间的排他性的缺陷。为了解决这些问题,我们应用了一种注意力因子分解机来嵌入标签。我们基于 AFM 的模型有三个主要优点:1)它是一个强大的基于神经网络的模型来提取标签相关性;2)注意机制使标签交互对特征扩增有不同的贡献;3)作为因子分解机(FMs)(Rendle 2012)家族的一员,它在稀疏环境下工作得很好。
特征扩增:在第二阶段,我们通过组合投影标签和原始特征来操作特征空间。与 KRAM 相比,LEFA 有三大优势。首先,在测试阶段,潜在向量可以提供比 kNN 所产生的标签集更精确的语义信息。其次,在扩增阶段提取标签相关性,而不是直接由预测函数 f 来诱导。同时,采用了一种强大的基于 AFM 的神经网络。因此,LEFA 可以处理复杂的标签相关层次和高度稀疏的标签空间。最后,描述了类内排他性。实证研究还表明,LEFA 优于最新的 MDC 方法。
实验方法
在这一节中,我们评估了所提出的方法在七个实际数据集上的性能。所有的计算都在同一个工作站上执行,该工作站有 i7-5930K CPU、TITAN Xp GPU 和运行 Linux 平台的 64GB 主内存。
1. 数据集
对于综合性能评估,共使用了七个数据集。前四个数据集来自 UCI 存储库(Dheeru 和 Karra Taniskidou 2017):在本文中,我们对这些数据集进行了 5 倍交叉验证,并报告了具有标准差的平均度量值。七个数据集的统计数据汇总在表 1 中。
表 1 实验数据集的统计。
2. 比较的方法
在本文中,我们将 LEFA 与三种成熟的 MDC 方法和两种最先进的基于嵌入的多标签方法进行比较:
二进制相关性(BR)(Zhang and Zhou 2014):BR 是 MDC 任务最直观的方法,它通过将 MDC 任务分解为一组独立的多类问题来预测每个类变量。
集成分类器链(ECC)(Read 等人。2011):为了缓解分类链(CC)中标签顺序敏感性的问题,ECC 使用随机重新排序的标签生成多个不同的链。然后,通过投票对类变量进行预测。
KRAM(Jia and Zhang 2019):通过使用流行的 kNN 技术,KRAM 通过对相邻 MDC 实例的类成员的具体统计来丰富特征空间。
CPLST(Chen and Lin 2012):CPLST 是一种流行的 label 嵌入方法,它结合了主成分分析和典型相关分析的概念,以更好地提取相关性。
C2AE(Yeh 等人。2017):C2AE 是第一个基于神经网络的标签嵌入方法,它集成了自动编码器和深度规范分析技术。
3. 性能度量
根据(Jia 和 Zhang 2019)中的实验设置,我们考虑两个常用的指标来评估所有方法的预测性能:
汉明精度:hamming 精度计算每个类变量的分类精度并取平均值。
精度示例:示例准确性将标签集视为一个完全正确或不正确的单个分类问题。
实验结果
表 2 总结了所有方法对四个多维数据集和三个多标签数据集的预测性能。图 3 报告了我们的方法对潜在维度 u 的参数敏感性。
表 2 七个真实世界数据集的预测性能比较。
图 3:LEFA 的性能随着潜在维数 u 从 2 到 10 在三个具有不同基本分类器的数据集上的变化而变化。
LEFA 的性能一般最好。以 Flare2 数据集为例,在汉明精度和实例精度方面,LEFA-BR 使基线(LEFA-ECC 除外)的最佳结果提高了 1.0%、2.5%,LEFA-ECC 使基线的最佳结果(不包括 LEFA-BR)分别提高了 1.3%、3.4%。这些结果证明了 LEFA 的优越性。
由于缺少扩展类空间相关性,BR 的性能不如其他方法。
BR 和 ECC 远不如 KRAM 和 LEFA couterparts,说明了特征扩增的有效性。
KRAM 和 LEFA 在这些数据集上是最成功的。然而,LEFA 获得更好的性能有两个原因:1)C2AN 保持了类内标签之间的排他性;2)LEFA 在扩增前提取了标签相关性。因此,LEFA 使诸如 BR 和 ECC 这样的简单 MDC 分类器能够处理复杂的标签相关层次结构。
C2AE 和 CPLST 在某些数据集上表现最差。因为它们忽略了类内标签之间的排他性,因此不适合 MDC 任务。
在不同的潜在维数 u 值下,LEFA 的性能相对稳定。
总结
近年来,多维分类问题引起了研究界的极大关注。在这项工作中,我们提出一个新的深度模型 LEFA,它将标签嵌入和特征扩充技术无缝地整合到 MDC 任务中。基于注意因子分解机,提出了一种互相关感知网络,该网络将特征和标签映射到一个联合的低维空间中,使它们最大程度地相关。由于 AFM 的特殊性,嵌入的标签不仅描述了类间标签的相关性,而且保持了类内标签的排他性。然后利用潜在的标记向量对原始特征空间进行扩充,为原始特征空间提供判别信息。对 7 个实际数据集的实证研究表明,该方法总体上优于其他最先进的 MDC 方法。
致谢
本论文由 iSE 实验室 2020 级硕士生常家鑫转述。