课题分析
针对不平衡数据分类的多视图优化集成算法研究
—不平衡数据分类:
-------概念:不平衡数据分类是指在分类问题中,不同类别的样本数量差异很大,导致分类器难以正确识别少数类。针对不平衡数据分类问题,多视图优化集成算法是一种有效的解决方法。
-------理解:可以将不平衡数据分类比做动物保护问题,我们在生活中最常见的动物是猫和狗,因此我们很容易就能想到对猫和狗进行救助保护措施,因此我们有了动物救助站,但是对一些野生濒危动物,我们难以看到,难以接触,更难以想到对野生濒危动物进行保护,从而导致动物保护问题出现不平衡。最常见的动物受到的保护最多,而最濒危的动物受到的保护最小。
—多视图优化集成算法:
-------概念:多视图优化集成算法是通过利用不同的视角和特征来提高分类器的性能。它通过将不同视角的分类器集成起来,形成一个更加准确的分类器。同时,多视图优化集成算法还可以通过优化不同视角的权重来进一步提高分类器的性能。
-------理解:多视图优化集成算法可以类比为一个函数的表达方式,通常来说,一个方程有多种表达方式,如一般方程(x,y类型),极坐标方程,参数方程,一般方程用于解决两元对应关系分析效果较好,极坐标方程用于关于角度分析效果较好,参数方程用于分析与两元有关的第三已知元效果较好。利用不同视角得出的不同信息综合来解决一个问题就叫做多视图优化集成算法。目前多视图优化集成算法最火的是多模态,利用各种形式(语言,声音,视频,图片)等来提取信息,综合以提高分类性能,但实现难度较大。
问题聚焦与思路拓展
不平衡数据分类
在使用不平衡数据分类方法时,最重要的是要充分了解数据样本分布的不平衡性,并确定哪些类别是少数类。(少数类的提取)
在不平衡数据分类问题中,大部分数据都属于多数类,而少数类数据数量相对较少,因此它们容易被模型所忽略,导致模型的分类性能下降。因此,在处理不平衡数据时,需要对少数类数据进行特殊处理。(突出少数类,提高权重)
了解数据样本分布的不平衡性出现的原因也是解决不平衡数据分类问题的关键,可以从数据获取方式,数据预处理方式进行分析。
以下是一些经典的算法和应用案例:
-
SMOTE (Synthetic Minority Over-sampling Technique)算法:该算法是一种基于合成数据的过采样方法,可以在不改变原始数据分布的情况下增加少数类样本,从而提高模型的分类性能。参考资料:https://arxiv.org/abs/1106.1813
-
ADASYN (Adaptive Synthetic Sampling)算法:该算法是一种基于样本权重的过采样方法,根据每个少数类样本的邻居密度来决定生成新样本的数量,从而更加适应不同的数据分布。参考资料:https://ieeexplore.ieee.org/abstract/document/4633969
-
EasyEnsemble算法:该算法是一种基于集成学习的方法,通过将训练集划分成多个子集,然后在每个子集上分别训练不同的分类器,最终将它们的结果进行集成,从而提高分类性能。参考资料:(知乎yyds)EasyEnsemble:一种简单的不平衡数据的建模方法(附测试代码) - 知乎 (zhihu.com)
-
Cost-Sensitive Learning算法:该算法是一种基于损失函数的方法,通过为不同类别的样本赋予不同的损失权重,来更加关注少数类样本,从而提高模型的分类性能。参考资料:learning from imbalanced data sets—第四章——代价敏感学习 - 知乎 (zhihu.com)
这些算法和案例都展示了不平衡数据分类问题的解决方法和优势。
多视图优化集成算法
多视图优化集成算法并不是适用于所有类型的数据,它更适用于具有多个视图的数据集(多模态数据集),例如图像、音频、文本等多模态数据。在这些数据集中,不同视图提供了不同的信息,而单个视图可能无法提供足够的信息来完成任务。因此,将多个视图的信息融合起来,可以提高分类性能。
以下为一些具体算法案例:
-
MvDA (Multi-View Discriminant Analysis)算法:该算法是针对多视图数据进行降维和分类的一种方法,通过优化多个视图的判别性来提高分类性能。该算法已成功应用于图像分类、人脸识别等领域。谷歌学术,但偏向生物方面,但具有参考价值
-
MPLS (Multi-View Partial Least Squares)算法:该算法是一种多视图数据融合的方法,通过最小二乘回归来寻找多个视图之间的相关性,进而提高分类性能。该算法已成功应用于文本分类、情感分析等领域。未找到好的参考文献,下为谷歌专利链接,有思路图和算法框架
-
MvDA-ECO (Multi-View Discriminant Analysis with Efficient Convolutional Optimization)算法:该算法是在MvDA算法基础上进行改进,引入了卷积神经网络来提取多视图数据的特征,从而提高分类性能。该算法已成功应用于图像分类、图像检索等领域。参考链接
-
Multi-Modal Deep Learning算法:该算法是一种基于深度学习的多模态数据融合方法,通过将多个视图的特征输入到深度神经网络中进行学习,来提高分类性能。该算法已成功应用于视频分类、音频分类等领域。参考链接
6