非监督学习有哪些

如题所述

在机器学习,无监督学习的问题是,在未加标签的数据中,试图找到隐藏的结构。因为提供给学习者的实例是未标记的,因此没有错误或报酬信号来评估潜在的解决方案。这区别于监督学习和强化学习无监督学习。

无监督学习是密切相关的统计数据密度估计的问题。然而无监督学习还包括寻求,总结和解释数据的主要特点等诸多技术。在无监督学习使用的许多方法是基于用于处理数据的数据挖掘方法。

非监督学习对应的是监督学习。
聚类(例如,混合模型,层次聚类),

隐马尔可夫模型,

盲目的信号分离使用特征提取的技术降维(例如,主成分分析,独立分量分析,非负矩阵分解,奇异值分解)。
在神经网络模型,自组织映射(SOM)和自适应共振理论(艺术)是常用的无监督学习算法。SOM是一个地形组织附近的位置在地图上代表输入有相似属性。艺术模型允许集群的数量随问题规模和让用户控制之间的相似程度相同的集群成员通过一个用户定义的常数称为警戒参数。艺术网络也用于许多模式识别任务,如自动目标识别和地震信号处理。艺术的第一个版本是"ART1",由木匠和Grossberg(1988)。
温馨提示:答案为网友推荐,仅供参考
第1个回答  2020-10-07
无监督学习(unsupervised learning):设计分类器时候,用于处理未被分类标记的样本集

目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。非监督学习一般有两种思路。第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定。这种思路很好的概括了现实世界,Agent可以对那些正确的行为做出激励,并对其他的行为进行处罚。

强化学习的一些形式常常可以被用于非监督学习,由于没有必然的途径学习影响世界的那些行为的全部信息,因此Agent把它的行为建立在前一次奖惩的基础上。在某种意义上,所有的这些信息都是不必要的,因为通过学习激励函数,Agent不需要任何处理就可以清楚地知道要做什么,因为它(Agent)知道自己采取的每个动作确切的预期收益。对于防止为了计算每一种可能性而进行的大量计算,以及为此消耗的大量时间(即使所有世界状态的变迁概率都已知),这样的做法是非常有益的。另一方面,在尝试出错上,这也是一种非常耗费时间的学习。

不过这一类学习可能会非常强大,因为它假定没有事先分类的样本。在某些情况下,例如,我们的分类方法可能并非最佳选择。在这方面一个突出的例子是Backgammon(西洋双陆棋)游戏,有一系列计算机程序(例如neuro-gammon和TD-gammon)通过非监督学习自己一遍又一遍的玩这个游戏,变得比最强的人类棋手还要出色。这些程序发现的一些原则甚至令双陆棋专家都感到惊讶,并且它们比那些使用预分类样本训练的双陆棋程序工作得更出色。

一种次要的非监督学习类型称之为聚合(clustering)。这类学习类型的目标不是让效用函数最大化,而是找到训练数据中的近似点。聚合常常能发现那些与假设匹配的相当好的直观分类。例如,基于人口统计的聚合个体可能会在一个群体中形成一个富有的聚合,以及其他的贫穷的聚合。
第2个回答  2020-10-07
由于在很多实际应用中,缺少所研究对象类别形成过程的知识,或者为了判断各个样本(模式)所属的类别需要很大的工作量(例如卫星遥感照片上各像元所对应的地面情况),因此往往只能用无类别标答的样本集进形学习。通过无监督式学习,把样本集划分为若干个子集(类别),从而直接解决看样本的分类问题,或者把它作为训练样本集,再用监督学习方法进行分类器设计。
思路
在非监督学习中,数据并不会被特别标识,学习模型是为了推断出数据的一些内在结构。非监督学习一般有两种思路:
1)第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会被置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定,这类学习往往被称为强化学习。
2)第二种思路称为聚合(Clustering),这类学习类型的目标不是让效用函数最大化,而是找到训练数据中的近似点,本节将重点介绍此类非监督学习思路。
第二种思路的非监督学习常见的应用场景包括关联规则的学习及聚类等。常见算法包括Apriori、K-Means、EM等。[1]
方法
无监督学习主要有以下两大类方法:
(1)基于概率密度函数估计的直接方法
如果给定的样本集是由各类都服从高斯分布的样本混合在一起组成的,在类别数已知的条件下,可以用最大似然法或Bayes估计法,从混合的概率密度函数中分解出各个类的概率密度函数,然后用Bayes决策方法设计模式分类器。在非高斯概率分布情况下,只要各类的概率密度函数的形式已知,且分解是惟一的,都可以用上述方法实现分类器设计。在没有任何概率分布先验知识的情况下,可以把特征空间划分为着若干个队域,使每个区域都具有单峰的分布性质,每一个区域就相当于一个类别,这样作的基础是紧致性假设。已经合多种算法实现这种队域的划分。
(2)基于样本间相似度呈的间接聚类方法
如果用样本在特征窄问中相互问的距离来度量样本间的相似度,就可以设计出某种评价分类质量的准则函数,通过数学方法把特征空间划分为与各个类别相对应的区域,也就是通常所说的聚类分析。算法和非迭代的分级聚类算法。前者是给定某个样本集的初始划分,计算反映聚类质量的准则隔数值,如果把某个样本从原来所属的类别改属为另一个类别能使准则函数值向好的方向改进,则改变这个样本原来的类别为新的类别(新的划分)再对其他样本进行类似的运算这样反复迭代,直到没有一个样本类别的改变能改进准则函数值,即已经达到了准则函数的最优值。这一类算法中著名的有C-均值算法和ISODATA算法,C-均值算法要求类别数预先给定,并把各样本到所属类别样本子集的均值向量的距离平方和作为评价聚类质量的准则函数。ISODATA算法可以自动地调整类别数,并可对各类样本的某些统计性质(如样本数餐、样本特征的标准偏差等)作些限制。非迭代的分级聚类算法:第一步把每一个样本都看成一个类,给定两类样本间相似度计算方法,计算类与类之间的相似度。第二步把其中相似度最大的两个类合并为一个类,再计算新的类与类之间的相似度。第三步再把其中相似把所有的样本都合为一类为止。根据问题的性质以及各级的相似度大小,就可以确定合理的聚类差别数和各类所包含的样本,在应用分级聚类算法时要选择适当的类与类间相似度汁算力’法,不同的计算方法会导致完全不同的聚类结果。
聚类分析是无监督学习的主要方法,它能从大量的数据集中找出有规律性的结果。为了适应各种实际问题的数据结构的特点,还发展了以上述方法为基础的各种其他算法[2]
第3个回答  2020-10-07
无监督学习(Unsupervised Learning)是和监督学习相对的另一种主流机器学习的方法,我们知道监督学习解决的是“分类”和“回归”问题,而无监督学习解决的主要是“聚类(Clustering)”问题。

从无监督学习说起:算法模型有哪几种?

监督学习通过对数据进行标注,来让机器学习到,比如:小曹多重多高就是胖纸,或者用身高体重等数据,来计算得到小曹的BMI系数;而无监督学习则没有任何的数据标注(超过多高算高,超过多重算胖),只有数据本身。

比如:有一大群人,知道他们的身高体重,但是我们不告诉机器“胖”和“瘦”的评判标准,聚类就是让机器根据数据间的相似度,把这些人分成几个类别。

那它是怎么实现的呢?怎么才能判断哪些数据属于一类呢?

这是几种常见的主要用于无监督学习的算法。

K均值(K-Means)算法;
自编码器(Auto-Encoder);
主成分分析(Principal Component Analysis)。
K均值算法
K均值算法有这么几步:

从无监督学习说起:算法模型有哪几种?

随机的选取K个中心点,代表K个类别;
计算N个样本点和K个中心点之间的欧氏距离;
将每个样本点划分到最近的(欧氏距离最小的)中心点类别中——迭代1;
计算每个类别中样本点的均值,得到K个均值,将K个均值作为新的中心点——迭代2;
重复234;
得到收敛后的K个中心点(中心点不再变化)——迭代4。
上面提到的欧氏距离(Euclidean Distance),又叫欧几里得距离,表示欧几里得空间中两点间的距离。我们初中学过的坐标系,就是二维的欧几里得空间,欧氏距离就是两点间的距离,三维同理,多维空间的计算方式和三维二维相同。
第4个回答  2020-10-07
简述
由于在很多实际应用中,缺少所研究对象类别形成过程的知识,或者为了判断各个样本(模式)所属的类别需要很大的工作量(例如卫星遥感照片上各像元所对应的地面情况),因此往往只能用无类别标答的样本集进形学习。通过无监督式学习,把样本集划分为若干个子集(类别),从而直接解决看样本的分类问题,或者把它作为训练样本集,再用监督学习方法进行分类器设计。
思路
在非监督学习中,数据并不会被特别标识,学习模型是为了推断出数据的一些内在结构。非监督学习一般有两种思路:
1)第一种思路是在指导Agent时不为其指定明确的分类,而是在成功时采用某种形式的激励制度。需要注意的是,这类训练通常会被置于决策问题的框架里,因为它的目标不是产生一个分类系统,而是做出最大回报的决定,这类学习往往被称为强化学习。
2)第二种思路称为聚合(Clustering),这类学习类型的目标不是让效用函数最大化,而是找到训练数据中的近似点,本节将重点介绍此类非监督学习思路。
第二种思路的非监督学习常见的应用场景包括关联规则的学习及聚类等。常见算法包括Apriori、K-Means、EM等。[1]
方法
无监督学习主要有以下两大类方法:
(1)基于概率密度函数估计的直接方法
如果给定的样本集是由各类都服从高斯分布的样本混合在一起组成的,在类别数已知的条件下,可以用最大似然法或Bayes估计法,从混合的概率密度函数中分解出各个类的概率密度函数,然后用Bayes决策方法设计模式分类器。在非高斯概率分布情况下,只要各类的概率密度函数的形式已知,且分解是惟一的,都可以用上述方法实现分类器设计。在没有任何概率分布先验知识的情况下,可以把特征空间划分为着若干个队域,使每个区域都具有单峰的分布性质,每一个区域就相当于一个类别,这样作的基础是紧致性假设。已经合多种算法实现这种队域的划分。
(2)基于样本间相似度呈的间接聚类方法
如果用样本在特征窄问中相互问的距离来度量样本间的相似度,就可以设计出某种评价分类质量的准则函数,通过数学方法把特征空间划分为与各个类别相对应的区域,也就是通常所说的聚类分析。算法和非迭代的分级聚类算法。前者是给定某个样本集的初始划分,计算反映聚类质量的准则隔数值,如果把某个样本从原来所属的类别改属为另一个类别能使准则函数值向好的方向改进,则改变这个样本原来的类别为新的类别(新的划分)再对其他样本进行类似的运算这样反复迭代,直到没有一个样本类别的改变能改进准则函数值,即已经达到了准则函数的最优值。这一类算法中著名的有C-均值算法和ISODATA算法,C-均值算法要求类别数预先给定,并把各样本到所属类别样本子集的均值向量的距离平方和作为评价聚类质量的准则函数。ISODATA算法可以自动地调整类别数,并可对各类样本的某些统计性质(如样本数餐、样本特征的标准偏差等)作些限制。非迭代的分级聚类算法:第一步把每一个样本都看成一个类,给定两类样本间相似度计算方法,计算类与类之间的相似度。第二步把其中相似度最大的两个类合并为一个类,再计算新的类与类之间的相似度。第三步再把其中相似把所有的样本都合为一类为止。根据问题的性质以及各级的相似度大小,就可以确定合理的聚类差别数和各类所包含的样本,在应用分级聚类算法时要选择适当的类与类间相似度汁算力’法,不同的计算方法会导致完全不同的聚类结果。
聚类分析是无监督学习的主要方法,它能从大量的数据集中找出有规律性的结果。为了适应各种实际问题的数据结构的特点,还发展了以上述方法为基础的各种其他算法
相似回答