预测原理

如题所述

第1个回答 2020-01-19

(一)机器学习

1.研究的主要问题

机器学习是人工智能最具智能特征、最前沿的研究领域之一。主要是从大量的数据中自动或半自动地寻找模式的过程,在该过程中不断获取新的知识或技能,重新组织已有的知识结构,并不断改善自身的性能,从而达到学习的目的。机器学习问题目前是人工智能发展的一个重要方面,其研究的主要问题是从一组观测数据集出发,通过某些技术与方法寻找到一些不能通过原理分析以及相应数学运算而得到的规律,进而利用这些规律对未知或无法观测到的数据进行预测和分析。机器学习的最终目标是根据给定有限的训练样本然后对某系统输入/输出之间存在的相互依赖关系进行估计,然后根据输入/输出之间所存在的关系再对未知的输出结果作出尽可能准确的预测。上述理论可以表示为:变量y与x之间存在一定的未知依赖关系,即遵循某一未知的联合概率F(y｜x),机器学习问题的实质就是根据n个独立同分布观测样本:(x₁,y₁),(x₂,y₂),…,(x_n,y_n),在给定一组函数集f(x,ω)中求取一个最优的函数(fx,ω₀)对相互关系进行估计,使得期望风险达到最小。其中:f(x,ω)称为学习函数集或预测函数集;ω称为函数的广义参数,ω∈∧;∧是参数集合。L[y,f(x,ω)]为利用f(x,ω)对y进行预测而造成的损失,不同类型的学习问题有不同形式的损失函数。通过选择不同形式的损失函数可以构成模式识别、函数逼近和概率密度估计这三种基本的机器学习问题。

含水层含水量预测综合物探技术

在模式识别问题中,输出y是类别标号,在分类问题中,系统输出向量y可以表示成形式为的二值函数。预测函数在这里称为指示函数,将损失函数定义为

含水层含水量预测综合物探技术

为了使风险最小就要求Bayes决策中使错误率达到最小^[7]。

在回归估计问题中,如果假设训练机的输出值为实数值y,并且令f(x,ω)为实函数集合,ω∈∧,其中,包含的回归函数为^[8]

含水层含水量预测综合物探技术

这里的回归函数就是在损失函数为

含水层含水量预测综合物探技术

的情况下,使式(5-1)最小化风险泛函的函数。因此对于回归估计问题可以表示成在概率测度F(x,y)未知,但数据集(x₁,y₁),(x₂,y₂),…,(x_n,y_n)已知的情况下寻找使得R(ω)最小的密度函数。

对于概率密度估计问题,其学习的主要目的是要根据训练样本来确定x的概率分布。令估计的密度函数为p(x,ω),则损失函数可以定义为如下形式:L[p(x,ω)]=-lnp(x,ω)。这里的密度函数就是要求在损失函数下使得R(ω)最小化。也就是说,密度估计的问题在相应的概率密度F(x)未知以及给定独立同分布数据集x₁,x₂,…,x_n的情况下,寻找使得R(ω)最小的密度函数。

2.经验风险最小化

一般基于数据的机器学习问题的目标是要使期望风险达到最小化,但是由于已知的全部信息只有数据集的期望风险,而且该期望风险无法计算,因此根据概率论中的大数定理,利用算术平均代替式(5-1)中的数学期望,于是定义下式:

含水层含水量预测综合物探技术

由于R(ω)是用已知的训练样本对(5-1)式进行的估计,因此称为经验风险。利用对参数ω求经验风险R_emp(ω)的最小值来逼近期望风险R(ω)的最小值,称这一原则为经验风险最小化(empirical risk minimization)原则,简称ERM原则。

通过对经验风险最小化原则和基于数据的机器学习问题中期望风险最小化要求的研究可以发现,从期望风险最小化到经验风险最小化缺少相应的理论依据,只是一种直观上合理的做法。首先,R_emp(ω)和R(ω)都是ω的函数,概率论中大数定理只是说明了满足一定条件下,如果数据集趋于无穷多时那么R_emp(ω)将在概率意义上趋近于R(ω),但并不能保证R_mpe(ω)最小的ω^*与使R(ω)最小的ω′是在同一个点,更不能保证R_emp(ω*)能够趋近于R(ω′)。其次,即使能够使这些条件在数据集数目无穷大时得到保证,但也无法保证在这些前提下所得到的经验风险最小化方法在有限的数据集数目(即小样本数据)的情况下仍能得到最佳结果^[9]。虽然存在上述各种问题,但该思想在多年的机器学习方法研究中一直占据了主导地位。人们多年来将大部分注意力都集中到如何更好地求取最小经验风险。

(二)统计学习理论

1.统计学习理论的产生

统计学方法是研究利用经验数据进行机器学习的一种一般理论,对于大量缺乏合适的理论模型的观测数据时,统计学方法是唯一的分析手段。统计学方法研究的主要内容是当样本数据的数目趋于无穷大时的极限特性。然而,在实际应用当中,数据集的数目通常是有限的,有时数据样本的获取是非常困难或者成本非常高的。因此在实际应用中往往无法满足数据集的数目趋于无穷大或者数据集的数据样本量大这个最基本的前提,特别是在研究高维特征空间时,这一矛盾显得尤为突出。因此,研究小样本数据下的统计学习规律是一个非常有实用价值和意义的问题。

Vapnik等人在20世纪60年代中期提出了统计学习理论(statistical learning theory,SLT),并开始研究在有限数据集的情况下基于数据的机器学习问题。由于当时的研究程度不够完善,直到20世纪90年代中期,统计学习理论才得以逐渐的发展和成熟,并且形成了一个较为完善的统计学习理论体系。

统计学习理论的本质就是从理论上系统地研究经验风险最小化原则成立的条件、有限样本下经验风险与期望风险之间的关系以及如何利用这些理论寻找新的学习原则和方法的问题,其主要内容包括四个方面:

1)经验风险最小化原则下统计学习一致性的条件。

2)在这些条件下关于统计学习方法推广性的界的结论。

3)在这些界的基础上建立的小数据样本归纳推理原则。

4)实现这些新的原则的实际方法或算法。

以上这四条内容中,核心内容是:VC维,推广能力的界,结构风险最小化。

2.学习过程的一致性条件

学习过程的一致性主要是指当训练数据集的数目趋于无穷大时,经验风险的最优值能够收敛到真实风险的最优值。设Q(z,ω_n)是对给定的独立同分布观测数据集z₁,z₂,…,z_n使经验风险泛函式

含水层含水量预测综合物探技术

最小化的函数。如果下面两个序列概率收敛于同一个极限,即

含水层含水量预测综合物探技术

则称ERM原则对函数集Q(z,ω_n),ω∈∧和概率分布函数F(z)是一致的。其中, 为实际可能的最小风险。

对于有界的损失函数,经验风险最小化学习一致性的充分必要条件是使经验风险在式(5-7)的条件下一致地收敛于真实风险:

含水层含水量预测综合物探技术

式中:P表示概率,R_emp(ω)和R(ω)分别表示在n个数据样本下的经验风险和对于同一个ω的真实风险。

上述内容即为学习理论的关键定理。由学习理论的关键定理可知,基于经验风险最小化原则的学习过程一致性的条件由预测函数集中最差的函数决定,即最坏的情况。

由于学习理论关键定理只给出了经验风险最小化原则成立的充分必要条件,但并没有给出什么样的学习方法能够满足这些条件。为此,统计学习理论定义了一些指标来衡量函数集的性能,其中最重要的是VC维(Vapnik-Chervonenkis dimension)。

3.VC维理论

VC维是用来描述函数集或学习机器的复杂程度及学习能力的一个重要指标,在模式识别中VC维的直观定义是:对一个指示函数集,如果存在h个数据样本能够被函数集中的函数按所有可能的2^h种形式分开,则称函数集能够把h个样本打散;函数集的VC维就是它能打散的最大样本数目h。若对任意数目的样本都有函数能将它们打散,则函数集的VC维是无穷大。有界实函数的VC维可以采用一定的阈值将它转化成指示函数来进行定义。

VC维体现了函数集的学习能力,直接影响学习机器的推广能力。一般情况,VC维越大则学习机器越复杂,学习能力就越强。但目前尚没有通用的可用于任意函数集VC维计算的理论,只知道一些特殊的函数集的VC维。例如,在n维实数空间中线性分类器和线性实函数的VC维是n+1;函数f(x,a)=sin(x,a),a∈R的VC维是无穷大。对于一些比较复杂的学习机器(如神经网络),其VC维不但与函数集有关外,而且也受学习算法等的影响,因此它的确定将更加困难。对于给定的学习函数集,如何通过理论或实验的方法计算它的VC维仍是当前统计学习理论中有待研究的一个问题。

4.推广性的界

统计学习理论系统地研究了各种类型函数集的经验风险和实际风险之间的关系,即推广性的界。对于两类分类问题,指示函数集中的所有函数包括使经验风险最小的函数,其经验风险R_emp(ω)和实际风险R(ω)之间以至少1-η的概率满足如下关系:

含水层含水量预测综合物探技术

式中:h为函数集的VC维;n为数据样本数。

通过该结论说明了学习机器的实际风险是由两部分组成的:一部分是经验风险即训练误差,另一部分则称为置信范围,也叫做VC信任,它与学习机器的VC维及训练样本数有关。(5-9)式可以简单表示为

含水层含水量预测综合物探技术

上式表明,当训练样本有限时,如果学习机器的VC维越高,复杂性越高,则置信范围越大,将会导致真实风险与经验风险之间的差别越大,这就是会出现“过学习”现象的原因。在机器学习过程中不但要使经验风险最小,还应当保证VC维尽量的小,从而缩小置信范围,才能取得较小的实际风险,即对未知样本预测才能取得较好的推广能力。这也是大多数情况下选择复杂的学习机器或神经网络虽然能够获得较好的记忆功能却得不到令人满意的推广性能的主要原因。因此寻找反映学习机器能力更好的参数及得到更好的界,也是今后学习理论的重要研究方向之一。

5.结构风险最小化

由前面的结论可知,当样本数据有限时传统的机器学习方法中采用的经验风险最小化原则是不合理的。需要同时保证最小化经验风险和置信范围。实际上,选择模型和算法的过程就是优化置信范围的过程,如果选择的模型适合于现有的训练样本(相当于h/n值适当),则可以取得较好的效果。例如,在神经网络中,可以根据问题和样本的具体情况来选择不同的网络结构(对应不同的VC维),然后进行经验风险最小化。

(三)支持向量机理论^[10~14]

1.支持向量机基本思想

图5-1 优化分类面示意图

支持向量机(support vector machines,SVM)是Vladimir N. Vapnik等根据统计学习理论中的结构风险最小化原则于20世纪90年代提出的一种新的通用机器学习技术。SVM是由线性可分情况下的最优分类面发展而来的,其基本思想可用图5-1所示的二维情况说明。图5-1中,实心点和空心点代表两类数据样本,其中H为分类线,H₁、H₂分别为过各类中离分类线最近的数据样本且平行于分类线的直线,它们之间的距离称作分类间隔(margin)。所谓最优分类线,就是要求分类线不但能将两类正确分开,而且要使间隔最大。前者保证经验风险达到最小;使分类间隔最大实际上就是要使推广性界中的置信范围能够最小,从而保证真实风险最小。推广到高维空间,最优分类线就转换成了最优分类面。

2.最优分类面

最优分类面不但要求分类超平面能将两类正确分开,而且要使分类间隔最大,这是因为要使结构风险最小化,就要求分类超平面集合的VC维达到最小。根据VC维理论可知,当训练样本给定时,分类间隔越大,则对应的分类超平面集合的VC维就越小,因此要求分类间隔最大,这就是最大间隔(分类)原则。

根据最大间隔原则,对于线性可分的训练集

T={(x₁,y₁)，…，(x_n,y_n)}∈(X+Y)ⁿ

其中x_iX=Rⁿ,y_i∈Y={+1,-1},I=1,…，n;

若其分类线性方程为ω·x+b=0,

则训练集中的向量应满足

含水层含水量预测综合物探技术

此时分类间隔等于 ,间隔最大等价于2最小。满足式(5-11)。且使最小的分类面就是图5-1中的最优分类线H。

因此,最优分类面问题可以用如下的约束优化问题来表示,即在式(5-11)的约束下,求如下函数的最小值:

含水层含水量预测综合物探技术

定义Lagrange函数:

含水层含水量预测综合物探技术

式中:α_i≥0为Lagrange乘子。

为求式(5-13)的最小值,分别对ω、b、α_i求偏微分并令其为0,于是得

含水层含水量预测综合物探技术

通过Lagrange对偶理论可以把上述最优分类面求解问题转化为其对偶问题:

含水层含水量预测综合物探技术

α_i为原问题中与每个约束条件对应的Lagrange乘子。是一个在不等式约束条件下二次函数最优的问题,且存在唯一解。若为最优解, 即最优分类面的权系数向量是支持向量的线形组合。

可由约束条件α_i[y_i(ω·x_i+b)-1]=0求解,解上述问题后得到的最优分类面函数为:

含水层含水量预测综合物探技术

sgn()为符号函数,由于非支持向量对于α_i均为零,因此上式中的求和实际上是对支持向量进行。b^*为分类阈值,可以由任意一个支持向量用式(5-11)求得,或通过两类任意一对支持向量取中值求取,这就是SVM最一般的表达。

3.广义的最优分类面

当最优分类面不能把两类点完全分开时,为了在经验风险和推广性能之间求得某种均衡,我们在条件中引入弛变量ξ,允许错分样本存在,此时的分类面ω·a+b=0满足:

含水层含水量预测综合物探技术

当0<ξ_i<1时，样本点x_i正确分类；当ξ_i≥1时，样本点x_i被错分，因此，在最小化目标中加入惩罚项，引入以下目标函数：

含水层含水量预测综合物探技术

式中:C为一个正常数,称为惩罚因子。

与线性可分情况类似,式(5-18)可通过如下二次规划来实现:

含水层含水量预测综合物探技术

对于非线性分类问题,如果在原始空间中的简单最优分类面不能得到满意的分类结果,则可以通过非线性变换将原始问题转化为某个高维空间中的线性问题,在变换空间求最优分类面。

由于变换可能比较复杂,一般不容易实现,因此SVM可以通过核函数变换巧妙地解决了这个问题。

4.核函数

核函数方法的核心内容就是采用非线性变换φ将n维矢量空间中的随机矢量x映射到高维特征空间^[11],在高维特征空间中设相应的线性学习算法,由于其中各坐标分量间的相互作用只限于内积,因此不需要知道非线性变换φ的具体形式,只要利用满足Mercer条件的核函数替换线性算法中的内积,就能得到原输入空间中对应的非线性算法^[15]。Mercer条件的定义为

对于任意的对称函数K(x,x′),它是某个特征空间中的内积运算的充分必要条件是,对于任意的φ(x)不恒等于零,且∫φ²(x)dx<0,有∫∫K(x,x')φ(x)φ(x')dxdx'>0成立。

在支持向量机中可以采用不同的核函数构造输入空间不同类型的非线性决策面的学习机器。目前满足Mercer条件的核函数已有近10个,但常用的核函数主要有

(1)径向基函数

含水层含水量预测综合物探技术

构造的支持向量机的判别函数为

含水层含水量预测综合物探技术

其中,s个支持矢量x_i可确定径向基函数的中心位置,s是中心的数目。径向基核函数是普遍使用的核函数,因为它对应的特征空间是无穷维的,有限的数据样本在该特征空间中肯定是线性可分的。

(2)Sigmoid核函数

含水层含水量预测综合物探技术

构造的支持向量机的判别函数为

含水层含水量预测综合物探技术

式(5-23)就是常用的3层神经网络的判别函数,其隐节点对应支持向量。其算法不存在局部极小点问题。