本书用”模型”泛指从数据中学得的结果。有文献用”模型”指全局性结果(例如一棵树决策树),而用”模式”指局部性结果(例如一条规则)。
训练样本亦称”训练示例”(training instance)或”训练例”。学习算法通常有参数需要设置,使用不同的参数值和(或)训练数据,将产生不同的结果。
从数据中得到模型的过程称为”学习”(learning)或”训练”(training),这个过程通过执行某个学习算法来完成。训练过程中使用的数据为”训练数据”(trainging data),其中每个样本称为一个”训练样本”(traing sample),训练样本组成的集合称为”训练集”(training set)。学得模型对应了关于数据的某种潜在规律的规律,因此亦称假设(hypothesis);这种潜在规律本身,则成为”真相”或”事实”(ground-truth),学习过程就是为了找出或逼近真相。本书有时将模型称为”学习器”(learner),可看作学习算法在给定数据和参数空间上的实例化。
我们欲预测的是离散值,例如”好瓜”“坏瓜”,此类学习任务称为”分类”(classification);若预测的是连续值,例如西瓜成熟度0.95、0.37,此类学习任务称为”回归”(regression)。
机器学习的目标是使得学得的模型能很好地时用俞”新样本”,而不是仅仅在训练样本上工作得很好;即便对于聚类这样的无监督学习任务,我们也希望学得的簇划分能使用与没在训练集中出现的样本。学得模型适用于新样本的能力,称为”泛化”(generalization)能力。具有强泛化能力的模型能很好地适用于整个样本空间。
归纳(induction)与演绎(deduction)是科学推理的两大基本手段。前者是从特殊到一般的”泛化”(generalization)过程,即从具体的事物归结出一般性规律;后者则是从一般到特殊的”特化”(specialization)过程,即从基础原理推演出具体状况。
归纳学习有狭义与广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为”概念学习”或”概念形成”。
概念学习中最基本的是布尔概念学习,即对是不是这样的可表示为0/1布尔值的目标概念的学习。
可以有许多策略对这个假设空间进行搜索,如自顶向下、从一般到特殊,或者自底向上、从特殊到一般,搜索过程可以不断删除与正例不一样的假设、和(或)与反例一致的假设。最终会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果。
需要注意的是,现实问题中我们常面对很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的”假设集合”,我们称之为”版本空间”(version space)。
尽可能特殊即”适用情形尽可能少”;尽可能一般即”适用情形尽可能多”。任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上”等效”的假设所迷惑,而无法产生确定的学习结果。
归纳偏好可以看作学习算法自身在一个可能很庞大的结社空间中对假设进行选择的启发式或”价值观”。那么,有没有一般性原则来引导算法确定”正确的”偏好呢?”奥卡姆剃刀”(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即”若有多个假设与观察一致,则选择最简单的那个”。
奥卡姆剃刀并非唯一可行的原则,需要注意到,奥卡姆剃刀本身存在不同诠释。事实上,归纳偏好对应了学习算法本身所作出的关于”什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
1965年,Feigenbaum主持研制了世界上第一个专家系统DENDRAL。
机器学习是人工智能研究发展到一定阶段的必然产物。二十世纪五十年代到七十年代初,人工智能研究处于”推理期”。
1980年夏天,美国卡耐基梅隆大学举行了第一届机器学习研讨会。二十世纪八十年代是机器学习成为一个独立学科领域、各种机器学习技术百花齐放的时期。
机器学习已经发展成为了一个相当大的学科领域。
在计算机科学的诸多分支学科领域中,无论是多媒体、图形学,还是网络通信、软件工程乃至体系结构、芯片设计,都能找到机器学习技术的身影,尤其是在计算机视觉、自然语言处理等计算机应用技术领域,机器学习已成为最重要的技术进步源泉之一。