模式识别技术(一)
模式识别技术
南京理工大学计算机学院 孙权森
1
参考书
模式识别 清华大学出版社 边肇祺 张学工 模式识别导论 高等教育出版社 李金宗 模式识别 人民邮电出版社 罗耀光 盛立东 Pattern Classification (second edition) (美)Richard O.Duda,etc Statistical Pattern Recognition (second edition) (英)Andrew R.Webb
2
引 言
3
与模式识别相关的学科
统计学 概率论 线性代数(矩阵计算) 形式语言 机器学习 人工智能 图像处理 计算机视觉 …
4
教学目标
掌握模式识别的基本概念和方法 有效地运用所学知识和方法解决实际问题 为研究新的模式识别的理论和方法打下基 础
5
本门课程的主要内容
第一章 第二章 第三章 第四章 第五章 第六章 第七章 第八章 第九章 概 论 贝叶斯决策理论 判别函数及分类器设计 聚类分析 特征选择和提取 Fisher鉴别分析理论 统计学习理论与支持向量机 模糊模式识别 模式识别应用及进展
6
第一章 概 论
7
§1-1 模式识别的基本概念
一、模式识别的基本定义
模式(pattern) ----存在于时间,空间中可观察的事物,具 有时间或空间分布的信息。通常,我们把通过对具体的个 别事物进行观测所得到的具有时间和空间分布的信息称为 模式,而把模式所属的类别或同一类中模式的总称称为模 式类(或简称为类)。比如,文字、图片、景物是模式; 声音、语言是模式;心电图、脑电图、地震波等也都是模 式,进一步,诸如社会经济现象、某个系统的状态等也都 是模式。从这个意义上说,人们在做每个行动时都要先进 行模式识别。 模式识别(Pattern Recognition)-----用计算机实现人对各 种事物或现象的分析,描述,判断,识别。具体来说就是利用 计算机对某些物理对象进行分类,在错误概率最小的条件 下,使识别的结果尽量与客观事物相符。
8
模式识别是模拟人的某些功能 模拟人的视觉: 计算机+光学系统 模拟人的听觉: 计算机+声音传感器 模拟人的嗅觉和触觉: 计算机+传感器 模式识别作为一门技术科学,目的就是要研究出能自动进行 模式分类和描述的机器系统,以完成人类的模式识别的功 能。 模式识别是一个新的研究领域,到现在为止,它的理论和技 术都远未完善,很多课题有待人们去研究和探索。 模式识别也是一门边缘技术科学。它与人工智能、信号处 理、计算机科学技术、概率统计、模糊集论、信息论、数字 图像处理、形式语言学、心理学、语言学等都有密切的关 系,而且随着模式识别这门学科的发展,还会与其它更多的 学科发生关系。另一方面,许多不同学科的人们也从各自的 角度对它产生了越来越多的兴趣。
9
下面以二维图像为例说明模式识别与相邻学科间的关系和区别: (1)图像处理,它包括图像增强、图像复原、图像编码、图像分 割、边缘检测等,它的输入是图像,输出是经过处理的图像。 (2)图像识别,它是模式识别的一个分支,输入是图像,输出是图 像的分类和结构描述。 (3)图像理解,它是人工智能的一个分支。它的输入是图像,输出 是对图像的描述和解释。 这三门学科是互相区别而又互相联系的。在进行图像识别前 先要作图像处理,使原始的图像能满足识别的要求;而对于某些 复杂的图像,如果有图像理解的帮助,就会有助于它们的正确识 别。从图像处理的方面看来,在图像的完善处理后,人们会很自 然地想到对处理过的图像进行识别;而从人工智能的方面看,智 能输入是一个人工智能系统的必要组成部分。
10
Simple Problem (Isolated Objects)
11
Slightly Harder Problem( Arbitrary orientation)
12
Harder Problem: ( Occluded objects)
13
Pattern Recognition
14
Pattern Classification
?
15
二、模式识别的发展史
1929年 G. Tauschek发明阅读机 ,能够阅读0-9的数字。 30年代 Fisher提出统计分类理论,奠定了统计模式识别的 基础。因此, 在60~70年代,统计模式识别发展很快, 但由于被识别的模式愈来愈复杂,特征也愈多,就出现 “维数灾难”。但由于计算机运算速度的迅猛发展,这个 问题得到一定克服。统计模式识别仍是模式识别的主要 理论。 50年代 Noam Chemsky 提出形式语言理论,美籍华人付 京荪 提出句法结构模式识别。 60年代 L.A.Zadeh提出了模糊集理论,模糊模式识别理论 得到了较广泛的应用。
16
80年代 Hopfield提出神经元网络模型理论。近些年人 工神经元网络在模式识别和人工智能上得到较广泛的 应用。 90年代 小样本学习理论,支持向量机也受到了很大 的重视。
17
三、关于模式识别的国内、国际学术组织
1973年 IEEE发起了第一次关于模式识别的国际会议 “ICPR”,成立了国际模式识别协会---“IAPR”,每2年 召开一次国际学术会议。 1977年 IEEE的计算机学会成立了模式分析与机器智 能(PAMI)委员会,每2年召开一次模式识别与图象 处理学术会议。 国内的组织有电子学会,通信学会,自动化协会,中 文信息学会….。
18
刊 物
IEEE Trans. on PAMI Pattern Recognition (PR) Pattern Recognition Letters (PRL) Pattern Analysis and Application (PAA) International Journal of Pattern Recognition and Artificial Intelligence (IJPRAI)
19
§1-2 模式识别方法
模式识别系统的目标:在特征空间和解 释空间之间找到一种映射关系,这种映 射也称之为假说。
特征空间:从模式得到的对分类有用的度 量、属性或基元构成的空间。 解释空间:将c个类别表示为 其中 为所属类别的集合,称为解释空 间。
20
假说的两种获得方法
监督学习、概念驱动或归纳假说:在特征空间中 找到一个与解释空间的结构相对应的假说。在给 定模式下假定一个解决方案,任何在训练集中接 近目标的假说也都必须在“未知”的样本上得到近 似的结果。
依靠已知所属类别的的训练样本集,按它们特征向量 的分布来确定假说 (通常为一个判别函数),只有在 判别函数确定之后才能用它对未知的模式进行分类; 对分类的模式要有足够的先验知识,通常需要采集足 够数量的具有典型性的样本进行训练。
21
假说的两种获得方法(续)
非监督学习、数据驱动或演绎假说:在解释空间 中找到一个与特征空间的结构相对应的假说。这 种方法试图找到一种只以特征空间中的相似关系 为基础的有效假说。
在没有先验知识的情况下,通常采用聚类分析方法, 基于“物以类聚”的观点,用数学方法分析各特征向量之 间的距离及分散情况; 如果特征向量集聚集若干个群,可按群间距离远近把 它们划分成类; 这种按各类之间的亲疏程度的划分,若事先能知道应 划分成几类,则可获得更好的分类结果。
22
模式分类的主要方法
数据聚类 统计分类 结构模式识别 神经网络
23
数据聚类
目标:用某种相似性度量的方法将原始数 据组织成有意义的和有用的各种数据集。 是一种非监督学习的方法,解决方案是数 据驱动的。
24
统计分类
基于概率统计模型得到各类别的特征向量 的分布,以取得分类的方法。 特征向量分布的获得是基于一个类别已知 的训练样本集。 是一种监督分类的方法,分类器是概念驱 动的。
25
结构模式识别
该方法通过考虑识别对象的各部分之间的联 系来达到识别分类的目的。 识别采用结构匹配的形式,通过计算一个匹 配程度值(matching score)来评估一个未知 的对象或未知对象某些部分与某种典型模式 的关系如何。 当成功地制定出了一组可以描述对象部分之 间关系的规则后,可以应用一种特殊的结构 模式识别方法 – 句法模式识别,来检查一个 模式基元的序列是否遵守某种规则,即句法 规则或语法。
26
神经网络
神经网络是受人脑组织的生理学启发而创立的。 由一系列互相联系的、相同的单元(神经元)组 成。相互间的联系可以在不同的神经元之间传递 增强或抑制信号。 增强或抑制是通过调整神经元相互间联系的权重 系数来(weight)实现。 神经网络可以实现监督和非监督学习条件下的分 类。
27
§1-3 模式识别系统
模式识别系统的基本构成
分类器 设计 数据 获取 预处理 特征提取 和选择 分类 决策
28
模式识别系统组成单元
数据获取:用计算机可以运算的符号来 表示所研究的对象
二维图像:文字、指纹、地图、照片等 一维波形:脑电图、心电图、季节震动波形等 物理参量和逻辑值:体温、化验数据、参量正常与 否的描述
预处理单元:去噪声,提取有用信息, 并对输入测量仪器或其它因素所造成的 退化现象进行复原
29
模式识别系统组成单元
特征提取和选择:对原始数据进行变换,得到 最能反映分类本质的特征 目的:实现由模式空间到特征空间的转变, 有效压缩维数 分类决策:在特征空间中用模式识别方法把被 识别对象归为某一类别
基本做法:在样本训练集基础上确定某个判决规 则,使得按这种规则对被识别对象进行分类所造成 的错误识别率最小或引起的损失最小
30
模式分类器的获取和评测过程
数据采集 特征选取 模型选择 训练和测试 计算结果和复杂度分析,反馈
31
32
训练和测试
训练集:是一个已知样本集,在监督学习 方法中,用它来开发出模式分类器。 测试集:在设计识别和分类系统时没有用 过的独立样本集。 系统评价原则:为了更好地对模式识别系 统性能进行评价,必须使用一组独立于训 练集的测试集对系统进行测试。
33
§1-4 模式识别的应用
生物学
自动细胞学、染色体特性研究、遗传研究
天文学
天文望远镜图像分析、自动光谱学
经济学
股票交易预测、企业行为分析
医学
心电图分析、脑电图分析、医学图像分析
34
模式识别的应用
工程
产品缺陷检测、特征识别、语音识别、自动导 航系统、污染分析
军事
航空摄像分析、雷达和声纳信号检测和分类、 自动目标识别
安全
指纹识别、人脸识别、监视和报警系统
35
模式识别的应用实例
在传送带上用光学传感器件对鱼按品种分 类 鲈鱼(Seabass) 品种 鲑鱼(Salmon)
36
识别过程
数据获取:架设一个摄像机,采集一些样 本图像,获取样本数据 预处理:去噪声,用一个分割操作把鱼和 鱼之间以及鱼和背景之间分开
37
识别过程
特征提取和选择:对单个鱼的信息进行特征选 择,从而通过测量某些特征来减少信息量
长度 亮度 宽度 鱼翅的数量和形状 嘴的位置,等等 …
分类决策:把特征送入决策分类器
38
鲈鱼和鲑鱼的识别过程
39
从长度进行分类
鲑鱼 鲈鱼
40
从光泽度进行分类
鲑鱼 鲈鱼
41
判决模型1
鲑鱼 鲈鱼
判决模型非常简单,但是存在一些错误
42
判决模型2
鲑鱼 鲈鱼
能够做到完美分类,但是推广能力差
43
判决模型3
鲑鱼 鲈鱼
分类性能和复杂度的最优折中,具有较好的推广能力
44
实例:统计模式识别
19名男女同学进行体检,测量了身高和体 重,但事后发现其中有4人忘记填写性别, 试问(在最小错误的条件下)这4人是男是 女?体检数值如下:
45
实例:统计模式识别(续)
待识别的模式:性别(男或女) 测量的特征:身高和体重 训练样本:15名已知性别的样本特征 目标:希望借助于训练样本的特征建立判 别函数(即数学模型)
46
实例:统计模式识别(续)
由训练样本得到的特征空间分布图
47
实例:统计模式识别(续)
从图中训练样本的分布情况,找出男、女 两类特征各自的聚类特点,从而求取一个 判别函数(直线或曲线)。 只要给出待分类的模式特征的数值,看它 在特征平面上落在判别函数的哪一侧,就 可以判别是男还是女了
48
§1-5 相关数学概念
随机向量及其分布
随机向量
如果一个对象的特征观察值为{x1, x2, …, xn},它可 构成一个n维的特征向量值x,即 x = (x1, x2, …, xn)T 式中, x1, x2, …, xn为特征向量x的各个分量。 一个特征可以看作n维空间中的向量或点,此空间 称为模式的特征空间Rn 。
49
相关数学概念
随机向量及其分布
随机向量
在模式识别过程中,要对许多具体对象进行测量, 以获得许多次观测值。 每次观测值不一定相同,所以对许多对象而言,各 个特征分量都是随机变量,即许多对象的特征向量 在n维空间中呈随机性分布,称为随机向量。
50
相关数学概念
随机向量及其分布
随机向量的参数
数学期望和方差 协方差矩阵 [例:求随机变量的数学期望和协方差矩阵]
51
相关数学概念
正态分布
一维正态密度函数
52
相关数学概念
正态分布
多维正态密度函数
53
小 结
模式和模式识别的概念 模式识别的主要方法 模式识别系统 模式识别应用 几个相关的数学概念
54
作业:大型上机作业题 考试:闭卷考试 成绩:期末(70分)+平时(考勤,作业)(30分)
55