最古老的语言
现在视觉计算领域的研究也正在两个方向上发展着,首先是基于统计学的视觉资源分析技术,这种技术主要依靠分析视觉资源的特性,并将这些特性借助统计等数学分析方式提取出来,并最终应用到实际的工作中;另外一种方式则在近两年内兴起,与传统的二维等低维度数学分析手段不同,这种新的分析方式将视角从原来数学意义上的低维度上升到了多维度,用全新的数学角度在多维视角上重新看待这个问题。借助全新的数学模型,原来很多看似不可能实现的视觉计算问题都得以迎刃而解,例如借助这种新的模型,带口罩或墨镜的人脸都可以被计算机读取和识别。
将图片中人脸信息有效地抓取出来,最重要的是要有一种行之有效的数学模型和算法,否则将无法非常有效率或十分精准地将图片中的信息抓取出来。目前人脸识别的数学模型和计算方法仍旧主要基于传统的统计学模型,而这种模型主要是用来进行低维度信号的处理和解释的。而图片或视频这种高像素的数据则是一种高维数据,随着对视觉计算要求的不断提高,研究人员发现使用传统的数学计算方式会有很明显的局限,取得突破的难度会很大,为此必须寻找新的数学模型。
在几年前,以华裔澳大利亚籍数学家陶哲轩为代表的一些数学家率先意识到,在高维空间中,一些原先公认的很难的 (NP-hard) 组合问题,可以用一系列高效的优化算法来解决。马毅的研究组很快认识到,这些强大的计算工具正好可以用来解决目前视觉计算所面临的难题,而且最终的计算结果非常理想。这种新数学模型和理论在最近两年引发了讨论的热潮,而且数学模型和算法正在不断地被优化,这种新的思路正在逐渐带来视觉技术方面的新突破。
采用在高维空间中进行计算的新思路后,很多事情都发生了改变. 原来很多的概念和工具都建立在低维空间中,而在高维空间中,很多结果正好与低维空间相反,低维空间中认为一定可能发生的事情,高维空间中一般不发生。因此在传统低维计算思路下认为基本实现不了的事情,甚至人都做不到的事情都可以在高维空间中被实现。例如在传统观念中,一张70%~80%内容被高度损坏的照片无论计算机还是人都是无法再辨识的,但是在这种新的数学模型下,剩下20%~30%图像所蕴含的数据量仍旧是惊人的,依然可以用于精确计算,因此,进行准确辨识完全不成问题。
============================
人工智能研究中,人们曾尝试过三条路。我将它们称之为外观(extrospection)、内省(introspection)和模拟(simulation)。
所谓外观,指的是观察人的大脑工作情况,探求其原理,解明其机制,从而在计算机上“实现”人类大脑的功能。比如,计算神经学(computational neuroscience )的研究就是基于这个动机的。然而,人脑的复杂信息处理过程很难观测和模型化。就像我们仅仅观测某个计算机内的信号传输过程,很难判断它正在做什么样的计算一样。
内省就是反思自己的智能行为,将自己意识到的推理、知识等记录到计算机上,从而“再现”人的智能,比如专家系统(expert system )的尝试就属于这一类。内省的最大问题是它很
难泛化,也就是举一反三。无论是在什么样的图片中,甚至是在抽象画中,人们能够轻而易举地找出其中的人脸。这种能力称为泛化能力。通过内省的方法很难使计算机拥有泛化能力。自己的智能原理,对人类来说很有可能是不可知的(agnostic )。笼子里的老鼠可能认为触动把手是得到食物的“原因”,但它永远也不能了解到整个笼子的食物投放机制。
模拟就是将人的智能化操作的输入与输出记录下来,用模型来模拟,使模型对输入输出给出同人类相似的表现,比如统计机器学习(statistical machine learning)。实践表明,统计机器学习是实现计算机智能化这一目标的最有效手段。统计学习最大的优点是它具有泛化能力;而缺点是它得到的永远是统计意义下的最优解(例如,人脸检测)。现在当人们提到机器学习时,通常是指统计机器学习或统计学习。
下面看一个简单的例子。由这个例子可以说明统计学习的基本原理,以及由此带来的优缺点。
假设我们观测到一个系统的输出是一系列的1和0,要预测它的下一个输出是什么。如果观测数据中1和0各占一半,那么我们只能以0.5的准确率做出预测。但是,如果我们同时观测到这个系统有输入,也是一系列的1和0,并且输入是1时输出是0的比例是0.9,输入是0时输出是1的比例也是0.9。这样我们就可以从已给数据中学到“模型”,根据系统的输入预测其输出,并且把预测准确率从0.5提高到0.9。以上就是统计学习,特别是监督学习的基本想法。事实上,这是世界上最简单的统计机器学习模型!条件概率分布P(Y|X),其中随机变量X 与Y 表示输入与输出,取值1与0。可以认为所有的监督学习模型都是这个简单模型的复杂版。我们用这个模型根据给定的输入特征,预测可能的输出。
统计学习最大的优点是它具有泛化能力,对于任意给定的X ,它都能预测相应的Y 。Vapnik 的统计学习理论还能对预测能力进行分析,给出泛化上界。但从这个例子中也可以看到统计学习的预测准确率是不能保证100%的。比如,人脸检测会出错,汉语分词会出错。
统计学习是“乡下人”的办法。有个笑话。一个乡下人进城,到餐馆吃饭,不知如何在餐馆用餐,就模仿旁边的人。别人做什么,他也就学着做什么。邻桌的一位故意戏弄他,将桌上的蜡烛卷在饼里,趁乡下人不注意时把蜡烛扔到地上,然后咬了一口卷着的饼。乡下人也跟着学,大咬了一口自己的饼。统计学习只是根据观测的输入与输出,“模仿”人的智能行为。有时能够显得非常智能化。但它本质上只是基于数据的,是统计平均意义下的“模仿”。如果观测不到关键的特征,它就会去“咬卷着蜡烛的饼”。
===============================
Bing 的超越之道
鲍尔默曾经谈到三点,我觉得比较有意思,可以分享给你们。
第一. 做的比你的对手更好。就目前来看,各个大的主流搜索引擎,很难说谁比谁好,往往用户对于自己搜到的成功查询,不会记住,而假使搜索引擎A 没有提供自己希望的答案而引擎B 提供了,就会转向搜索引擎B 。这种搜索引擎之间的切换,在用户当中是经常出现的,对于某一些查询,A 可能更好,对另外的一些查询,可能B 更好,总得来讲就不好评估。另外一方面,用户往往会由于习惯问题,导致使用某一种搜索引擎,除非该引擎结果很糟,他才会转变到另外一种上面。
第二. 卖的比你的对手更便宜。当今搜索引擎已经是免费的了,不可能再便宜了,当然,我们也可以采取一些措施,比如在微软的搜索引擎上搜索某些商品进行购买时,有可能返还用户小额现金(只是一个假设而已) 。
第三. 做你的对手最不愿意做的事情。这个对不同的对手而言是不一样的,比如当前主流的搜索引擎是以十个搜索结果的列表作为返回页面,由于用户习惯了这种显示结果,往往搜索引擎是不会去改变的。而对于我们而言,是不是可以改变这种列表方式的呈现,比如我们得到一些更加精确的,经过数据挖掘得出的更立体化的结果,直接呈现给用户,可能会让用户更加满意。
=============================
高维数据的鲁棒处理和分析
在计算式数据分析的问题中,检测和更正大量误差,异常点的需求日益增长。例如,在许多计算机视觉问题中,由于遮挡,跟踪失败或者对于假设模型的违背(例如,人脸检测或者光度立体视觉中的高光)都会产生错误的测量数据。正确处理这样的观测数据对于建造能够在现实条件下工作的系统至关重要。利用基于凸优化的新算法,我们正致力于满足这样的需求。这些算法高效,可伸缩,并且具有良好的基于高维空间中测量集中性的性能保证。这些新工具对于一些重要问题已经产生了革命性的影响,包括高度鲁棒的人脸识别和鲁棒的主成分分析方法。
============================
在展开对H.M. 的研究之前,科学家认为记忆是由整个大脑负责的,而不是只依赖于其中的一个区域。但是通过对Mr. Molaison的实验,蒙特利尔及哈特福德两地的研究人员发现他的脑中被移走的部分——在大脑内侧颞叶中,大概一英寸深,与耳朵平齐的地方——在新记忆的形成中扮演着至关重要的角色,其中最为至关重要的海马体,现在已成为最深入研究的对象。
在一系列的研究中。Mr. Molaison 彻底改变了人们对学习的理解,他显示出他某一部分的记忆能力是完好无损的。蒙特利尔神经研究所的Dr. Brenda Milner发表于1962年的一篇论文里描述了这一里程碑式的研究。她让Mr. Molaison试着照着镜子里的图像,在纸上的两个五角星之间描一条线,其中一个五角星包含在另一个里面。
图片来源:第五期征文《也许全世界我也可以忘记》
虽然每次尝试看起来对他都是全新的。但是渐渐地他的技巧变得越来越纯熟——这显示大脑中至少有两个分开的记忆系统,一个负责事实的记忆,另一个负责内隐学习及运动学习,比如弹吉他或者骑自行车之类的事。
这个新创立的大脑图谱工程,将记录下许多被捐献的大脑的信息,科学家能够借此研究Mr. Molaison 的大脑的某些区域,揭开遗留已久的关于人类和大脑的秘密,其精细程度是成像研究无法达到的。
Mr. Molaison 经常给研究人员带来惊喜。比如说,他显示出他可以记住某些新的东西。他能够完全重现他在东哈特福德Crescent Drive的房子的楼层地图,做完那场手术后,他和他的父母曾在那里住了很久。
这些惊喜使科学家发现Mr. Molaison 的大脑在丧失了记忆中枢后,借用了其他的临近区域来弥补记忆功能。现在研究人员可以更仔细地研究这些以往知之甚少的区域了。其中有一个名叫旁海马质层的区域,是负责“似曾相识”的那部分记忆功能的,就是那种似曾见到听到,但又不能明确辨认的感觉。
纽约大学的神经学家Dr. Lila Davachi 说,“我们对记忆已有一定了解,而且就快找到我们要的答案了,H.M. 的大脑对我们弄清楚这一块的记忆功能分配真的帮助很大。”
^
某天,我在疗养院里和他的护士谈话,问了一下关于他的几个问题。谈完以后,她走进他的房间告诉他,我刚和你的一个从波士顿来的朋友聊天了,她叫Dr. Corkin 。之后H.M. 说,是不是Suzanne ?
(一段笑声)
Dr.CORKIN:这实在是令人惊讶。他不知道我是谁,不知道我来干什么,也不清楚我和他的关系。但他听到我的姓后可以联想到我的名字。这不得不说是他给我们的另一个惊喜。
NEWHOUSE:不知从哪里,这个无法形成新记忆的人也找到了学新东西的方法。这个惊人的发现彻底改变了我们对学习和记忆的处理的了解。在研究H.M. 之前,脑科医生们以为所有记忆全部在同一个地方进行处理和转移,而它们也都只存在于大脑的同一个位置,我们可以称之为“单一地址”。
现在,通过医生们对H.M. 的研究,他们认识到记忆实际上远比想象的更灵活。他们发现大脑由许多个不同的记忆系统组成。当我们想起早餐吃了麦片粥,伊利诺伊州的首府是斯普林菲尔德,还有这两个钢琴键是C 和D 这样的事时,我们在使用陈述性记忆。
(一段钢琴声)
NEWHOUSE:还有一种记忆叫非陈述性记忆。我们在系鞋带,骑自行车,熟练地弹C 音阶而不去想单独的某个音符的时候会使用到它。
接下来再有请Dr. Corkin。
Dr. CORKIN:我们认为回想是一个主动的过程。这时你所做的不仅是进入你脑中的几个储存特定记忆的细胞那么简单。实际上一个记忆是在储存于大脑不同位置的信息的基础上创建的。H.M. 手术后,我们从他那里了解到大脑中有多个长期记忆系统位于大脑不同区域,分别负责不同的事。我觉得他的例子启发了全世界的临床医生和科学家,让他们去找自己的H.M. 并由此找到奇妙的发现。这就像是在进行一场没有终点的心智和大脑的探索之旅。
NEWHOUSE:即使有了这些发现,科学家承认他们还是不知道记忆究竟是怎样运作的,比如记忆是怎样从大脑不同部分取出后再合并在一起。但是他们至少认识到大脑进行的这些过程远比原来想像的复杂。其中的相当一部分功劳归于H.M. 。即使H.M. 没法去回忆这一生经历的美好时光,他的精神也没有被大脑的这个缺陷压垮。
====================
桑人使用的语言里面,已经消失的!Xun 和即将消失的N/u都得到了比较好的研究。这两种语言里面,使用了140种的不同的发音方式。想象一下,对于一个单一的音节,你能想出这么多种的发音方式么?这基本上就是人类可以发出的声音种类的极限了。这两种语言里面,绝大多数的单词还都是单音节词。猜想一下最早的语言应该是什么样子的?在语言刚刚诞生的时候,单音节显然要比多音节容易得多,可以想象那时的人们会使用各种各样的发音方法,来构置基本词汇。这些都意味着,如此简单的桑人的语言是非常接近最早期的人类语言的。那么桑人的语言有没有可能就是最早期的人类语言之一呢?
对于一个民族的语言进行研究,可以大致了解这个民族的很多历史。这种研究的一个成功的例子,是研究吉普赛人的起源。吉普赛人在不停的迁移的过程中,从所停留的地方不断的吸收新的词汇,也改变着自己的语言。通过对吉普赛人的语言的研究,发现吉普赛人从印度经过小亚细亚到欧洲的迁移过程中,没有吸收到任何的阿拉伯语词汇,那么就可以认定吉普赛人在小亚细亚的时候,肯定在阿拉伯人控制这个地区之前。按照目前主流的人类起源单源说,现代人类的语言存在着共同起源,随着时间和地域的分隔,逐渐发展成为出不同的语言。这样研究各种不同语言之间的关系,也许就可以研究不同的人群的变化历史。
一万年前桑人为什么改变这种墓葬方式,不知道。两千年前为什么又放弃了墓葬方式,也不知道。这些在山洞里面的墓葬为研究桑人以及非洲南端的民族迁移提供了很多资料。不仅仅这些山洞后来仍然有人居住,而且在山洞里面,还发现了大量的岩画。甚至在很多的墓穴上面,就有岩画,有的被怀疑是墓志一类的东西,像是特意放到墓穴上的。岩洞里面还有不少随葬品,以及生活用品。比如大量的珠子,鸵鸟蛋壳、海龟蛋壳的装饰品,赭石,贝壳的装饰品等等。随葬品不能说是随意放置的。里面很多的物品都被桑人视为通向灵界的媒介,比如水晶,还有与水相关的物品。到现在,南非的一些部族,主要是桑人,仍然认为水面是神圣的,不可侵犯的,其领地的圣湖外人是绝对不能染指的。在桑人的传说里面,进入水面之下,就通向了另外的世界。这些放在墓穴上的岩画,与画在墙壁上的非常像,大部分的画面,记载的是trance 。这是桑人的一种传统的宗教仪式,一群人绕着火圈转,时间长了就有一些奇怪的现象,出现幻觉,昏厥等等,到现在桑人社会仍然有这个传
统,这里翻译成幻舞。
幻舞与桑人的宗教有非常直接的联系,也使得非洲其他部族的人认为桑人是通灵的。岩画的年代表明,幻舞已经进行了至少八千年。桑人认为在物质世界之上,之下,都有着不同层次的宇宙。当一个巨大的牛羚Eland 被杀掉之后,通过牛羚的血,这些不同的层次之间的联系就建立起来了。在杀死牛羚的仪式上,巫师就要领舞,建立这个宇宙之间的联系,引导众人进入灵幻世界。牛羚并不是唯一的媒介,在不同的地方,使用的动物并不相同,比如在津巴布韦的桑人部落,灵媒是大象,有的地方还使用狮子等等。牛羚也好,大象也好,血液都是重要的物质,在所有桑人的宗教场合,包括年轻人的成人典礼,婚礼等等,都需要使用。幻舞举行的时候,部落的人聚集在一起,围在篝火周围,巫师就开始领舞,在简单的节奏的伴奏下,围着火堆转圈。个把小时之后,巫师开始出现异样,走路已经无法继续,需要跪在地上或者爬行,会出现昏厥,流鼻血。这时候,巫师眼里面的人,会出现动物的头型。这些流着鼻血的具有动物的头的人体,在桑人岩画中经常可以看到。达到这个状态以后,巫师就通灵了,就可以进行医疗,祈祷,特别是祁雨。桑人的地盘被其他民族占据之后,仍然能够保持存在,重要的一点,就是因为桑人是南部非洲几乎所有其他非洲民族的灵媒,扮演着通灵和祁雨师的角色。对于后来的农耕文明来讲,雨是多么重要!
桑人的幻舞现在仍在进行,所以现代的学者对桑人的幻舞有不少研究。幻舞中出现的各种现象,神经心理学家们已经有了科学的解释。实际上类似的现象在很多其他情况会出现,比如疯狂的跳舞、音乐等等,由于桑人无法解释这些幻觉,自然,就将其与神联系起来,这大约就是原始宗教的起源。不过,科学的解释,总是令人觉得没意思。
除了桑人的岩画,非洲的狩猎采集民族的岩画另外还有两个大类,一个是中非的,一个在坦桑尼亚。中非的岩画与桑人的岩画非常不同。中非的岩画是手指绘制的,线条就与桑人的作品不同,几何图形也非常多,见不到精美的人物和动物的描绘。大约10%的岩画有动物造型,肚子往往非常突出。坦桑尼亚的岩画则是另外一个风格,表现的有很多动物,也有人,变形同样严重,人一般是细长的,也有个别的人有动物的头。
-------------------------
有一个理论认为,现代的智人在演变过程中逐渐产生了允许抽象思维的神经系统,然后,这个新的物种就替代了其他的物种。但是这个过程需要的时间比较长,而实 际上,现代人替代其他物种是在比较短的时间内完成的。所以就有另外的理论,认为这种可以进行抽象思维的神经系统,是产生智人这个物种过程中的副产物。这个 过程应该发生在至少距今10万年前,因为在黎凡特地区发现了这个年代的智人。实际上,可能这过程会发生在将近20万年前。这个潜力,一开始的时候并没有得 到开发。这个说法也有证据,黎凡特地区智人与同样生活在中石器时期的尼安德特人共存或者争夺了五万年,就说明了两者类似的认知能力。只有在新石器时代到 来,解剖上现代的人类拥有了全新的认知能力之后,这种共存就不能再存在了。这个时候一定发生了什么事情,使得这种认知的潜能得以开发,并且立刻表现出与其 他物种相比的优势。这些事件的代表,可能就是语言的产生。
人类与其他动物不同的一个重要特点,就是具有完全语法的语言。虽然很多动物也可以发出声音,进行简单的交流、报警、示爱,甚至号召进行攻击,但是只有人类 生下来就具有将知识和经验转化为各种各样的具有不同含义的句子的能力。有了这个能力,人才是人。这个能力可以将我们的知识和经验分类,能够更加有效地整理 我们的知识。有了这个能力我们就可以交流,对事情进行计划。有了这个能力就可以将关系扩展到更广泛的人群,与
血缘之外的人群进行联系,建立团体。有了这个 能力,人们就可以讲故事,有新的想法,创立宗教。有了这个能力,人们就可以去思考:人是怎么来的呢?
一般认为,在六万年前,我们的祖先就已经具备了这个能力。这个时候,这个祖先应该还生活在非洲。这个能力应该是在这之前产生的。究竟在此之前多久,还有很 多争议。目前很多人接受的观点,认为这种能力应该出现在七万到七万五千年前。一些学者根据17到20万年前的工具的发展,认为语言在那个时候就已经产生。 的确,12万到20万年前发现的古人类化石,与现代人的解剖结构已经非常相似,应该已经具备了产生语言的解剖结构。实际上相信50万年前,人类的祖先就已 经可以发出一些声音进行简单的交流了,只不过人们认为那个时候的行为与现在动物之间的交流还没有多大区别。更加可能语言能力出现在6-9万年前。这个期间 人类的文明有了进一步的发展,人类的认知能力有了进步,而语言的产生,就可能是认知能力进步的重要部分。很可惜,没有直接的证据能够描述语言的发展,所有 的证据都是间接的。人类最古老的具有符号认知能力的证据,就是Blombos 出土的据今77000年的岩画。
还有其他的间接证据。前面提到多次了,在黎凡特地区,发现了大约10万年前的智人遗迹。这个时候气候比较温暖,适合在温暖地区生存的智人,在这个时候可能 就来到了尼安德特人的地盘。尼安德特人比较适应寒冷的气候,可能不能适应气候的改变,智人有可能就在这个时候替代了尼安德特人。7万年前,气候再次变冷, 适应寒冷地区生活的尼安德特人就又回到了黎凡特地区,而这个时期就没有了智人的踪迹。很显然,在10万年前走出非洲大陆的这一支,与尼安德特人相比,并没 有明显的优势,在不利于自己生存的气候条件下,就要被尼安德特人取代。但是,在5-6万年前,当具有了现代的认知能力和语言能力的人类再次走出非洲之后, 这种现代的思维能力的优势,导致的更加有组织、有效率的生活方式,就导致了其他人类物种的灭亡,导致了智人走遍全世界。
有学者认为,全世界目前所有的语言,都可以归到两个大类里面。一个是科伊桑Khoesan ,仅仅出现在东非和南非,比如目前在纳米比亚的Nama 语,南非 开普地区已经灭绝的/Xam语,还有坦桑尼亚中部的Sandewe 语等。因为目前这个超语系的人口地域分布很广泛,所以推测这个超语系曾经广泛的分布在非 洲大陆,但是这个超语系并没有在其他大陆上出现。世界上其他所有的语言,都可以归到另外一大类里。讲这一类超语系的人口,既出现在非洲,也出现在非洲之 外。按照这样的观点,科伊桑语言就代表着早期人类没有走出非洲的那一批所讲的语言,而这两个大类语言的分离,就应该出现在一部分人走出非洲之前。这些走出 非洲的人把语言带到了世界各地,同时这个语言也在非洲逐渐发展。既然如此,语言就应该是在智人走出非洲之前形成并分裂成为两个大类的。大约在6万年前,人 类开始走出非洲。语言学家认为人口的迁移,也伴随着两种语言的迁移。沿着亚洲南海岸迁徙的人们,最终到达澳大利亚,讲的是与非洲的Niger- Kordofanian和Nilo-Saharan 相似的语言。其他地方的人们,讲的是类似Afraisan 语族的语言,遍布了欧亚美洲。这两个超语系现 在仍然在非洲可以找到分布。
不过关于语言的研究目前仍然争议多多,特别是很多古老语言的灭亡,给这方面的研究带来了很大的困难。唯一肯定的,就是在六万年前,人类走出非洲的时候,已 经有了语言能力。语言能力是需要遗传的,也就是应该有语言基因。2001年,有学者把FOXP2基因认定为与语言相关的重要基因,负责说话时候的词汇的组 织。这个基因还有很多其他的功能,比如控制心脏的工作,语言的速度控制,还有大脑的一些相关功能等等。2002年,有学者认定这个FOXP2基因对于人类 形成语言能力是至关重要的。一个基因的形成年代也是可以推
断的,这个FOXP2的形成年代,被认定是1万到10万年前。一些关于10万年以前的古人类的研 究认为,大约在30万年前,人类的解剖结构基本上就已经可以适合讲话了,而大约在10万年以前,最晚在7万年前,相应的神经结构也应该已经准备好了。这 样,一旦FOXP2基因出现并激活,那么人类就拥有了语言能力。这个7万年的时间,与Blombos 发现的最早的抽象作品,基本上是同时代的。这种行为, 很多学者愿意把它和语言的产生联系起来,认为语言产生之后,很自然的就会产生抽象思维和艺术需求。当然,岩画的普及,大约还要等到四万年以后。
最早的语言是什么样子呢?最古老的语言不可能是复杂的,大约只能是简单的不同的发音方式,来代表不同的含义。但是,究竟是什么样子的呢?这个世界现存的语言里面,有没有与最古老的语言还有联系的呢?