为什么人工智能难以达到儿童语言水平？

网友投稿 2019-08-22 13:28

作者：蔡清来源：一席（yixiclub）每一个小孩语言爆发期的早晚会非常的不一样，从一两岁到三四岁都有可能。研究者注意到的一点就是，生活在二语或者是多语家庭中的小孩，通常开口会比较晚一点。这个过程中涉及到一个非常重要的能力，就是认知控制。这种能力通常是要到一岁多到两岁才能较好地发展起来，所以如果是一个在双语家庭长大的小孩，他开口晚其实是有道理的，因为语言和认知在发展上是一个相互制约的一个过程。儿童如何学会语言大家好，我是蔡清。刚才大家看到的那只学识渊博的非人灵长类朋友是倭黑猩猩。它是在进化树上离我们最近的邻居。和大家一样，我也惊叹于它的词汇量。作为一个四岁孩子的妈妈，我当时心中在想，不知道是它认识的词多，还是我儿子认识的词比较多。幸运的是，已有研究告诉我们，一个四岁的孩子大概可以认识2000到4000个字，存在个体差异，但大致和这只倭黑猩猩差不多。那么，这是不是说他们具有相似的语言能力呢？在第一次想到这个问题的时候，我外甥在四岁的时候讲的一句话出现在我脑中。他那个时候跟其他小孩一样，也不愿意去上幼儿园。他跟他妈妈是这么表达的：“在幼儿园里，孤独就像一张网，网住了我”。倭黑猩猩不会“说”话，就算能发出声音，我相信它也没有办法表达出这样一句意义和感情如此丰富，并且句法如此完整的句子。所以讲一句话其实特别不容易。除了发音的部分以外，我们还要知道词汇的词义，要了解句法结构，还要知道在什么样的情况下如何去运用这些句子。语言能力是不是人类所特有的？任何一种语言都需要两种基本的能力。第一种是统计能力，在谈话过程中对语音信息不断的进行统计。另一种能力是掌握声音序列中的抽象规则，并且一般化这些抽象规则的能力。在我们进行语言研究的时候，经常谈到的一种“模式动物”就是鸟类。2012年的一篇研究论文里，让一种会唱歌的鸟儿学会“啾啾啾”的声音序列，然后发现如果这个声音序列发生变化，鸟儿可以发现。于是研究者得出鸟类可以习得序列规则的结论。但是大家可能会发现：不对，任何一个鸟，可能在它的“鸟生”中只需要记住十句句子，所以只要这句话它没有听过就可以了，它并不需要真正的运用到规则。在这一点受到质疑之后，大家就很长时间地进入了一个争论，直到灵长类的研究回答了这个问题。最近，我的一位同事，王立平，他的课题组做了这样一个研究。这是猕猴，他们发现这种小猴不但可以学会示范的序列，而且在一年多里，经过一万多次的学习以后，它学会了一件很复杂的事：你随便给它点一个序列，它可以倒着顺序点出来。也就是说，它不但学习了这个序列，还可以反过来对它进行某一种抽象的计算。看了这个研究，那个关于人类特殊性的问题现在应该这样问：人类的语言在何种程度上是具有特殊性的？我们常常说，人类个体的发展是整个种系发育的一个缩影。今天，我们来看一看小孩，看看人类从出生时候开始是怎么学习语言的。初生儿：惊人的统计学家在胎儿期间，大脑非常快速地增长。到婴儿出生时，大脑是成人大脑的1/4到1/3这么重，大概是300多克。可以看到，婴儿出生时脑的沟回形态已经跟成人非常相似了。我们都说婴儿出生的时候就像一张白纸一样，其实完全不是这样。我的一位同事更是说过非常绝对的话：每个婴儿在出生的时候，已经是一个贝叶斯统计机器。脑成像的研究发现，在婴儿出生不久，如果听到的是自己妈妈在对他说话，比起一个不认识的女性对他说话，他左侧大脑的语言区就有更多的活动了。他不但可以辨别出“这是我妈妈”，还会努力去理解妈妈到底想要跟我说什么。甚至比这更早。刚才谈到的是婴儿早期，下面这个研究是一位同事Ghislaine Dehaene-Lambertz对30孕周出生的早产儿进行的。 30孕周的时候，大部分的婴儿还没有出生。这时，他们的右半脑已经可以检测出这是爸爸还是妈妈在对我说话；同时，他们也已经可以分辨像“ba、da”这样不同的声音，左右两侧大脑都参与了分辨音素的这个活动。最初一年都是世界公民一些研究者这么说：孩子出生之后的最初一年多都是世界公民。什么叫世界公民呢？举个例子，南京人可能觉得“n”和“l”是很难分的。其实这种现象在各种语言中都有存在。对一个英语母语的成人来说，很难分清“qi”和“xi”。但是婴儿并不是这样的，在婴儿六个月的时候，只要两个音之间存在差异，不管这个差异在不在母语中出现，他们都可以立刻把这两个音分开。那到什么时候他们没有了这个能力呢？大概是在一岁以后。你看这个讲汉语的小孩，他可以继续很好的分辨“qi”和“xi”，但是在十个月到十二个月的时候，在美国生长的婴儿就不再具有区分这两个的能力。这段时间究竟发生了什么呢？Patricia Kuhl的团队就做了一个研究。他们要看看在这段时间让美国婴儿保持接触普通话会怎么样。他们找了一个讲普通话的女士，常常跟小朋友说汉语，里面就有“qi”“xi”，像“西瓜”“气球”这样的词。他们发现在这段时间接触到“qi”“xi”这两个音的美国婴儿，就跟讲中文的婴儿一样，在第一年末的时候还是可以非常好地区分这两个音的。之后研究者又想，是不是可以偷偷懒，把跟婴儿讲“qi”“ xi”这样的活动拍成视频录下来，每天给他们看就好了。他们意外地发现好像不行。有真人和婴儿交流的，可以起到加强语音识别的效果，但如果只用录下来的视频，就完全起不到这样的效果。所以得到一个结论，在早期语音学习的过程中，真实的社会交往起到了非常重要的作用。婴儿如何学会最早的词汇？在语音学习之后，小朋友进入了一个新的阶段。在六个月到九个月时，很多爸爸妈妈那时都还没有意识到，发生了一件非常重要的事情：婴儿开始理解他们人生中最早的几个词汇了。在他们第一个生日之前，一个婴儿，不管他使用什么语言，大概已经可以理解50个词汇。我们也许觉得理解词汇这个事情容易，就是要把一个声音跟一个形象连在一起。但是科学家发现并不仅是如此。实验室的研究发现，在婴儿四个月的时候，让他看一个特定的形状和听到“kiki”，他就可以学会这个尖尖的形状和一个特定的词“kiki”有关系，而“bubu”和这个圆圆的形状在一块。所以婴儿在四个月的时候就可以把声音和形状联系起来。为什么要再过好几个月，婴儿才可以学会最早的词汇呢？其实我们如果去细想会发现一个事情，就是婴儿学会词汇的过程，并不简单是一个把声音和形状连起来、完成联结学习的一个过程，它需要一个非常重要的东西，就是我们叫做共同注意的社会能力。如果你在小孩六个月以前指着一个东西对他说，“你看，杯杯”，他会一直盯着你，根本不会跟着你的手转过头去看旁边的那个东西。除非把东西放到他面前他才会注意到。共同注意的能力，就是指可以跟随别人的手势或眼神，了解对方注意力在什么地方，并把他的注意力也跟过去的过程。反过来，他也明白，他指一指，就是叫其它人注意那里的一个过程。这样一个能力要到六到九个月的时候才发展出来。这种共同注意的能力，可能会制约到儿童的词汇学习。一旦获得了共同注意的能力，其实还有很困难的一步，就是他要把声音跟一些具体或者抽象的意思联系起来。你想一想，它并不是简单的联系。婴儿听到或者想到“飞机”的时候，可能是他的玩具飞机，可能是书上画的一个飞机，还可能是天上各种各样不同形状的飞机。他要知道这些东西都是飞机，需要抽象的能力。想一想“爸爸”“妈妈”这样的词，情况其实更复杂。因为妈妈既可以是自己的妈妈，也可以指别人的妈妈，还可以指妈妈的妈妈。所以词汇的学习远远不是这么简单。我们刚才说，小孩在大概一岁的时候，就学会了人生的前50个词，接下来他就慢慢开始理解短语。比如说“狗”，可以有“黄狗”“大黄狗追小狗”，还有“所有的狗”。我们讲的时候觉得特别简单，但对小孩来说可不是这样子，他需要能够把这些概念跟概念联合在一起。而且在婴儿明白“追狗”的时候，要明白那个狗是被追的对象，而且要知道，“追狗”前面还有个主体，是宝宝去追狗或者是妈妈去追狗，所以在这个过程中他也要学会语法。而有的表达像“有的狗“、“所有的狗”，则需要他的小脑袋去做更多的逻辑运算。语言的爆发期到一岁多的时候，儿童已经掌握了上面这些其实非常不容易的语言能力。在任何一种语言中，大家都会注意到，大概是在一两岁之后的某一个阶段，小朋友突然就像超能力附体一样，开始出现了一个语言的爆发期。我的孩子也是这样。他在一岁半时还很让人着急，说不了几个词。在一岁七个月的时候去了托班，第一周礼拜结束时就变成了一个话痨，可以用各种复杂的话没完没了说上非常久。为什么会出现这样一种情况？其实在语言爆发之前，婴儿的小脑子里面已经做好了几个准备。首先是刚才我们说的，在那个时期，他已经至少懂得了一两百个甚至更多的词汇；在不停地听大人讲话的过程中，他已经知道了一些基本的词跟词之间的顺序以及关系；再有，他每天看着爸爸妈妈对他说话的时候，也在学习怎么样来运用他的发音系统，并且通过自己的调整和大人的纠正，能够比较准确地把这些音发出来。但除此之外更加重要的一点是什么呢？就是社会需求。他本来在家天天跟爸爸妈妈待在一起，觉得我头一动，他们就知道我要那个了。头一动，就问宝宝你是要喝水？宝宝你是要玩具车吧？然后有一天去了托班或者去了外面，他就发现太奇怪了，动了半天头，其他人都不知道我想要什么，我只能跟他们说话了……所以，社会需求其实是语言爆发的一个非常直接的诱因。但是每一个小孩语言爆发期的早晚会非常的不一样，从一两岁到三四岁都有可能。研究者注意到的一点就是，生活在二语或者是多语家庭中的小孩，通常开口会比较晚一点。大家可能说，没关系，我们家都是中国人。但是想一想，比如在上海的家庭，可能妈妈跟宝宝说的是上海话，爸爸跟他说的是普通话，爷爷奶奶跟他说的是方言。从语音输入的角度来说，他同样也是一个多语者，或者准确地说是一个多言者。这个时候需要什么？他的小脑袋里面就是不停地统计，做了好几套系统放在那个地方。现在转向妈妈了，要说上海话，要把其他的系统抑制住，单单激活上海话的系统。等一会儿看见爷爷了，他得切到方言系统。这个过程中涉及到一个非常重要的能力，就是认知控制。这种能力通常是要到一岁多到两岁才能较好地发展起来，所以如果是一个在双语家庭长大的小孩，他开口晚其实是有道理的，因为语言和认知在发展上是一个相互制约的一个过程。所以爸爸妈妈可以不用着急。而且有研究发现，橘黄色的部分是双语者在成年之后，比单语者有一些更强的脑网络连接。这可能表明：双语者从小到成年到老年，都有更好的认知控制能力和认知灵活性。接下来，在讲英语的社会中，我们团队做了一个关于华语家庭的研究，发现一件非常有意思的事情，就是这些华语家庭中，父母跟小孩说英文的比例，直接决定了孩子长大后的英语能力以及认知控制的能力，但父母的英语水平对孩子成年后的英语水平并无影响。很多爸爸妈妈想跟小孩讲英文的时候，都担心我的英文太烂了。这个研究也许可以告诉我们，其实不用担心，放心去跟你的小孩讲你不太完美的英语。童言童语我刚才讲的语言发展过程看起来很轻松，但是我们都会注意到，小孩在习得语言的过程中会有很多有意思的错误。比如在宝宝很小的时候学会了一个词，“狗狗”。然后他会指着一只猫，“狗狗”。大家都哈哈地笑说，你连狗跟猫都分不清楚。但是你仔细去想一想，在概念最先形成的时候，这是挺不容易的事。小孩是怎么认知狗狗的？所有身上有毛的、有四条腿的、会跑的动物，都是狗狗。我父母到现在有时还会嘲笑我幼年时的一件事情。他们拿了什么东西，我很想吃，就对他们大喊，“给你吃，给你吃”。然后他们的朋友来了都说，你们家小孩真好，这么小就懂得孔融让梨。其实完全不是这样的，这是因为我开口比较早。你们想想，要知道是“给你吃”还是“给我吃”，首先得知道“我”是我吧。我怎么知道这是我呢？需要对自我的认知。对自我的认知，最典型的研究就是镜子研究，你能不能知道镜子里的人就是你自己。研究发现婴儿大约在十到十二个月的时候才知道镜子里的人就是我。除了人以外，刚才说的灵长类、鸟类、还有聪明的大象和海豚，都能发展出这个能力。人类差不多一岁的时候才能知道这个就是我，然后才知道，喔，语言的那个“我”指的就是镜子里的那个我。所以如果婴儿讲话开始得非常早，那时他的自我认知还没有发展好，也就没法正确的使用代词。家长常常担心小朋友开口晚，但反过来说，开口晚的孩子在开口时很多认知和社会能力已经发展成熟了，就会犯更少的错误。我儿子小时候常常过度“创造性”的使用词汇，他爸生气了，他会说“你怎么老生老气”。小孩在刚刚学词汇的时候，都会有这样一些词汇的误用。到两三岁左右，刚刚过了“terrible two”的时候，常常是刚去幼儿园时，很多孩子身上就会发生这样一件事情：他学了很多脏话，特别爱骂人，回来说“你这个笨蛋”“你这坨便便”。爸妈就很生气，说你怎么一去幼儿园就学坏了，谁教你的，跟哪个小朋友学的。但不管你怎么讲他，孩子就不停的给你重复这几个字。为什么会这样呢？其实是因为他讲了这话以后，一看，爸妈反应很强烈，然后他就觉得继“no no no”以后，第一次感受到语言这么有魔力。小孩第一次发现最有魔力的词就是“不”。你跟他说什么，他说“不要，不要”，发现他可以拒绝你们了。接下来他发现一说“笨蛋”的时候你们就这么起劲，所以这种情况下父母当时可以置若罔闻，不管他怎么说，都不要睬他，事后再去纠正他就可以了。为什么人工智能难以达到儿童语言水平？讲了幼儿语言发展的这些事，大家可能会感兴趣的另一件，为什么从70年代开始，这么多年以来，人工智能学“讲话”到现在都难以达到一个儿童的语言水平？从心理学和发展科学的角度，我们会注意到一个非常有意思的点：人类是多感官的进行语言学习，而不仅仅是局限于语言本身。我站在这讲话的时候，大家会借助视觉的信息、听觉的信息，把我说的话整合，再借助已有的经验和当下的情境，试图明白我的意图。这些是人工智能自然语言加工还不能做到的。目前人工智能的自然语言处理主要还是基于对大量的文本通过不同的算法/解析器进行大量训练实现的。测试人工智能的语言沟通能不能够达到像真人一样的时候，一个经典的方法是图灵测验。这是一个黑匣子测验：在看不见对方的情况下，测试者通过随意提问，判断对方是否是人类。虽然也许不存在最合理的测试方法，可以确定的是，至少到目前为止，人工智能还不能够真正的理解语义本身。最近几年人工智能的一些研究者们不约而同地注意到了这个问题。去年，几篇人工智能方面的重要论文都用到一种新的方法，让机器像小孩一样的去学习语言。这些研究者做了一些小视频，比如一个人喝水的视频，字幕是“我很渴”。他们同时做了一个视觉的解析器和一个语义的解析器，通过同时训练视觉信息和语言信息，达到多感官的整合。也许心理和发展科学、神经科学的前进，可以给人工智能带来一些更好的启示，也许有朝一日机器人真的有办法跟我们进行更好的沟通。阅读障碍我们刚才讲的都是“听、说、读、写”里面的听、说部分，读、写的部分其实是要到五岁的时候才会。这三位著名的人物大家都认识吧？他们有一个共同特点，就是都有阅读障碍。他们的一般认知都没有什么问题，而且在某一个领域中都特别有才能，但是他们阅读的时候看得特别慢，容易读漏、读错、或者读成相似的词。研究者发现这可能来自于语音编码、语音-视觉联结或者视觉词汇加工方面的一些不同的问题。有爸爸妈妈可能会觉得，我孩子刚刚开始学读写字，好像也有这个问题。我们来看看这个研究，它让一个五岁的小孩跟一个六岁的小孩分别在一个点旁边写他们的名字。 Lissle五岁，Meggie六岁，点右边有足够位置时，他们都写的很好。而当点右边没位置时， Lissle就自发把名字反过来写了。Meggie六岁，她就不会这样做。为什么呢？很多小孩刚开始学阅读都会出现这样的情况，事实上它跟人类的视觉恒常性有关系。所谓视觉恒常性，就是你看到一样东西，比如一辆车，不管你从哪个方向看它，你都会一眼就说这是辆车。这种能力不光是人类所特有的，大部分生物都有，而且这样一种能力对于生存非常重要，老虎冲你跑过来的时候，你哪里还管它是左还是右。这个能力在阅读习得中，是所谓有得就有失。我们看b或者d的时候，想成一个物体的话，就是同一个物体的翻转。还有p和q也是。所以事实上，我们需要在阅读的过程中克服掉这些视觉恒常性，才可以更好地学习到阅读的能力。语言是不是真的存在关键期？讲到这么漫长的语言发展过程，我们经常会听到一个词叫做“语言关键期”，这个词最早出现于上世纪70年代，是莱纳伯格他们提出来的。他基于早期的一些动物研究，把这些动物研究的结果进一步应用到儿童身上，然后结合他们当时的一个发现：青春期之后再发生脑损伤的人比较不容易语言恢复而有某一种失语症，提出了人的语言学习是有关键期的。可能在座的每一位都听到过学校的老师、教育机构，反复地说“语言关键期”。身为家长，有时候就会很焦虑，生怕小朋友在什么时候错过了语言发展的某一个关键期。我觉得语言关键期在最近一些年被过度地演绎了。其实它是叫“语言关键期假说”，所谓假说，就还不是一个非常确定的事情，事实上语言关键期在研究界是非常有争议的。语言是不是真的存在关键期呢？我们比较肯定的是语音是有关键期的，所以会建议可以在小朋友一岁之前给他听外文、听音乐，能起到磨耳朵的效果，这个作用确实是有的。但是对于更加高级的语言功能，比如语义、句法，其实有很多科学家，包括我在内，认为并没有足够坚实的客观证据支持这件个假说。也就是说在座的每一位，你要是现在决定要学俄罗斯语或者是希伯来语，都不太晚。除此之外，还有一点值得一提的，就是我们在讲关键期的时候，常常在乎的是在什么时间点以前，事实上还需要注意它应该在什么时间以后。比如刚才说词汇习得的时候，如果小朋友共同注意的社会能力还没有形成，而过早地去推进后面语言能力的发展，可能就会适得其反。最后我想跟大家分享我的一位朋友讲的一句话，他说早教机构最大的竞争者就是高知识水平的全职妈妈。这句话不全然对，但是我觉得在早期教育中，一个是了解大脑本身发育的规律，另一个是给予孩子高质量的陪伴，给他们充分的社会交往，这对他们的语言和认知能力的发展是最最重要的。好，谢谢大家。

--end--

声明：本文章由网友投稿作为教育分享用途，如有侵权原作者可通过邮件及时和我们联系删除：freemanzk@qq.com