婴儿与人工智能:探寻共同的语言

发表时间: 2024-07-11 12:17

文 | 追问nextquestion

我们在幼年时究竟是如何学习的,对于该问题的研究,不仅能让我们理解智力发育的机制,还能启发机器学习的训练算法设计。

在24年2月发表的一项Science研究中[1],研究人员通过婴儿携带的摄像头录制的长达61小时视频,考察孩童是如何将语言和观察的物体联系起来的,并构建了描述学习过程的对比学习模型。与之类似的,23年的NIPS论文[2]发现,婴儿可以经由自监督的模式,自发从视觉输入中涌现出抽象表征。然而接下来的问题是,婴儿是如何一步步做到这一点的?这正是本文要介绍的新研究所回答的问题。

Anderson, Erin M., et al. "An edge-simplicity bias in the visual input to young infants." Science Advances 10.19 (2024): eadj8571.

2024年5月10号的Science Advance论文[3]采用了相似的实验设计,即在婴儿头上安装的摄像机,直接观察和分析他们日常环境中的视觉刺激。研究通过比较婴儿观察的图像与成人的感知,发现婴儿在日常环境中经历了独特的视觉体验,这种体验由简单、高对比度的图案及其边缘组成。婴儿天生被日常环境中的高对比度图案所吸引,这些图案对他们大脑中视觉模块的发育至关重要。

图1:实验设计,婴儿在视觉发育早期,倾向于观察b图中那样由几个高对比度的边缘组成的图案。来源:参考文献3

认知科学传统的假设是视觉输入对每个人基本相同,无论其发育阶段如何。然而,新研究根据10名3-13周婴儿(5名男性)以及对照组(10名31-70岁成年人)头戴相机记录的数据,发现视觉输入随着发育而变化。它对每个人来说都不是一样的。非常年幼婴儿的日常生活输入似乎是那个年龄特有的。他们更喜欢注视简单、高对比度的场景(图2),如宽大的黑色条纹和棋盘格。

图2:婴儿偏好对比度高,边缘简单的视觉输入。来源:参考文献3

按照简单与否,对比度强烈与否,研究者划分了4个象限。他们发现婴儿最喜欢的是具有简单边界,又明暗对比强烈的图案(图3)。这下你明白了婴孩转动他们的小脑袋在找什么了吧。

图3:不同特征组合的图像,婴儿和成年人观察比例的占比。来源:参考文献3

考虑到处理视觉皮层的V1区的功能是提取局部边缘,供给后续的皮层以够建有意义对象和场景。婴儿的视觉偏好,是否能用于指导视觉模型的训练?2023年的一项NIPS论文[4]发现,相比让视觉识别模型使用用成年人观察到的随机图案进行训练,如果使用类似婴儿发育早期观察到的图像进行训练,人工智能系统在学习后识别视觉图像方面的表现更出色。这项研究同样是利用婴儿的头戴相机拍下的图像,只是那时候研究者还不清楚婴儿的视觉偏好。而新研究则暗示,对简单性和高对比度数据的偏好,可能有利于在视觉发育的早期对视觉皮层V1区的训练。而用于AI识别的卷积神经网络架构则是模仿人类视觉皮层设计的,因此展现出了类似的特征。

考虑到该研究的被试,是美国印第安纳伯明翰大学教职员工的子女,他们所处的是一个人工构造的非自然环境。因此该文的结论是否只适用于生长于人工环境中的婴儿,而不具备跨文化的普适性?对此的反驳来源于23年的研究[5],该研究对比了印度西奈一个小型拥挤的渔村里婴儿的头戴摄像头观测数据。西奈电力有限,大部分日常生活都在户外进行。结果显示,西奈婴儿观测到的数据与西方的数据并没有统计学上的差异,两地的小孩都偏爱简单,高对比度的图案。

基于这项研究,我们可以根据婴儿视觉的观察模式,去及早识别出如白内障、斜视、屈光不正和上睑下垂等发育早期就会出现的疾病,并及早干预。这些疾病会通过干扰视觉皮层的输入来破坏人类视觉发育,导致视力异常。未来可以通过让婴儿佩戴摄像头,通过算法检测婴儿是否没有表现出对简单且高对比度图像的偏好,从而以低成本对相关疾病进行鉴别。

像马,羊这样的哺乳动物,一出生就能跑。然而,人类婴儿需要大约三个月时间才能听和看,之后还需六个月才能稍微控制姿势和头部。为什么人类需要这么长的时间来让神经系统发育成熟?该研究提供了一个可能的解释,即视觉系统会先训练用于识别边缘的V1区域,之后在训练产生更抽象表征的V2-V6,而这样缓慢的、逐步的优化方式有助于构建一个更加智能,更为灵活的视觉系统。

按照上述推论,可以让大猩猩等灵长类动物的幼崽在其视觉发育的关键时期带上摄像头,去考察其是否会具有类似人类婴儿的视觉偏好。虽然目前尚未找到这样的研究,但考虑到2020年一篇对包括体型最小的灵长类动物鼠狐猴等多种灵长类视觉系统的研究[6],研究者发现从最大的到最小的灵长类动物,视觉处理单元在大脑中的排列方式完全相同的,遵循着同样的数学规则。

因此有理由推断,有可能在大猩猩等灵长类中观测相似的规律。而对诸如马,羊这种生下来就能运动的生物,则可能无法在其幼崽中观察到对简单和高对比度的偏好性,对于像猫狗这样同样需要一段发育时期(从睁眼到正常行走,捕猎)却又不是灵长类的动物,则难以推测。

类似的跨物种比较研究,将揭示不同的生物其视觉系统如何在慢发育带来的更高智能与先天具备能力带来进化优势间进行权衡,而这同样是机器智能需要应对的核心话题,不仅局限于视觉系统,还涉及先天vs后天的一般性讨论。

参考文献:

  • [1]Wai Keen Vong, et al. “Grounded Language Acquisition through the Eyes and Ears of a Single Child.” Science, vol. 383, no. 6682, 2 Feb. 2024, pp. 504–511, https://doi.org/10.1126/science.adi1374.
  • [2] Orhan, A. Emin, et al. “Self-Supervised Learning through the Eyes of a Child.” ArXiv:2007.16189 [Cs], 15 Dec. 2020, arxiv.org/abs/2007.16189.
  • [3] Anderson, Erin M, et al. “An Edge-Simplicity Bias in the Visual Input to Young Infants.” Science Advances, vol. 10, no. 19, 10 May 2024, https://doi.org/10.1126/sciadv.adj8571.
  • [4]Bambach, Sven, et al. “Toddler-Inspired Visual Object Learning.” Neural Information Processing Systems, Curran Associates, Inc., 2018, papers.neurips.cc/paper_files/paper/2018/hash/48ab2f9b45957ab574cf005eb8a76760-Abstract.html.
  • [5 Raj., and U Ganapathy Sankar. “Comparison of Performance of Children from Chennai with Norms of Motor-Free Visual Perception Test-4: A Comparative Study.” The Indian Journal of Occupational Therapy, vol. 55, no. 3, 1 July 2023, pp. 94–97, https://doi.org/10.4103/ijoth.ijoth_37_23.
  • [6] Lum, Chun, et al. “Orientation Preference Maps in Microcebus Murinus Reveal Size-Invariant Design Principles in Primate Visual Cortex.” CB/Current Biology, vol. 31, no. 4, 1 Feb. 2021, pp. 733-741.e7, https://doi.org/10.1016/j.cub.2020.11.027.