走进AI，先从大脑记忆和网路记忆开启 ——记忆的奥秘——

　　现在的学生至少要在学校接受十多年的教育，每天记忆和学习，多么希望自己可以过目不忘，可既然记忆如此重要，为什么人类没有演化成过目不忘？为什么我们要靠不断重复来记忆？为什么好不容易记住的信息又会被遗忘？为什么我们的记忆还会混淆信息？传统观点对此的解释有消退说和干扰说，认为遗忘是信息在脑中不可避免地消退结果，而混淆是不同信息干扰记忆所造成的。可是计算机就能瞬间记忆，长期保存再相似的信息也不会混淆，但是患有超忆症的人群也可以过目不忘，说明演化了数亿年的生命完全有条件产生像计算机那样既没有消退，也没有记忆干扰的大脑。同时，越来越多的研究也表明，遗忘恐怕并不是被动的，而是大脑的一种主动行为，那究竟是出于什么原因才会让大脑去遗忘辛苦记忆的信息呢？在我们一步一步走向AI人工领域之前，我们先来一起分享关于记忆的奥秘。

　　PART 01

　　▉ 大脑记忆

　　我们只有搞清大脑是如何演化出来的，才能针对其原理来正确的学习和记忆。那么，我们最初为什么要演化出一个大脑呢？这个问题看似很奇怪，但生命是一种特殊的状态维持方式，能被留下来的原因只有一个，那就是通过预测信息在不断变化的环境中维持自身的状态，而单靠应急反应就可以达成这一目的，并不需要一个大脑来体验世界。任何生命都会感知外界信息，并做出维持自身状态不变的对应行为，能体验这个世界的个体，并不会比不能体验这个世界的个体更容易被留下来，那么大脑究竟是干什么用的呢？

　　想要明白为什么大脑会演化出遗忘，必须先要搞清个体学习所面临的困难，以蟾蜍吃虫子为例，为了获得能量，蟾蜍必须要构建一个模型，当看到虫子就捕捉，否则不动，这时输入为蟾蜍所接收到的反光信号，输出为是否伸舌头捕捉。而蟾蜍看到了什么，不仅取决于反光这个输入信号，同时还取决于产出自身的模型是如何将输入计算成输出的，因此，不同生物看同一幅画面会有不同的感知。而即使是同一物种之间也会有差异，同样的，单有模型也不能决定输出，比如，即使某人带有致病基因，若没有触发该基因的环境输入，则该人并不会得此病，这也是为什么不要看字幕来练习听力，因为当没有字幕这个输入信号时，所构建的模型就无法使用了。由于生物所看到的事物会随自身的模型而改变，所以人类看到的也并不是世界的真实样貌，任何感知都是通过学习所构建的，也都有它的缺陷，比如，蟾蜍会把所有移动的横条都识别为虫子，而即使是真的虫子，只要不动或者树立起来就无法识别。这是因为虫子的大小、形态、颜色以及太阳光照强度等不同，使得输入信号是虫子的情况有无数种，个体一生都无法见到所有情况，但想要存活，就不得不从有限的例子中构建一个也能识别从未见过的情况的模型，而这就是学习。比如高考，实际上，就是考生在有限的练习题中构建可解除从未见过的高考题的模型，而每个模型就是考生要学习的一个知识。模型可识别从未见过的情况的能力叫做泛化能力，也就是举一反三，所以验证学习的方式是考察从未见过的问题。但有时考生只会做学校出的模拟题，而不会做高考真题，有时我们只能看懂自己的字，却看不懂别人写的字，这种仅仅记住了学习时所见过的情况，却无法解决未见过情况的现象，被称为过拟合。相对的，学习时所见过的例子也无法记住的现象，被称为欠拟合。多细胞生物想要生存，就不能尽记忆所见过的个别情况，比如蟾蜍是学模型的泛化能力就无法顾及到不动的虫子，如果把他关进有大量死虫子的罐中，它会活活饿死。又如，不能根据乔布斯和比尔盖茨都辍学了，就构建一个认为辍学就能成功的模型，然后辍学回家，那就必须要抑制过拟合，提高泛化能力，但问题是，草履虫是靠自然选择来筛选模型的，可自然选择无法干预生命周期内的学习，这时的多细胞生物又该如何筛选模型，如何提高模型的泛化能力呢？

　　不仅如此生命周期内的学习还需要新的记忆能力，单靠演化来学习的生命并不需要生命周期内的记忆能力，拿草履虫来说，它就好比一个老式钟表，并不能像手机闹钟一样记起床时间，然而，个体学习就需要把曾经见过的例子记下来，等搜集到足够的数据时用于学习，所以，记忆最初的产生并不是为了让生物怀旧过去，而是允许生物从历史经验中学习。多细胞生物只要确保自己在产生后代之前不死，就可以让演化机制在该层级上继续工作，这就好比在游戏中，一旦到了存档点，即使死了也可以让后代继续冒险，但前提是要有允许个体走到存档点的学习能力，而面对这些新挑战，我们的祖先又是靠什么保证繁殖前不死的呢？

　　PART 02

　　▉网络记忆学习

　　网络记忆学习，当我们思考生命该如何对抗未知的时候，便能体会到为什么当初生物的底层并没有选择像计算机一样的过目不忘，这里将通过一个简单的例子来比较两种不同的记忆方式，假设有两个输入，都可以为零或一，当两个输入不一样时就输出一，否则输出零，一共有四种情况。第一种记忆方式与九九乘法表一样，就是将所有情况都记录下来，随后根据输入去查找对应的输出，这是我们意识层面比较熟悉的记忆，而第二种记忆方式是构建一个网络，根据输入直接计算出对应的输出，这里的输入和输出都是一种状态，输入状态有两个因素所表达，好比物体的长和宽，因此也叫二维向量，而输出状态是一维向量，如果只记忆这种情况呢，可忽略第一个维度，只取第二个维度的原值，圆圈中的数值表示每个维度的状态，这些控制着取多少状态的链接表示权重，若只是记忆这种情况，那可以让第一个维度乘以负一，与第二个维度的原值相加，不同于第一种记忆，网络的记忆并不是存储在某个特定的位置，而是有所有群众共同所存储的，无法直接查看，只能根据输入计算出输出。不过，若要同时记忆这四种情况，那之前任何一种直接从输入状态变换到输出状态的方式都不行，但可以先变换到一个非线性的中间状态，再从中间状态变到输出状态，不过，如果要记忆的情况特别多怎么办？实际上，只要中间状态的维度足够大，就可以记任意函数，因为大不了给每一个情况都在中间状态分配一个维度，这也叫做通用近似定理，不过通用近似定理仅仅保证了网络可以记忆，并不保证网络一定可以学习，因为如果需要见到所有情况的话，那就与第一种记忆方式没什么区别了，所以将这四种情况都存储到网络中的行为依然被称为记忆，但如果通过三种情况可推测第四种情况的话，便成为学习。

　　也就是说，在网络中，记忆可被视为过拟合的学习。比如指学习第一种情况，学习可被视为泛化的记忆，比如，同时记忆这三种情况来推测第四种情况，这种记忆方式用于需要不断调整网络的权值，直到能纳入所有情况为止，所以会比较耗时，而这种调整也会影响先前情况的记忆，比如记忆完这种情况，在记忆剩下三种情况时，就会影响第一种情况的记忆，同时网络的记忆就会出现混淆两个相似情况的现象。不过只要保证权重的大小不变，这种记忆一样可以稳定存在，并不会出现快速遗忘的现象，根据我们平时的记忆特点，能够感觉出来生物底层所采用的是网络记忆方式，可网络记忆明明有那么多弊端，为什么不采用查找记忆呢？的确，查找记忆可更快捷的记忆信息，比如计算机的记忆就几乎是瞬间的，然而查找记忆的前提却是要有人提供给它所有情况的信息，可在自然中，谁来提供给生物这些情况的信息，查找记忆完全没有解决，并不能从有限的例子中学习模型来对抗生命，最大的敌人未知不仅如此，对于在信息不断增加的环境中所生存的生物而言，查找记忆也意味着需要近乎无限的存储空间。而网络机虽然慢，还会混淆，但它实际上是在寻找所有见到的情况的共同规律，将它们压缩进一个网络，更重要的是，所找到的共同规律，就可以用来预测未见到的情况。

　　但既然网络的记忆也可以稳定存在，为什么会出现遗忘呢？问题就在于个体该如何筛选模型，如何提高模型的泛化能力，因为网络学习会从所见到的情况中寻找相同的规律，但生物每次见到的情况都是随机的，部分随机情况之间也会有特殊规律，比如连续学习乔布斯和比尔盖茨的情况，就会找到辍学的规律，而连续学习这两种情况，就会找到忽略第一个维度，只取第二个维度的规律，但这种局部规律谨记住了部分情况，却失去了预测其他情况的能力。不过根据概率，若有一种规律只出现过一次，那么该规律是普遍规律的概率就很低，而且到这个规律的个体就很难存活，但若有一种规律反复出现，那么该规律是普遍规律的概率就比较大，而学习到这个规律的个体就更有可能存活于世，在众多个体当中，部分个体产生了一种基于概率的模型筛选机制，当网络中的某个链接被高频率使用时，就强化该链接的形成，但当网络的某个链接被低频率使用的话，就弱化该链接的形成，这种筛选机制会使得特殊规律的模型难以存留，随后，拥有该机制的个体，在残酷的自然选择中存活了下来。而这也是为什么我们要靠不断重复来记忆，为什么好不容易记住的信息也会被遗忘。

走进AI，先从大脑记忆和网路记忆开启 ——记忆的奥秘——

相关阅读