为什么对ChatGPT、ChatGLM这样的大语言模型说“你是某某领域专家”( 八 )


神经网络——或许有点像大脑——被设置为具有基本固定的神经元网络,其中被修改的是它们之间的连接强度("权重") 。(或许在至少是年轻的大脑中,完全新的连接数量也可以增长 。)但是,虽然这对生物学来说可能是一种方便的设置,但它并不明确是实现我们所需功能的最佳方式 。而涉及逐步重写网络的某种方法(或许类似于我们的物理项目)可能最终会更好 。
但即使在现有神经网络的框架内,目前存在一个重要的限制:目前的神经网络训练基本上是顺序进行的,每个批次的示例效果被传播回去更新权重 。实际上,即使考虑到GPU,当前的计算机硬件在训练过程中大部分时间都是“闲置”的,只有一部分在被更新 。从某种意义上说,这是因为我们当前的计算机倾向于具有与CPU(或GPU)分离的内存 。但在大脑中,这可能是不同的——每个“存储元素”(即神经元)也是一个潜在的主动计算元素 。如果我们能够以这种方式设置未来的计算机硬件,可能能够更高效地进行训练 。
(注:我理解人的大脑神经是可以并行的,而现在的大模型还做不到并行训练 。其次,大脑的神经元是计算&存储,也就是说如果把大脑看成电脑,它每一个神经元都是CPU+内存+硬盘,而目前的计算机这几部分是分开的,导致计算和存储分离,效率大大下降 。)???
04

足够大的网络可以做任何事情!???
类似这样的系统的能力如此令人印象深刻,以至于人们可能会想象,如果能够继续训练更大、更大的神经网络,那么它们最终将能够“做任何事情” 。如果我们关注那些容易被即时人类思维所接触到的事物,这种想法可能是正确的 。但过去几百年科学的教训是,有些事情可以通过形式化的过程来解决,但对于即时人类思维来说并不容易 。
非平凡的数学就是一个很好的例子 。但一般情况下是关于计算的 。最终问题在于计算不可约性的现象 。有些计算可能需要很多步骤才能完成,但实际上可以被“化简”为相当直接的形式 。但是计算不可约性的发现意味着这种情况并非总是成立 。相反,存在一些过程(可能类似于下面的过程),为了弄清楚发生了什么,不可避免地需要基本上追踪每个计算步骤:
(注:数学中,术语平凡或平凡的经常用于结构非常简单的对象 --比如群或拓扑空间 。
非平凡解在数学中具有重要意义,包括代数、几何和分析等领域 。在代数中,非平凡解意味着有多种方式能够满足方程,这可以导致所研究的结构的有趣性质 。在几何中,解决问题的非平凡解通常涉及发现形状或对象之间意外的关系,这可以导致对所研究的几何学的新见解 。
在物理学中,非平凡解通常用于描述不太明显或难以解释的物理现象 。例如,在量子力学中,薛定谔方程的非平凡解用于描述复杂系统(如原子和分子)中粒子的行为 。
总的来说,非平凡解之所以重要,是因为它们通常需要创造性的思维和洞察力,这可以在给定领域中带来新的发现和见解 。它们还可以用于测试现有方法和理论的限制,并确定需要新方法或技术的领域 。)
我们通常用大脑进行的活动可能是有意避免计算不可约性的 。在大脑中进行数学运算需要特殊的努力 。实际上,仅凭脑中的思考几乎不可能“思考透”任何非平凡程序的操作步骤 。
但是,当然我们有计算机 。通过计算机,我们可以轻松地进行长时间的计算不可约性任务 。关键是,对于这些任务通常没有捷径可走 。
我们可以记住许多关于某个特定计算系统中发生的特定例子 。也许我们甚至可以看到一些(“计算上可化简”的)模式,使我们能够进行一些泛化 。但是关键是,计算不可约性意味着我们永远无法保证不会发生意外情况,只有通过显式计算才能确定在任何特定情况下会发生什么 。