这一章节在书中占的篇幅挺大的,不过核心内容在书的一开篇就已经提到了,然后也有一两个篇章有专门的论述过相关的主题。——“自指”的概念,从始至终,都是GEB这本书的一个核心论题之一。从字面上,我们大概都能看得出“自指”这个词的意思,但是真的要认真的来解释这个概念倒是有点无从下手的感觉,同时要找出具体的例子来描绘这个概念的话,也需要费一番脑筋。
最直接的自指例子,可以在自然语言和形式语言中找到;比如说,如果一句句子直接或间接提及自身,就称为自指(Self-reference)——例子:“这句话有九个字组成。”自指可以是直接的,比如之前说到过的“说谎者悖论”,也可以是通过另外一句句子间接提及自身(这个相关的例子也在之前提过),甚至还可以通过某种编码反应自身。而在逻辑上自指的语句常常会造成悖论。
在数学、哲学、计算机科学、语言学中都有针对自指的研究,并且都颇有收获,这在涉及逻辑的研究中是一个非常重要的领域。在数学中,对自指的研究最终导致了著名的哥德尔不完备性定理。在哲学中,“自指”一词可以指代主体谈论或提及自身的能力。在计算机科学中,涉及“自指”的就有著名的停机问题。“自指”在形式上的主要显现方式,其实我们在之前有详细论述过,那就是:“递归”。计算机程序中的自指主要就是递归的(自调用)。
本章节的篇幅很长,就是因为要举很多例子来描述各种“自指现象”的机制,以及另一个有相关性的论题:“自复制”。
自复制,或者叫自我复制(Self-replication)是动力系统的一种行为,这种行为可以产生出和自身相同的结构。(这里的动力系统是指数学上的一个概念。动力系统描述一个给定空间中所有点随时间的变化情况。例如描述钟摆晃动、管道中水的流动,或者湖中每年春季鱼类的数量,凡此等等的数学模型都是动力系统。)——自我复制在表现形式上比较直观的,可以参考“黑客帝国”中的史密斯探员。
侯世达在这里要举出很多“自指”以及“自复制”的例子,并且要对这两种机制进行比较,我们会发现其中的有趣的,值得注意的一些相似性。那么为什么要这么详细的论证这两个主题呢?除了是对于形式系统进行完整论述之外,还有别的更重要的意义吗?当然有(这里也许是笔者的猜测),始终不要忘记,GEB这本书的一个重要主题就是对于“人工智能”的探讨。
我们都知道关于“人工智能”这个庞大的母题之下,其实还包含了诸多子题,其中一个至今都引人入胜,同时前面的篇章里也隐约提到过的题目就是:“自我意识”(有时候还包含了“自由意志”。)要想讲这两个主题,那相关的内容真的是浩如烟海。侯世达教授在这里想做的一件事(其实开篇在提到关于欧几里得证明的时候就有说过了),应该是他试图顺着形式系统的“自指”和“自复制”,进一步往前推动,试图逐渐接近“自动机”(能自我运行的机器,算是具有自我意志吗?)。
同时这个问题也可以往两边发展,一边是机器有没有自我意志是如何判断的?另一边则是:我们的“自由意识”为何?从何来?有没有?等等。这个问题甚至可以牵扯到关于“生命起源”等等本质的问题,这些最基本的问题即使到了今天对我们都有着巨大的吸引力(我们能直观的看到生命从细胞逐渐自我复制变成胚胎,再进一步孕育成为生命。可是我们看到了,却依然不能完全理解,其中的机制是什么?从哪一刻开始我们产生了自我?出了母胎的那一刻吗?还是在孕育过程中就有了?如果抛开唯灵论,我们该怎么解释呢?)
当然上面这部分算是笔者自己,顺着原书的内容做了一点拓展的联想,我们还是先回到书中的内容来吧。在这次的对话中,第一次乌龟没有直接出场,而是阿基里斯和螃蟹的对话,但是乌龟依然被提及到了。实际上这里的讨论是之前一篇对话的延续——也就是之前螃蟹和乌龟关于“完备唱机”的论战。(我们知道这个论战是在比喻哥德尔不完备性定理,同时我们也顺着不完备性定理一路摸到了“自指”的问题上来。)
本篇对话的标题,来自于巴赫写作的一首诗。在对话里,这首诗被引用了进来。是在阿基里斯和螃蟹讨论唱片的时候提到的,在这一篇对话里,主角是阿基里斯和螃蟹。他们从“唱机战争”的话题引申开来,一直谈论到电视摄像机、病毒、RNA等等例子当中涉及到自身的问题。
关于螃蟹和乌龟的“完备唱机战争”的论战当中,我们所看到的内容到目前为止主要出自于乌龟之口。很明显带有一点偏向性。虽然乌龟很狡猾的借用“哥德尔不完备性定理”破坏了螃蟹的一大堆唱机(天知道花了多少钱),但是好像螃蟹并没有认输。而阿基里斯一直是以一个旁观者的角度在一旁聆听,那么当我们想要完整的了解一场论战的话,“正反”双方的论点都值得了解,所以这一篇对话中,阿基里斯依然以旁听者的立场,来听一听螃蟹这一方的观点。
阿基里斯其实来过螃蟹家里几次了,之前一块来的还有乌龟和食蚁兽,他们一起欣赏;了巴赫的音乐,还进行了“多层次”的讨论。螃蟹家肯定很大,这次阿基里斯来的时候,依然感慨螃蟹家又多了新东西。(坏唱机都堆了多少个了)
螃蟹家里新添了几幅雷尼·马格里特的画作。(或译:勒内·马格里特:比利时画家,法国超现实主义绘画的代表人物。)螃蟹这次邀请阿基里斯来,就是一起来欣赏这些超现实主义的画作的。
这时候螃蟹就和阿基里斯聊了起来关于这些画作,我们知道在GEB中,绘画家的代表一直是艾舍尔。在这里螃蟹把马格里特拿来和艾舍尔一起做比较。这里值得一提的是,马格里特的超现实主义作品以其中带有些许诙谐以及许多引人深思的符号语言而闻名。他的作品对于许多观察家对于事先设想的现实状况的情况提出挑战,这种风格到今天对于许多插画风格都有着很大的影响力。
于是在这里,螃蟹把马格里特的风格和艾舍尔的悖论风格放到一起来比较。
螃蟹:“…… 马格里特和艾舍尔在表现悖理的和虚幻的世界时,都运用十分写实的手法,两个人在运用视觉形象以唤起观众的情感方面都具有很准确的感觉能力,而且——他们作品的爱好者们常常忽视这一点,就是他们都具有对优美线条的感受力。 ”
阿基里斯指出,这两者之间还是不一样的,比如马格里特的画作《影子》。(《影子》这幅作品是一棵树以及后面有一个差不多大小比例的烟斗),在这里阿基里斯就和螃蟹发生了分歧,阿基里斯看到的是——一棵树后面有一个巨大的烟斗。而螃蟹则看到的是——一个正常烟斗前面有一棵微型的树。注意,在这里就引起了“歧义性”了。
随后阿基里斯把烟斗从画作里拿了出来,然后点了起来开始抽烟。(他和螃蟹一个抽烟斗,一个抽雪茄。)穿越进画中世界这事阿基里斯不是第一次干了——前面两次都和乌龟在艾舍尔的画中世界里“约会”(大雾)。
然后在抽到微醺的时候,螃蟹开始朗诵巴赫的一首诗作,就是本篇的标题《一位烟民富于启发性的思想》:
很意外,老巴赫还有这样的文采,顺着这首诗,阿基里斯和螃蟹的对话又来到了唱机上,终于,螃蟹要给阿基里斯展示自己在经过了和乌龟的论战之后,所获得的最新成果——一台巨大无比的唱机(这不由得让人联想到了早期的巨型计算机)。
正好说到这儿,阿基里斯问螃蟹,这个唱机是不是就是螃蟹那个最后拿出来对付乌龟的“完备唱机”?螃蟹管这个叫:“吞龟唱机”。这个不是指把乌龟给吃了,而是指这架唱机可以“吞噬”乌龟那些专门用来针对破坏唱机的唱片。(这里再提一次,乌龟的唱片是针对唱机结构设计的具有针对性的唱片,唱片录制的音频刚好可以引起共振破坏掉唱机结构,所以唱机一旦播放具有针对性的唱片就会导致自毁。)
阿基里斯:“ ……这就是不久前你跟龟兄那场奇特的音乐战的一部分吗?……我最后一次听到你们俩的较量时,我记得你好像最后弄到一种打不败的唱机——一种带有内隐电视摄像机和微型计算机这一类东西的机器,它可以自行拆卸,然后重新组装成不能被摧毁的结构。 ”
螃蟹:“ 呜呼哀哉!我的设计失败了。龟兄利用了被我忽略的一个细节:那个控制着拆卸和组装的机构在整个过程中是要保持不变的。这就是说,很显然,它没法儿把它自己拆开或组装,所以它始终原样不动……这样一来就完蛋了!龟兄就完全把攻击点对准了那个机构。 ”
螃蟹:“ 就是说他只要制造这样一张唱片就行了:这张唱片能引起那个始终保持不动的结构——拆卸—组装机构——产生致命的颤动,这样一来…… ”不过乌龟这次没有那么轻松取胜,唱机经历了两次攻击才崩溃。这让螃蟹觉得这当中有点什么值得注意,于是它和乌龟讨论了起来。乌龟给螃蟹推荐了一本书叫《金、银、铜——聚宝藏之精华》,作者是一个对各种材料制成的怪圈很着迷的人。。(注意,这里其实就是在形式上自指了,侯世达为了让这个自指显得明显,已经在用近乎拙略的比喻方式在提醒我们了。)
螃蟹和阿基里斯聊到这里,进入了关于“自指和自复制”的第一个实际例子——“烟草花叶病毒”,螃蟹说这是自己从《聚宝藏之精华》这本书上读到的。
螃蟹:“ 我说不清楚,因为一讲到生物学,我就全傻了。我所知道的只是对话里讲到的那一点儿,那片对话里说烟草花叶病毒是一种卷烟形状的、能使烟草生病的小东西。 ”
螃蟹:“ 我看你太着急下结论了。阿基。烟草不吸这些‘卷烟’。是那些脏乎乎的小‘卷烟’来进攻它们,不请自来。 ”(烟草花叶病毒——Tobacco mosaic virus;TMV,又译为菸草镶嵌病毒,是一种RNA病毒,专门感染植物,尤其是烟草及其他茄科植物,能使这些受感染的叶片看来斑驳污损,因此得名(mosaic也就是马赛克,有拼贴之意)。19世纪末期人们已知有某种威胁烟草作物生存的疾病,但直到1930年才确知此病毒的存在。)
到这里,螃蟹正好给阿基里斯大概的讲解了一下“核糖体”(应该是RNA,我们之前经常在提的一直是DNA)。螃蟹在这里提到,核糖体具有某种不可思议的“自发地组装”
螃蟹:“ 意思是当某个位于细胞内的生物单位分解时,它们可以自发地把它们自己在组装起来——用不着被别的单位来控制。那些部分只要凑在一起——疾!——就粘在一块儿了。 ”
于是这就给了螃蟹的灵感,螃蟹立马联系制造商,给自己做一台具有“自发组装”能力的唱机。不久之后制造商就成功造出来了一台,并送给了螃蟹——以及一张金额巨大的账单。这个成果让螃蟹信心十足,它拿着这个再一次去向乌龟挑战。结果乌龟还是赢了。(螃蟹这钱真是不当钱……)
我们知道螃蟹和乌龟的“完备唱机论战”喻指的就是“哥德尔不完备性定理”,而我们通过哥德尔不完备性定理的内容也基本知道螃蟹是不可能赢过乌龟的。但是即使如此,螃蟹依旧没有完全放弃。
螃蟹:“ 我最后终于放弃了寻求‘完备的’唱机的念头,而是决定进一步完善对乌龟的唱片的抵制。我抛开了那种能播放一切唱片的唱机的奢望,而是想要一种能避免破坏、能够保存下来的唱机:一种能避免被摧毁的唱机——即使这意味着它只能播放少数一些特殊的唱片。 ”
阿基里斯:“ 于是你就决定以牺牲掉能重现所有可能的声响这一功能为代价,制造一种复杂的反乌龟的机器,对吗? ”
螃蟹:“ 我的新设想是不让任何‘异己的’唱片在我的唱机上播放。我知道我自己的唱片是不会对我的机器有损害的,所以如果我不让别的唱片混进了,我就能保住我的唱机,用它来欣赏我灌制的唱片。 ”
阿基里斯:“ 我们眼前这个庞然大物就是你刚才说的那种想法的产物吧? ”
螃蟹:“ 是的,龟兄自然也认识到他也必须改变策略。他现在的主要目的就是要搞出一种能混过我的检查的唱片来——这是种新的挑战啊! ”
螃蟹这里说的唱机,应该是指“一阶公理体系”。我们都知道哥德尔不完备性定理的前提条件是——任何强到足以包含“皮亚诺算术体系”的形式系统都会有这个“破绽”。而反之,低于这个强度之下的形式系统可以是完备的——皮亚诺算术公理本身,以及欧几里得几何(前四大公设的几何)这两个就是例子,这两个系统不受到“哥德尔不完备性定理”的攻击,它们是完备的。
螃蟹:“ 我的基本方案是使用标识技术。我的每一张唱片上都有一个秘密标记。现在你面前的这台唱机跟以前那几台一样,都装有一部检验唱片的电视摄像机,这种检验器上配有一台计算机,负责处理那些由检验得到的数据,并控制相应的操作。我打算嚼碎所有那些没有正确标记的唱片。 ”(这里的原文是“嚼碎所有那些设有正确标记的唱片。”但是联系上下文,笔者觉得这可能是一个错别字,在GEB这本书当中在一些地方存在着一些印刷错误,这值得注意。)
阿基里斯:“ 哈,报复他一下!不过我觉得你的方案很容易被挫败。龟兄只要搞到一张你的唱片,复制下那标记,你就没咒念了。 ”
螃蟹:“ 没那么简单,阿基。谁告诉你他能从唱片的非播放状态中知道那个标记的?事情比你想的要复杂哩。 ”很明显螃蟹这里做标记的思路和乌龟是一样的,它把标记隐藏在了唱片表面的音纹刻画里。所以唱机内会内置一个摄像头,用来检查音纹格式,判断哪张唱片可以放,哪张不能。
螃蟹:“ ……龟兄要摹仿这些简直就是不可能的。所以我坚信我一定能打赢这场新的音乐战。不过,我得说龟兄也同样相信他会混过我的检查。 ”
螃蟹:“ 哦——不,这种结局他已经用事实验证过了。他现在只是想证明不管我采取什么措施,他都能——用一张对我的唱机无害的唱片——溜过我的检查。我听他嘴里不停地嘀嘀咕咕,总是提到一首歌曲,那首歌曲的名字听古怪,叫什么‘我可以在唱机X上被播放’。可他吓唬不了我!唯一叫我有些担心的是他似乎同以前一样,又有些什么晦涩的观点,那些观点…… ”
不过他们没有就乌龟的复杂理论继续聊下去,阿基里斯让对话调转了一个方向,他想继续观赏螃蟹的这台“自组装唱机”。(因为估计乌龟那个理论说下去就没完了,而且也会偏题)
说着,螃蟹就把自己的唱机的各个组装部分都展示给了阿基里斯看,这里展示的重点,是唱机内部那个识别唱片的电脑摄像头。这里开始了第二个例子,阿基里斯拿着摄像头和显示屏幕玩了起来,摄像头拍摄到的画面会直接显示在屏幕上。然后在这里,阿基里斯把摄像头对准了屏幕,这就是“自指”的第二个例子。屏幕里显示的是层层递归的无限走廊(参考“无限镜面回廊”)。
阿基里斯:“ 当我把摄像机对着屏幕时,屏幕上就出现了屏幕,包含着屏幕的屏幕上有什么,被包含的屏幕上也就有什么——而被包含的屏幕上只有屏幕,因此被包含的屏幕上有什么,被被包含的屏幕所包含的屏幕上也就有什么——而被被包含的屏幕锁包含的屏幕上只有屏幕,因此—— ”(请阿基里斯表演一段灌口《屏幕套屏幕,屏幕何其多》。)
螃蟹建议阿基里斯调整一下摄像机的角度,当阿基里斯摆弄起摄像机的镜头和其它控制装置时,屏幕上就出现了前所未有的、花样繁多的“自噬”图像:形似星系的下旋转螺线,变幻万端的花状图形和其它一些各式各样的图形…… 当然这些还没完,阿基里斯还想玩出更多的花样,他还让螃蟹找来两面镜子。镜面反射出摄像机和屏幕,然后……
阿基里斯管这种屏幕叠加叫“自噬”,而我们知道这个可以看作是“自指”的一个例子。玩到后面阿基里斯被完全绕进去了,而螃蟹和他一块儿抽着烟斗,享受这眩晕的快感。
核糖核酸简称RNA,是一类由核糖核苷酸通过3',5'-磷酸二酯键聚合而成的线性大分子。自然界中的RNA通常是单链结构,且RNA中最基本的四种碱基为A(腺嘌呤)、U(尿嘧啶)、G(鸟嘌呤)、C(胞嘧啶),相对的,与RNA同为核酸的DNA通常是双链分子结构,且DNA中有一种碱基与RNA不同。
RNA也有着多种多样的功能,可在遗传编码、翻译、调控、基因表达等过程中发挥作用。按RNA的功能,可将RNA分为多种类型。比如,在细胞生物中,传讯RNA(mRNA)的功能是遗传讯息的传递,它能够指导蛋白质的合成。因为传讯RNA有编码蛋白质的能力,所以它又被称为编码RNA。
而其他没有编码蛋白质能力的RNA则被称为非编码RNA(ncRNA)。它们经由催化生化反应,或透过调控或参与基因表达过程发挥相应的生理功能。比如:转运RNA(tRNA)在基因翻译过程中起转运的作用;核糖体RNA(rRNA)在基因翻译过程中起催化肽链形成的作用;小RNA(sRNA)起到调控基因表达的作用。此外,RNA病毒甚至以RNA作为它们的遗传物质。
RNA通常由DNA经由转录过程生成。RNA在细胞中广泛分布,真核生物的细胞核、细胞质、线粒体中都有RNA。RNA的分子结构与DNA非常相似,但是,两者有以下三个主要不同点:
(1)与通常是双链的DNA不同,RNA通常是单链的,而且长度一般比DNA短得多。不过,单链RNA可以通过折叠形成双链接构(这样的双链接构亦被称为“茎”),转运RNA中即有这样的结构。
(2)DNA中的戊糖为脱氧核糖,而RNA中的戊糖为核糖,其区别在于,脱氧核糖的2位碳上连接的是氢原子,而核糖的2位碳上连接的是羟基)。2位碳上的羟基降低了RNA的稳定性,因为它使得RNA更易被水解。
(3)在DNA中,与腺嘌呤(A)互补的含氮碱基是胸腺嘧啶(T),而在RNA中,与腺嘌呤(A)互补的含氮碱基是尿嘧啶(U),它比胸腺嘧啶少了一个甲基。
与DNA相似,大部分有生物活性的RNA,包括mRNA、tRNA、rRNA、snRNA,以及其他一些非编码RNA,虽然是单链,但含有自我互补的序列,能使得它们能进行折叠,形成互补双链接构(茎)。对RNA的分析表明,它们有着相对更复杂的结构。和DNA不同,RNA的二级结构并不是单纯的双螺旋,而由一系列短的二级结构构成。通过这些短的二级结构的组合,RNA甚至可以拥有与蛋白质相似的结构,并像酶那样催化化学反应(这样的RNA被称为核酶)。比如,对核糖体进行分析表明,其催化成肽反应的活性位点完全由RNA构成。
通过转录,仅仅能使RNA链上带A、U、G、C四种含氮碱基.不过,转录后能够通过修饰从多种途径对RNA进行改造。比如,转录后能够将稀有碱基假尿嘧啶(Ψ)加到RNA链上。假尿嘧啶与核糖之间的化学键是C-C键而不是尿嘧啶(U)的C-N键。胸腺嘧啶加到RNA链上的情形也很常见(最典型的例子是tRNA的TΨC环)。另外,次黄嘌呤也是一种常见的稀有碱基。次黄嘌呤为腺嘌呤的脱氨产物,含有次黄嘌呤的核苷被称为肌苷(I)。在基因编码的摆动假说中,肌苷有重要的作用。除以上列出的之外,经过编辑的核苷还有100多种。由修饰引发的结构性变化在tRNA中最为明显,这些修饰的具体作用还没有完全阐明。不过,值得注意的是,在rRNA中,许多的转录后修饰发生在高度功能化的区域,比如肽基转移酶催化中心以及亚基结合部位,似乎说明转录后修饰对RNA发挥正常功能来说相当重要。 (所以RNA的这种特性让人们觉得把它设定为僵尸病毒可以原过去很多设定~~~)
具有催化功能的单链RNA分子,和蛋白质相类似,需要特殊的RNA三级结构。通过分子内氢键形成的二级结构原件构成了三级结构的框架。二级结构形成了许多可识别的“结构域”——比如茎环结构、膨大结构(bulges)、内环结构。因为RNA分子带电荷,不少二级结构和三级结构需要Mg2+等金属离子来进行稳定。在自然界中的RNA均是由D-核糖核苷酸聚合而成的D-RNA。使用L-核糖核苷酸则可合成L-RNA。L-RNA对RNA酶的耐受力要强得多。
在了解了RNA特性的情况下,我们再来看看RNA病毒。RNA病毒其遗传物质为RNA,这些核糖核酸有两种类型,一种是单链RNA(ssRNA),另一种是双链RNA(daRNA)。
由RNA病毒引起的感染造成的著名疾病包括:埃博拉出血热、严重急性呼吸道症候群(SARS)、流行性感冒、丙型肝炎、西尼罗河热、脊髓灰质炎、麻疹、疯牛病。
相较于DNA病毒,RNA病毒具有较高的变异性,因为它们缺乏修正错误的DNA聚合酶机能。不过在这点上SAES相关的RNA病毒是个例外。
RNA病毒根据RNA的分子生物学定义,可以进一步的分为:反义RNA病毒、正义RNA病毒和双义RNA病毒。正义RNA病毒和传讯RNA相似,因此它们能直接在宿主细胞里进行翻译。反义RNA病毒则与传讯RNA互补,所以它们必须被RNA聚合酶转变成正义RNA从才能进行翻译。尽管单独的正义RNA病毒的RNA感染能力没有完整的病毒颗粒强,但它依然可以直接感染宿主细胞。反之,纯化过的反义RNA病毒则没有感染能力,因为它们需要被转录成正义RNA才能翻译;每一个病毒颗粒都能被转录成几个正义RNA链。双义RNA病毒除了也能把基因转录成正义RNA以外,大体上和反义 RNA更相似,所以许多情况下也会把双义RNA归类到反义RNA病毒里去。
与RNA相关的研究,造就了许多生物学的发现,以及诺贝尔奖。而核酸于1868年由弗雷德里希·米歇尔发现,当时他将该物质称作“核素”,因为它是在细胞核中被找到的。但不久后,科学家也在没有细胞核的原核生物中,也发现了核酸。此外,早在1939年就有人怀疑,RNA在蛋白质合成中所扮演的角色。塞韦罗·奥乔亚与阿瑟·科恩伯格,因为在实验室内发现了能够合成RNA的酵素,而获得1959年的诺贝尔生理学或医学奖。然而,之后的研究显示,由他们所发现的酵素多核苷酸磷酸化酶,是负责RNA降解,而非RNA合成。
罗伯特·威廉·霍利于1965年,发现酵母菌里大小为77个核苷酸的tRNA序列,并于1968年与哈尔·葛宾·科拉纳以及马歇尔·沃伦·尼伦伯格共同获得了诺贝尔生理或医学奖。在1967年,卡尔·乌斯推测RNA可能具有催化能力,并提出建议指出,最早的生命形式(自我复制的分子)可能依赖于RNA,来携带遗传信息和催化生化反应,即RNA世界学说。
逆转录病毒及逆转录酶,于1970年代早期被发现的,使人们了解到RNA能被逆转录为DNA(与中心法则的一般情况,DNA转录为RNA相反)。 这项发现,使戴维·巴尔的摩、罗纳托·杜尔贝科与霍华德·马丁·特明,共同获得了1975年的诺贝尔生理学或医学奖。此外在1976年,瓦尔特·菲尔斯 以及他的团队,首度确定了RNA病毒完整基因组的碱基序列(噬菌体MS2)。
在1997年,菲利普·夏普与理察·罗伯茨,因为发现哺乳类动物病毒及细胞基因中,具有内含子且会发生RNA剪接,而获得1993年的诺贝尔生理学或医学奖。具有催化功能的RNA(核酶)在1980年代早期被发现,而使得托马斯·切赫与西德尼·奥尔特曼,获得1989年的诺贝尔化学奖。而1990年所发现在碧冬茄属上,导入基因会静默植物体自身相似的基因的现象,现今被认为是RNA干扰的结果。
且大约在同时,大小约22个核苷酸的RNA(现在被称为微RNA),被发现在线虫的发育上扮演着重要角色。而在RNA干扰的研究,让安德鲁·法厄与克雷格·梅洛,获得了2006年的诺贝尔生理学或医学奖;而同年的诺贝尔化学奖,得奖原因也与RNA相关(在RNA转录上的研究),由罗杰·科恩伯格)获得。此外调控RNA的发现,促使了RNA药物的开发,如利用小干扰RNA来静默目标基因。
通过前面很多篇笔记的题目,以及原文内容不论是形式上,还是内容上都已经知道了——关于“人工智能”这个主题,它并不是一个单一的主题。我们事实上是没有办法在这个问题上做到完全就事论事的(纯技术上、算法上也许可以),尤其是在理论方面。往往我们会在讨论中,就顺着讨论而走到了最初主题的外面去了,这个现象我相信很多人都会注意到。但是为什么呢?GEB前面的章节中提到过“因陀网”这个比喻,万事万物都必然被笼罩在这个复杂的网络中,所以并不能完完全全把任意一个部分独立里出来——因为我们知道关于部分能不能等同于整体这个论题是会产生悖论的(分形)。
这里关于“自指”主题的讨论,其实可以作为另外几个大主题的讨论方向的参考,而这几个主题还都可以从“人工智能”当中引申出来—— “意识的起源” 、 “生命的起源” 、 “自我意识的定义” 、 “自动机” ……
在今天的科学技术之下,我们早就可以直接观看一个生命在子宫中孕育的完全过程——从细胞分裂开始。但是从哪一刻开始的呢?我们知道细胞本身是活着的,但是到了哪一刻,这一群细胞成为了一个整体?(如果我们是活细胞的共同作用产物——那么……《寄生前夜》?共生体?)从哪一刻开始,一个婴儿开始拥有了意识?如果我们抛开唯灵论的解读来讨论的话……自我意识又是什么呢?单纯的化学效应?还是真的存在一个现实概念的“我”?这是意识的现象?或者是本质?这些问题的探讨都值得大书特书,但是往往在一般的讨论中,我们除了能讨论自己的信仰之外,其实说不出什么,因为我们这是在“讨论自己”。这是最困难的问题,于是我们已经陷入“自指”当中了……很神奇吧。
这是笔者认为,为什么在这里值得单独拿出一个长篇的章节来讨论自指,并且列举了各种例子进行比对。在这里GEB或者说侯世达教授,他也并没有能够给出一个“结论”,但是他开了一个头,给了一个启发,这就足够了。
首先我们来看看语言中的“自指”,书里列出了很多例子,然后对这些例子进行对比之后,得到了而一种分类方式。语言中的“自指”存在两种类型:显性自指和隐性自指。
隐形自指:“山上有个庙,庙里老和尚给小和尚讲故事,故事说:山上有个庙……”
然后我们先来看显性自指,侯世达问了一个问题。假设不用“本句子”这种这么明显的提示来构造一个自指的句子,我们可以怎么做?首先可以在句子内部引用自身: “这句话有七个字”这句话有七个字。 我们看到,这句子的结构是“递归”的。而关于递归我们专门用过一整篇笔记的内容讨论过,不过这里的这个句子构造的方法其实不行——因为它不够有效,句子做不到完全的“自指”,除非这个句子叠加到无限长。有意思的是,这个失败的构造方式和我们上面那个隐性自指的例子很像。
“ 全部这些句子都‘漂浮’在上下文之中。可以把它们与只能看见尖顶的冰山做个比较。这一串串单词就是冰山的尖顶,为了理解它们所必须做的处理就是看不见的那部分。按这种意义,它们的涵义是隐性的,而不是显性的。当然,没有一句话的意义完全是显性的,不过,这种自指性越是呈显性,就越能暴露支撑它的那种技巧。。在我们这里,为了辨认出上述各句子的自指性,就不仅要熟悉像汉语这样的、可以用来讨论语言学问题的语言,而且还得能够领会‘本句子’这个词组的所指。这好像很简单,但是却要依赖于我们那种非常复杂而又完全内化了的驾驭语言的能力。这里,尤其重要的一件事是领会一个带有指示代词的名词性词组的所指。这种能力建立的很慢,因而绝不能等闲视之。 ”如果我们给一个完全不懂得悖论概念和语言学全套的人讲述“说谎者悖论”这个例子的时候,他很有可能会反应不过来。
同样,在这里我们已经可以隐约地看出一些端倪,我们为什么要讨论“自指”了,我们正在管中窥豹。。随后侯世达提到了关于“蒯因方法”和哥德尔数的例子。这两个例子其实在前面已经说得很详细了,而它们恰恰就是符号系统运作涉及到“自指”的时候会产生的种种问题。
形式系统强到一定程度就可以产生“隐性自指”的性质,然而我们如果试图让它“显性自指”,我们就不得不从系统里面跳出来。所以我们看到,上面关于语句自引用的情况,和哥德尔方法其实是完全相同的原理,只不过前者是语言中的技巧,后者是符号系统的一种技巧。
“ 基于同样的理由,哥德尔的符号串G不能含有其哥德尔的数字形式:它装不下。没有一个TNT符号串能含有其自身哥德尔数的TNTT数字,因为这一数字总比该符号串本身含有更多的符号。不过,你可以让G含有其自身哥德尔数的一个描述,再利用‘代入’和‘算数蒯因化’来绕过去。 ”
这里把我们对于“自指”情况的处理一步一步的平摊开来看,我们知道,这些步骤异常复杂(前面的笔记里详细说过)。然而这些步骤实际上在现实中,出现在水面之下(我们意识不到的部分,但它们是存在着的)往往在我们职场面试,开始自我介绍,说出:“我”这个字的时候,这些复杂步骤就已经发生了。
假设这个时候,我们来想一想:“我”这个字符所蕴含的意义:对于每个人来说,它所指代的就是自身的全部,但不是现实的全部,而是一个同构于自己全部存在现实的一个抽象思维“模型”,然后我们以符号“我”来描述这个抽象思维“模型”。
“ 在一个汉语句子中利用描述——不利用自引用或使用词组‘本句子’——但仍达到自指目的的方法之一就是蒯因的方法,对话《G弦上的咏叹调》里对这种方法有形象地说明。虽然乍一看它好像更为诡秘,其实倒是一种更为直接的方法。蒯因的构造在下述意义上极像哥德尔的构造:它通过描述另一个(已经证明)同构于蒯因句子的字符串来创造自指。对这串新字符的描述,是由这蒯因句句子的两个部分实现的。一部分是一组指令,它告诉我们如何建立一个词组,而另一部分则含有所要的素材,也就是说,这另一部分是一块模板。 ”
上述的“自指”中,我们看的,在被排除的两种构建“自指”句子的方法中;“自引用”这种方式还可以进行延伸,连接到“自我复制”这个概念上来。在后面的很长篇幅中,侯世达教授详细列举的大量的关于自复制的实例(说的非常详细),包括:自复制的程序、自复制的歌曲、遗传学中的自我复制……书里直接顺着话题就进入了很详细的例子描述,不过这里我们先看看关于“自我复制”这个概念本身来看:
约翰·冯·诺伊曼对这个概念有过研究,他的早期研究认为一个可以自我复制的对象应该包含以下部分:
(当然,现在也出现了例外的情况:比如现在的科学家已经可以做到成功地构建了一段RNA,并让它可以在RNA单体和转录因子的溶液“环境”下复制自身,在这个例子里,复制者是RNA,而复制机制存在于外界环境里。)
我们用上面关于“自指”语句的构筑(隐性自指的那个)来看冯·诺依曼的三个定义,就会直观很多: “这句话有七个字”这句话有七个字。 首先可以看到,个体的代码化表示,就是“双引号”的使用。但是后的两个部分都包含在我们手里:我们可以复制这句子——再抄一遍,我们也可以影响改写这个句子。如果这两个机制在这句话本身(它可以自动生成)的话,那么它就是一个完全的自复制。(计算机程序可以做到)
我们再来看看对于“自复制”的研究能得到什么。近年来的研究开始将能够自复制的研究对象及其应用进行分类:
1:所有或者大部分天然自复制对象都具有非人类的起源。包括天然的生物形态。
2:自养生物(可以用光合作用和化学作用从简单物质中生成有机化合物的生物——主要例子是植物)的自复制可以“在野外”进行自我复制。它们可以生产自己的养料。根据设想,人类可能设计出非生物的自养自复制物,它们可以更容易地制造出人类的产品。
3:自复制系统是一种设想中的系统,它可以从工业原料,例如金属条或者金属线中复制自己。
4:自我装配系统,它可以将分散的成品零件组装成自己的复制品。这种系统的简单范例已经在宏观上实现了。
5:自我复制机器的设计空间非常广阔。由 罗伯特·弗雷塔斯和瑞夫·墨克进行的一项比较研究中识别了137种设计维度,并且将其划分为十余种类别,包括:复制操作、复制信息、复制基底、复制结构、被动部分、主动部件、复制者能量、复制者动力学、复制过程、复制动作、产物结构、演化能力。
前面的语言例子我们已经看到,在创造“自指”的过程中,我们可以获得“自复制”的成果。在计算机科学中,自我复制程序就是利用相同的原理来复制自己的(史密斯探员来了)。自我复制程序在执行之后可以输出自身代码的程序。它也被叫做自产生程序(Quine),这个叫法以哲学家威拉德·冯·奥曼·蒯因命名(前面的笔记里介绍过这位哲学家)。
“ a = ' a = % r ; print a % % a ' ; print a % a ”
一个更加无趣的方法是编写一个将任何数据串复制一遍的程序,然后将它指向自身。在这个情况下该程序既是运行的代码,又是代码处理的对象。这个方法在许多自复制系统中很常见,包括生物系统。因为它不需要包含那些描述自身的代码,所以会更简单。
在许多程序语言中,一段空白的程序也是合法的程序,执行之后不会输出任何错误,也不会输出任何结果。由于输出的结果和原程序相同,所以这个程序在理论上也是自我复制的。
“ 这使人想起另一种新奇的自复制典型:复印机。可以断定任何手写的文件都是一个自复制,只要把它放进复印机并按一下电钮就行了。但这有点不符合我们的自复制概念。这个过程没有征求过这张纸的意见,因此它并没有指挥它自己的复制过程。于是和前面相同,所有奥妙都在处理机内。在把一个东西叫做自复制以前,我们需要有一种感觉:在尽可能的程度上,它明显地含有复制自己的只会过程。
确实,这种明显性是个程度问题。不过有一个直观的界限,在界限的这一边,是真正的自指挥的子复制过程,而另一边只有那种通过一台一成不变的、自动的复印机所做的复制。 ”
但是自复制实际上包含着远远要比我们所举出的例子还要复杂得多的机制,这点和上面关于自指的认知是一样的。表面上我们所看到的这个概念很简单,但是这只是冰山一角,隐藏在概念之下的认知处理要远远超过表面形式上所体现出来的这点内容。(下面还可以再细说一下)。
“ 在对自指和自复制的任何讨论中,我们早晚都得面临‘什么是副本’这个问题。在第五章和第六章中我们曾相当严肃地讨论过它,现在再来回到这个问题。 ”那我们简单回顾一下,第五和第六章的内容——《和声小迷宫》与《音程增值卡农》。。在这部分的时候我们详细谈讨论了很多东西,那么核心是哪两个概念呢?“递归”与“同构”,以及意义之所在。现在我们把这几个概念拿过来,和我们现在正在讨论的“自指”与“自复制”放到一起看,我们是不是联想到了很多有意思的问题呢?
那些很经典的科幻讨论,尤其是涉及到克隆技术的:我的克隆能等于我吗?即使记忆和性格完全一样?一条破船一遍一遍维修,直到船上的每一个零件都被替换成新的了,即使这零件和原本一模一样,这条船还是原来的那条船吗?诸如此类的问题还有很多……
那么简而言之,我们问的问题就是很简单的,也经常遇到的:副本等于原件吗?我们当然第一反应是认为不等于——因为叫法就不一样。但是如果抛开定义来看呢?很多人可能就沉默了,这类问题往往也会抛开字面上的意思来进行思辨。
“ 因为我们习惯于认为一件东西和它的镜像含有相同的信息。不过,回忆一下在第六章中,我们曾使‘固有意义’这一概念依赖于把智能假定为一个普遍观念。其思想是,在确定一个对象的固有意义时,我们可以忽视某些类型的外在消息——那些能够普遍被理解的信息。也就是说,在某种仍有缺陷的意义上,如果解码机制看上去足够基本,那么所要揭示的内在消息就是该考虑的唯一意义。在这个例子中,就似乎有充分的把握猜想一个‘标准智能’会认为两个镜像含有彼此相同的信息。这也就是说,它认为两者之间的同构映射十分不足道,以至可以忽略。 ”
在递归部分论述的时候,笔者找了一个书里没提到的概念——“分形”。在计算机中,分形图像也可以依靠递归程序生成,而且在分形的定义中也涉及到一个相关的概念:“自相似”——自身的每一个部分都是对自身整体的一个副本。毫无疑问,如果硬要找出不同,我们能提出来的都是在外部信息上体现的:大小、表述形式、部分属性的变化——书里另外举出了音乐上卡农的例子和哥德尔配数的形式系统的例子作比较。
“ 这使人联想起生物的自复制过程。显然任何一个生物体都不全同于父母,那为什么生儿育女这一类事情还叫‘自复制过程’呢?答案是,双亲和孩子之间有一个粗略的同构。这是一个保持物种信息的同构。因此,复制的东西是类而不是例。第五章的递归图案‘G图’也是如此:在那里,不同大小和形状的‘磁性蝴蝶’间的那个映射是很粗糙的。任何两个蝴蝶都不尽相同,但它们都属于同一‘物种’,而这个映射恰好保持了这一事实。用自复制程序的话来说,这将与一族程序相对应,这些程序都是用出自同一种计算机语言的各种‘方言’写的,每一个程序都能把自己打印出来,但都稍作改变,以使得结果是原先的语言的一种方言。 ”
所以这个问题之间的关系,远远要比字面看起来复杂得多。有意思的地方就在这里,我们任何时候讨论问题都是为了停止讨论而讨论,这个很多人可能会意识不到,而在关于自指和自复制的问题上,我们的这种“讨论”本质体现得更加明显。因为我们不得不忽略掉现实,以一个简化模拟来进行“探讨”,否则探讨就不成立。“ 显然,一个自复制可以包括比单纯地打印自己更为丰富的内容。 ”
这里已经隐约把我们带向了停机问题,这将会在后面的内容中提到,这里参且掠过。
在原书后面将近六十多页的内容里,侯世达教授用了很长的篇幅在探讨各种例子。那些例子是存在于现实当中的,把数据、程序、解释程序、处理机制全都搅和在一起的自复制,这种复制的过程包含了前面的全部内容。于是问题就不再是我们看到之前举出的那些例子了,而是一个复杂度在另一个维度上的问题了。
“ 现在,我们该讨论二十世纪中一项最吸引人而又意义深远的课题了:对‘生命王国的分子逻辑’进行研究。 ”分子生物学的广义定义来说,是从分子层面对生物现象进行研究;狭义的定义上来说,是从基因结构和功能的分子层面对生物进行研究。分子生物学是从遗传学和生物化学衍生而来的学科。分子生物学主要致力于开发对细胞中不同系统之间相互作用的研究技术,包括:DNA、RNA、蛋白质和蛋白质生物合成之间的关系,以及了解它们之间是如何被调控的。
在分子生物学中大量工作是定量的,而且最近的许多研究工作是在结合生物信息学和计算生物学的基础之上完成的。从本世纪(二十一世纪)开始,研究基因结构和功能的分子遗传学已经成为发展最快的领域之一。
越来越多的学科已经将目光集中到分子水平的研究中,一方面直接研究相关分子间相互作用,如细胞生物学和发育生物学;另一方面利用分子生物学技术来研究并推测群体和物种的历史贡献(非直接,遗传水平),如进化生物学领域中的群体遗传学和系统发生学。此外,生物物理学除了研究大尺度器官构造之外,一直都有从头研究生物分子的传统。
那么这门学科与本章节主题之间的关联又在哪儿呢?我们再来看看这门学科的其中一个领域——分子遗传学:分子遗传学是分子生物学中的一个领域,专门在分子层次下研究遗传学,这一学门使用许多分子生物学与遗传学的研究方法 。对生物体染色体和基因表达的研究可以深入了解遗传,遗传变异和突变。 这些研究成果在发育生物学的研究和理解和治疗遗传疾病中很有用。
在遗传学中,有两个分类:古典遗传学与现代遗传学。在这几个学科领域中,,很多问题是各方面都涉及的互相交织在一起,看起来好像有点分不清。但是在这里我们思考问题的时候,应该引用之前提到过的“层次”的概念。简而言之,这些学术领域之所以叫法不一样,是因为它们涉及到的是同一个问题的不同层次:生物学、遗传学、生物化学、分子遗传学、分子生物学……
分子生物学的中心法则(The central dogma of molecular biology,又译分子生物学的中心教条/遗传学中心法则),首先由佛朗西斯·克里克(DNA双螺旋结构的发现者之一)于1958年提出,并于1970年在《自然》上的一篇文章中重申:
“ The central dogma of molecular biology deals with the detailed residue-by-residue transfer of sequential information. It states that such information cannot be transferred from protein to either protein or nucleic acid.
(分子生物学的中心法则旨在详细说明连串信息的逐字传送。它指出遗传信息不能由蛋白质转移到蛋白质或核酸之中,换句话说,遗传信息传到蛋白质之后,不能回流到核酸之中。) ”
中心法则经常遭到误解,尤其与遗传信息“由DNA到RNA到蛋白质”的标准流程相混淆。有些与标准流程不同的信息流被误以为是中心法则的例外,其实朊病毒是中心法则现时已知的唯一例外。
遗传信息的标准流程大致可以这样描述:「DNA制造RNA,RNA制造蛋白质,蛋白质反过来协助前两项流程,并协助DNA自我复制”,或者更简单的“DNA → RNA →蛋白质”。所以整个过程可以分为三大步骤:转录、翻译和DNA复制。
中心法则是遗传学的一个框架,用于理解遗传信息在生物大分子之间传递的顺序,对于生物体中三类主要生物大分子:DNA、RNA和蛋白质,有9种可能的传递顺序。法则将这些顺序分为三类,3个一般性的传递(通常发生在大多数细胞中),3个特殊传递(会发生,但只在一些特定条件下发生),3个未知传递(可能不会发生)。
一般:DNA→DNA、DNA→RNA、RNA→蛋白质
特殊:RNA→DNA、RNA→RNA、DNA→蛋白质
未知 :蛋白质→DNA、蛋白质→RNA、蛋白质→蛋白质
侯世达教授在这里使用印符系统对这个法则进行了符号化,以便于其可以操作,教授在这里想做什么呢?
“ 我的希望是,通过我所构造的这个瘦骨伶仃的模型,读者可以了解该领域的某些简单统一的原则——否则,这些原则可能会被很多不同层次上的各种现象之间庞大而复杂的相互作用所淹没。我所牺牲的东西自然是严格的精度,所获得的东西——我希望——是一点洞见。 ”
在中心法则框架下,遗传信息的一般性传递的具体步骤是这样的:
(1)转录 :(Transcription)是遗传信息由DNA转换到RNA的过程。转录是信使RNA(mRNA)以及非编码RNA(tRNA、rRNA等)的合成步骤。转录中,一个基因会被读取、复制为mRNA;这个过程由RNA聚合酶(RNA polymerase)和转录因子(transcription factor)所共同完成。
(2)RNA编辑 :(RNA editing)是指在RNA水平上的改变遗传信息的加工过程,导致成熟的RNA编码序列和它的转录模板DNA序列之间的不相匹配。在真核生物的tRNA、rRNA和mRNA中都发现了RNA编辑这种现象。RNA编辑有核苷酸的删除或插入编辑、碱基替换编辑2种类型。这种改变影响了基因的表达,生成不同的氨基酸以及新的开放读码框。编辑可在多种水平被调节,并且与一些人类疾病有一定的相关性。
(3)剪接 (遗传学) :在真核细胞中,原始转录产物(mRNA前体Pre-mRNA)还要被加工:一个或多个序列(内含子)被剪出除去。选择性剪接的机制使之可产生出不同的成熟的mRNA分子,这取决于哪段序列被当成内含子而哪段又作为存留下来的外显子。并非全部有mRNA的活细胞都要经历这种剪接;剪接在原核细胞中是不存在的。
(4)转译/翻译 (遗传学) :最终,成熟的mRNA接近核糖体,并在此处被翻译。原核细胞没有细胞核,其转录和翻译可同时进行。而在真核细胞中,转录的场所和翻译的场所通常是分开的(前者在细胞核,后者在细胞质),所以mRNA必须从细胞核转移到细胞质,并在细胞质中与核糖体结合。核糖体会以三个密码子来读取mRNA上的信息,一般是从AUG开始,或是核糖体连接位下游的启始甲硫氨酸密码子开始。启始因子及延长因子的复合物会将氨酰tRNA(tRNAs)带入核糖体-mRNA复合物中,只要mRNA上的密码子能与tRNA上的反密码子配对,即可按照mRNA上的密码序列加入氨基酸。当一个个氨基酸串连成多肽的肽链后,就会开始折叠成正确的构形。这个折叠的过程会一直进行,直到原先的多肽的肽链从核糖体释出,并形成成熟的蛋白质。在一些情况下,新合成的多肽的肽链需要经过额外的处理才能成为成熟的蛋白质。正确的折叠过程是相当复杂的,且可能需要其他称为分子伴侣的帮忙。有时蛋白质本身会进一步被切割,此时内部被“舍弃”的部分即称为内含肽。
(5)DNA复制 :作为中心法则的最后一步,DNA必须忠实地进行复制才能使遗传密码从亲代转移至子代。复制是由一群复杂的蛋白质完成的;这些蛋白质打开超螺旋结构、DNA双螺旋结构,并利用DNA聚合酶及其相关蛋白,拷贝或复制原模板,以使新代细胞或机体能重复DNA → RNA →蛋白质的过程。 DNA分子存在着构型多样性,在遗传信息的传递和表达过程中,DNA构象存在着左手螺旋及右手螺旋向右手螺旋的转变过程,因此应赋有核酸构象的转换形式。
除了上述的一般性过程外,还有些特殊情况:比如有些病毒含有整套以RNA形式编码的基因组,因此他们只有RNA→蛋白质的编译形式。另外现在还发现了拟逆转录的现象:近年在植物体内发现了拟逆转录病毒,这种病毒的遗传物质是双链DNA,能像逆转录病毒一样,通过把自己的DNA整合到寄主的基因组DNA中去,再进行复制。
(1)逆转录 :在中心法则被详细阐述之后,人们发现了逆转录病毒,例如,人类免疫缺陷病毒(HIV)和在真核生物中反转录转座子和端粒的合成。这些病毒可通过一种叫做逆转录酶的催化,以RNA为模板逆转录合成cDNA再由cDNA转录出RNA。这肯定了RNA向DNA转录的存在。人们最初以为这种现象仅出现于病毒中,但在最近,在高等动物中亦发现了RNA向DNA转录的逆转录转座子。
(2)RNA复制 :有些病毒的遗传物质是RNA分子,靠RNA复制而传代,以RNA为模板的RNA复制酶催化下合成RNA分子,RNA复制酶中缺乏校正功能,复制时错误率很高。RNA复制酶只对病毒本身的RNA起作用,而不会作用于宿主细胞中的RNA分子。
RNA编辑,在其中的RNA序列是由蛋白质的复合体和一个“引导RNA”改变,也可以看作是一种RNA到RNA的转移。
(3)RNA催化 :人们一直认为生物体内的各种生化反应都是由酶来催化完成的,而RNA仅是存贮与传递信息,与酶的催化反应无关。核糖核酸酶P是一种核酶,即由一个RNA分子发挥催化活性,它是第一个被发现的蛋白质以外具有催化活性的生物大分子。它的功能是剪切tRNA分子中RNA上多余的或前体的多余序列。RNA可以不通过蛋白质而直接表现出本身的某些遗传信息,而这种信息并不是以核苷酸三联密码来编码。
(4)直接以DNA为模板合成蛋白质 :有人在一些离体实验中观察到,一些与蛋白质合成抑制剂类抗生素如新霉素和链霉素,能扰乱核糖体对信使的选择,从而可以接受单链DNA分子代替mRNA,然后以单链DNA为模版,按核苷酸顺序转译成多肽的氨基酸顺序。另外还有研究表明,细胞核里的DNA可以直接转移到细胞质中的核糖体上,不需要通过RNA也可以控制蛋白质的合成。
一个遗传信息的未知传递步骤的例子是朊病毒:朊病毒是通过改变其他蛋白质的构象来进行自身精确复制的一类蛋白质。也就是:蛋白质→蛋白质。这种具有感染性的因子主要由蛋白质组成。具有感染性的因子PrpSC与正常因子PrPC在形状上有一点不同。科学家推测这种变形的蛋白质会引起正常的PrPC转变成具有感染性的蛋白质,这种连锁反应使得正常的蛋白质和致病的蛋白质因子都成为新病毒。
另外在1994年乔依斯等人发现DNA也具有酶活性,他们在一个人工合成的DNA分子具有一种特殊的磷酸二酯酶活性。此后又有多例报道人工合成的DNA序列具有各种不同的酶活性。1995年中国学者王身立等人发现从多种生物中提取的DNA均具有酯酶活性,能催化乙酸萘酯水解为萘酚和乙酸。这种较弱的酯酶活性是非特异性DNA的一般性质,并不需要特定序列的DNA编码。
克里克在上述那篇1970年的文章中指出,中心法则虽然对指导实验很有用,但不应该被当成教条:
“ 虽然本文所提出的各类法则看来是可靠的,可是我们对分子生物学的认识,即使只是一个细胞—更不用说大自然里的整个生命体—仍然远远未完备到,足以让我们把它当成教条一样肯定正确的程度 ” —— 克里克
自从克里克发表1970年那篇文章以来,很多新发现证明了中心法则补充和发展的必要。一些系统生物学家认为中心法则有时会被滥用作一种研究策略。他们认为,不加批判地死板套用中心法则,会加大认识多细胞发育和疾病的难度。中心法则会常被当作是一种简化论研究策略,从小处着眼,企求用分子生物学去解释一切生物现象。虽然这些研究人员不会执拗于中心法则的具体解读,但他们会认为这种简化论研究策略会阻碍人们去理解一些无法单独靠分子相互作用解释的复杂系统。
“ 我把它叫做印符遗传学。在印符遗传学里,我力图在一个印符系统(乍一看很像以WJU系统为代表的那类形式系统)中,捕捉分子遗传学的某些思想。当然,印符遗传学中包含了很多简化工作,从而特别有利于教学目的。
我得赶紧解释一下,分子生物学领域是一个若干层次上的各种现象相互作用的领域,而印符遗传学只打算解释来自一两个层次的现象。具体说,纯粹化学的方面完全被排除了——因为它们低于此处所讨论的层次。与此相似,古典遗传学(非分子遗传学)的一切方面也都排除在外——它们所属的层次比这里讨论的要高。……
我的希望是,通过我所构造的这个瘦骨伶仃的模型,读者可以了解该领域的某些简单统一的原则——否则,这些原则可能会被很多不同层次上的各种现象之间庞大而复杂的相互作用所淹没。我所牺牲的东西自然是严格的精度,所获得的东西——我希望——是一点洞见。 ”
我们在前面接触过了TNT——印符数论,也就是用字符串运作描述“自然数数论”的一个形式系统,那么这里的印符遗传学就与此类似,也是利用字符串的运作来描述遗传学的各个现象和规律。
那么我们可以把上面那一段关于中心法则的内容对应到印符遗传学当中去,那么它们就会以字符串的形式表现出来。(一串字符——一个定理——一种被证明的现象)
但我们对于基本的字符还没有概念,也就是说我们看到的这些现象之下还存在着一些更基本的层次。我们可以继续来看看,其实把这部分内容对应到书中去之后,书中的印符系统的运作也会变得清晰明了起来。那么先从系统的基本开始(系统的字符)——DNA的基本构成。
我们在前面的笔记里其实看过DNA的基本构成:DNA由核苷酸相互连接而形成的链分子,其中的核苷酸有四类:腺苷酸(A)、胞嘧啶(C)、鸟苷酸(G)和胸腺嘧啶(T)。DNA通常以双链分子的形式存在,并卷曲形成双螺旋结构。DNA中的每一个核苷酸都有自己的配对核苷酸在相反链(对应另一条链)上,其配对规则为:A与T配对,C与G配对(碱基对)。
而这里的核苷酸实际上还更复杂一些:核苷酸的结构是以一个碱基为核心,加上一个五碳糖和一个或者多个磷酸碱基团组成。所以C、G、A、T也可以叫做“核碱基”。(为什么这里有两种叫法呢?因为碱基同时还有化学上“盐基”的意思,另外碱基根据不同构成也会形成氨基酸与核苷酸两种。所以这里的叫法——有点类似于卡迪安星系的主星也叫“卡迪安”一样,为了省力些。)
那么很清楚——A、C、T、G这四个字母就是印符系统中最基本的字符了,当然还有一些符号来表示它们的构成关系,但这里太复杂了,就暂时略过了。那么它们的构成关系是什么样的呢?
三个相邻的碱基对形成一个密码子。一种密码子对应一种氨基酸,不同的氨基酸合成不同的蛋白质。蛋白质和核酸(DNA、RNA)、多糖等一样,同属于生物大分子结构。蛋白质含有多种类型,当中最常见的是酶: 酶是催生生物化学反应和代谢最重要的一类物质。
在知道了上面的关系之后,我们看看整个关系链: 最基础的字符单位是“碱基”,碱基的不同结构可以构成两类:核苷酸与氨基酸。核苷酸与氨基酸又各自进一步顺着“推理规则”,构建出生物大分子:核酸、蛋白质等。核酸与蛋白质当中各自又根据不同结构有不同的类型——DNA、RNA、多种酶……
在印符遗传学当中,我们就顺着上述过程,从最基本的字符,最后构成了长串长串的字符串。比如印符遗传学当中,三个字母一组可以构筑出十五种类型的指令(十五种氨基酸)。这里侯世达教授反复强调,印符遗传学的内容要比显示的分子遗传学简化很多,不可以混淆!因为在现实中实际上构成天然蛋白质的常见氨基酸有20种。(这里还只是说自然常见的情况,还有一些特殊情况没有被列入进来,可见自然世界运作之复杂)
“ 印符遗传学就像实际的遗传学一样,其方案颇有些诡秘。我们从某个任意的串出发,这多少有点像形式系统中的一条公理。但是一开始时,我们并没有‘推理规则’——也就是说并没有酶。然而,我们可以把每个串翻译成一种或多种酶!这样,串自己就会口授将要在它们身上施行的操作,而这些操作又会依次产生出新的串,新串又会口授进一步的酶,如此等等!这简直是登峰造极的层次混合!为了对比,想想WU谜题,若能把每次生成的新定理都通过某种编码转换成一条新的推理规则,那么WU谜题会是多么的不同! ”到此关于分子生物学为什么要进行这么详细的阐述的原因已经明白了——这种复杂的层次间混合并产生连锁反映的情况中——我们是不是看见了其中的“自指”与“自复制”?
“ 印符遗传学中的酶就像形式系统中的推理规则,它们闭着眼睛调动串中的符号,而不顾有可能潜藏在符号内的任何‘意义’。所以这里就有一个怪异的层次混合状态。一方面,串是被作用的,因而充当了数据的角色;另一方面,它们又支配这个施加在数据上的作用,因为又充当了程序的角色。当然,起解释程序和处理机作用的是做游戏的人……
在WJU系统中,层次有明显的区别:推理规则绝对属于比符号串高的层次。对于TNT系统以及所有的形式系统,情况都类似。
但是,我们已经看到,在另一个意义上,TTNT中的各层次是混合在一起的。事实上,语言和元语言之间的界限已经打破了:谈论该系统的句子在该系统内部有一个镜像。这表明,如果我们画一个表示TNT与其元语言之间的关系的图,那它就将以一种十分醒目的方式相似于表示分子生物学中心法则的图。事实上,详细做这个对比正是我们的目标 ”
基因通常是通过生成所编码的蛋白质(执行细胞中大多数功能的复杂的生物大分子)来表现它们的功能性影响。蛋白质是由氨基酸所组成的线性链,而基因的DNA序列(通过RNA作为信息的中间载体)被用于产生特定的蛋白质的氨基酸序列。这一过程的第一步是由基因的DNA序列来生成一个序列互补的RNA分子,即基因的转录。
通过转录产生的RNA分子(信使RNA)被用于生产相应的氨基酸序列,这一转换过程被称为翻译。核酸序列中的每一组三个核苷酸组成一个密码子,可以被翻译为20种出现于蛋白质中的氨基酸中的一个,这种对应性被称为遗传密码。这种信息的传递是单一方向性的,即信息只能从核苷酸序列传递到氨基酸序列,而不能从氨基酸序列传递回核苷酸序列,这一现象被弗朗西斯·克里克称为分子生物学中心法则(如上所述)。
特定的氨基酸序列决定了对应蛋白质的独特的三维结构,而蛋白质结构则与它们的功能紧密相连。一些蛋白质是简单的结构分子,如形成纤维的胶原蛋白。蛋白质可以与其他蛋白质或小分子结合;例如,作为酶的蛋白质通过与底物分子结合来执行催化其化学反应的功能。蛋白质结构是动态的;比如在血红蛋白在哺乳动物血液中捕捉、运输和释放氧气分子的过程中能够发生微小的结构变化。
基因序列上的单个核苷酸变化(密码子改变)可能会导致所编码蛋白质的氨基酸序列相应改变。由于蛋白质结构是由其氨基酸序列所决定的,一个氨基酸的变化就有可能通过使结构失去稳定性或改变蛋白质表面而影响与该蛋白质其他蛋白质和分子的相互作用,而引起蛋白质性质发生剧烈的改变。
也有一些基因被转录为RNA分子后却不被转译成蛋白质,这些RNA分子就被称为非编码RNA。在一些例子中,这些非编码RNA分子(如核糖体RNA和转运RNA)折叠形成结构并参与部分关键性细胞功能。还有的RNA(如microRNA)还能够通过与其他RNA分子杂交结合而发挥调控作用。
对于大部分的蛋白质来说,转译后修饰是蛋白质生物合成的最后步骤。蛋白质的转译后修饰会附上其他的生物化学官能团、改变氨基酸的化学性质,或是造成结构的改变来扩阔蛋白质的功能。酶可以从蛋白质的N末端移除氨基酸,或从中间将肽链剪开。举例来说,胰岛素是肽的激素,它会在建立双硫键后被剪开两次,并在链的中间移走多肽前体,而形成的蛋白质包含了两条以双硫键连接的多肽链。其他修饰,就像磷酸化,是控制蛋白质活动机制的一部分。蛋白质活动可以是令酶活性化或钝化。
蛋白质有自剪接现象,与mRNA相同,一些蛋白质前体具有内含子(intein)序列,多肽序列中间的某些区域被加工切除,剩余部分的蛋白质外显子(extein)重新连接为蛋白质分子。
“ 随着一个蛋白质从核糖体中走出来,它不仅会越来越差,而且会逐渐的折迭成一个奇特的三维形状,很想是那种滑稽的蛇形烟火,在点亮时一面伸长,一面卷曲。这种形状称作蛋白质的三级结构,而原先的氨基酸序列叫做蛋白质的一级结构。这个三级结构暗含在一级结构之中,这正和印符遗传学的情形一样。可是,如果你只知道一级结构,那么导出三级结构的方法可就远比印符遗传学要复杂了。事实上,搞清某些规则,以便只要知道了蛋白质的一级结构就能指出其三级结构,乃是当代分子生物学中悬而未决的问题之一。 ”
这里的问题其实可以回到之前笔记中关于“层次”以及“组块化”的内容里去看,很有意思的是,之前很多大书特书的内容,在这里都遇到了实际情况做对照。在透视层次的时候,我们还有一些生成/推导规则没有发现,以至于我们并不能把上下层次直观的连接起来,但是我们确实很清楚存在一些现有形式之外的“连接”。(当然,现代的分子生物学所发现的内容,要比GEB出书那会发现的多,可能书里的有些例子会有点过时了,当然这不妨碍我们理解大概的框架)
除了上述之外,还有一个有牵连的问题,我们又回到了整体论与简化论之争上面来了。上面提到过蛋白质中的一大类——酶,酶既是一种蛋白质,又是一种催化素。它扮演着双重角色,但我们无法单纯用它的片段——氨基酸来直接解释酶的功能,如上所说(蛋白质的一级结构到三级结构的过程),目前我们还不清楚层次之间的关联,如何阐明其功能也是一大问题。
书中经常会在详细的阐述一些概念主题之后,拿来多个不同领域的例子做横向对比,这是一个很有趣的事情。在这里也确实存在着一些横向比较,书中就用DNA和卡农、乐曲以及哥德尔配数做了横向比较,同样在分子遗传学当中的类似描述,我们确实可以搬到这些对比的例子当中去。它它们为什么可以这样做对比呢?一个原因是它们在某种意义上是相类似的——它们都是复杂系统。这里还得详细说一说遗传中的基因发生的情况,然后再来横向做做比较。
一个生物体的基因组含有数千个基因,但并不是所有的基因都需要保持激活状态。基因的表达表现为被转录为mRNA,然后再被翻译成蛋白质;而细胞中存在许多方式可以来控制基因的表达,以便使蛋白质的产生符合细胞的需求。而控制基因表达“开关”的主要调控因子之一就是转录因子;它们是一类结合在基因的起始位点上的调控蛋白,可以激活或抑制基因的转录。
虽然基因含有生物体所需功能的所有信息,但环境依然在确定生物体最终的表现型中发挥着重要作用;这种两面性分别被称为“先天”与“后天”,也可以说,一个生物体的表现型依赖于遗传与环境的相互作用。这种相互作用的一个例子就是温度敏感型突变:“蛋白质序列中的单个氨基酸突变通常不会改变该蛋白质的行为和与其他分子的相互作用关系,但却能够使该蛋白质结构变得不稳定。在一个高温环境中,分子的运动加快,分子间的碰撞也加强,这就使得这一蛋白质的结构被破坏从而无法发挥它的功能;而在一个低温环境中,蛋白质结构却可以保持稳定并能够发挥正常的功能。”
比如:在大肠杆菌细菌基因组内存在着一系列合成色氨酸所需的基因。然而,当细菌细胞可以从环境中直接获得色氨酸时,这些基因就不被细胞所需要。色氨酸的存在直接影响了这些基因的活性,这是因为色氨酸分子会与色氨酸操纵子(一种转录因子)结合,引起操纵子结构变化,使得操纵子能够结合到合成色氨酸所需基因上。色氨酸操纵子阻断了这些基因的转录和表达,因而对色氨酸的合成进程产生了负反馈调控作用。
另外:在人类遗传疾病苯丙酮尿症中,环境因素也具有重大的影响。导致苯丙酮尿症的突变破坏了机体降解苯丙氨酸的能力,导致具有毒性的中间产物分子在体内堆积,从而引起严重的进行性智能发育不全和癫痫。
多细胞生物中的基因表达的差异性非常明显:虽然各类细胞都含有相同的基因组,却由于不同的基因表达而具有不同的结构和行为。多细胞生物中的所有细胞都来源于一个单一细胞,通过响应外部或细胞之间的信号而不断分化并逐渐建立不同的基因表达规律来产生不同的行为。因为没有一个单一基因能够负责多细胞生物中的各个组织的发育,因此这些规律应来自于许多细胞之间的复杂的相互作用。这些过程都要通过基因调控来完成。
真核生物体内的染色质中存在着能影响基因转录的结构特点,常常表现为DNA和染色质的修饰形式(如DNA的甲基化),而且能够稳定遗传给子细胞。这些特点是“附加性”的,因为它们存在于DNA序列的“顶端”并且可以从一个细胞遗传给它的下一代。由于这些附加性特点,在相同培养基中生长的不同的细胞类型依然保持其不同的特性。虽然附加性特点在整个发育过程中通常是动态的,但是有一些,例如副突变(paramutation)现象可以被多代遗传,也是“DNA是遗传的分子基础”这一通用法则的极少数例外。
在DNA复制的过程中,第二链的聚合中偶尔会产生复制错误。这些错误被称为突变,它们能够对于一个生物体的表现型产生影响,特别是当它们位于一个基因的蛋白质编码区中时。错误率通常非常低:每0.1 - 1亿个碱基才会出现1个错误;这是由于DNA聚合酶具有“校对”能力。没有校对机制则错误率会增加1000倍,例如许多病毒所依赖的DNA或RNA聚合酶缺乏校对能力,这使得病毒复制过程具有很高的突变率。能够增加DNA发生改变的几率的因素被称为突变原:一些化学品常常可以通过影响正常的碱基对结构来提高DNA复制中的错误率,而紫外线能通过破坏DNA结构来诱发突变。由于对DNA的伤害在自然界中随时都会发生,细胞则利用DNA修复机制来修复DNA中存在的错误配对和断裂,但有时也无法将受破坏的DNA还原到破坏前的序列。
在利用染色体互换来交换DNA和重组基因的生物体中,减数分裂过程中所出现的配对错误也会导致突变。当相似序列导致姐妹染色体产生错误配对时,这种染色体互换出现错误的可能性非常大;这使得基因组中一些区域更趋向于以这一方式发生突变。这些错误能够对DNA序列产生很大的结构变化:整个区域的重复、倒位或删除,或者不同染色体之间发生意外性的交换(被称为染色体易位)。
突变会使生物体具有不同的基因型,并可能导致不同的表现型。许多突变对于生物体的表现型、健康和繁殖适应性基本没有影响。有影响的突变则往往是有害的,但也有少量是有益的。在对果蝇的研究中发现,如果一个突变改变了基因所编码的蛋白质,那这一突变很可能是有害的(大约有70%的此类突变具有破坏性影响,而剩余的突变则是中性的或微弱有益的)。
一个群体中的一个等位基因的变化频率会受到自然选择的影响,具有更高的存活率和繁殖率的等位基因能够随着时间而越来越频繁地出现在该群体中。此外,遗传漂变能够引发等位基因出现频率的随机变化而不受自然选择的影响。
在经过多个世代的传承后,生物体的基因组会发生改变,引起被称为进化的现象。突变和对于有益突变的选择使得一个物种不断地进化到能够更好地在所处的环境中生存下来的形式,这一过程被称为适者生存。新的物种的形成常常是由于地理分离而造成的,地理上的分离使得不同种群能够在遗传学上独立发展而产生分化。遗传学定律在群体生物学和进化研究中的应用被总结为现代综合理论。
由于进化过程中的序列分化和变化,物种的DNA序列之间的差异可以用作“分子时钟”(molecular clock)来计算物种之间的进化距离。遗传比较被普遍认为是鉴定物种之间亲缘关系的最准确的方法,过去常用的方法则是比较物种之间的表现型的特征。物种之间的进化距离可以用进化树来综合表示,进化树可以表示由共同祖先随时间分化而来的物种之间的亲缘关系,但不能表示无亲缘关系的物种之间的遗传物质的转移(被称为基因水平转移,在细菌中非常普遍)。
“ 从一个DNA串里可以读出好几个不同层次的意义,这要看你把DNA划成多大的块,以及你使用的解码器有多强。在最低的层次上,每一个DNA串给一个等效的RNA串编码——作为转录的编码过程。如果将DNA组块而形成的三元组,那么,利用‘遗传解码器’就能把DNA读成一系列氨基酸。这是(在转录之上的)一个翻译。在下一个自然的层次上,DNA又可读成一组蛋白质的代码。这个把蛋白质从基因里拽出来的物理过程叫做基因表示。目前,这是我们所了解的DNA意义的最高层次了。
然而肯定有更高层次的意义,它们更难察觉。例如,有种种理由使人们相信(比如说人的)DNA含有个人特质(如鼻子的形状、音乐天分、反应速度等等)方面的密码。我们能不能在原则上学会直接从一个DNA串读出这些信息,而不必经历实际的物理渐成过程(从遗传型到表现型的物理显示)呢?大概是可以的。因为在理论上我们可以用有一个强得难以置信的计算机程序来模拟整个过程,包括每个细胞、细胞中的每种蛋白质、以及DNA复制时所涉及的每个细微末节,等等,一直做到底。这样一个伪渐成程序就是表现型的一个高层次描述。
另外还有一种(极其微弱的)可能:我们毋需去同构模拟渐成过程,而是通过找到某种较为简单的解码器,直接从遗传型读出表现型来。这可以叫做‘捷径伪渐成过程’。捷径也好,非捷径也好,伪渐成过程目前当然还远未达到…… ”
假设我们把DNA的种种与音乐对应起来,我们会发现一种很有意思的对照关系:我们把基本的碱基看作是音符、把氨基酸、核酸看作是和弦、那么到了DNA、RNA与蛋白质这一层次,就可以对应到乐曲上来了,同样的材料根据不同的关系可以构造出千变万化的类型。而这还没有结束,再看看上面基因在整个遗传过程中的表现——调控、突变等等……那么DNA对应于乐曲的话,整个基因遗传过程就相当于一段大规模的音乐史了;音乐历史上,音乐的体裁诞生、风格演进都是确实存在的现象,这与基因在遗传过程中的种种表现是如此类似。
然后是书中给出的另一个对应,分子遗传学对应于第九章《对位藏头诗》,也就是螃蟹与乌龟的“完备”唱机之争,而我们知道这个唱机之争的内容可以和哥德尔定理互相映射。但这种对比并不是死板的,而是很灵活的。
直接来说说:还记得乌龟和螃蟹的唱机论战中,乌龟干了什么事吗?它针对螃蟹的唱机设计了一种唱片,唱片里有一种声波可以摧毁唱机的自身结构,于是唱机播放唱片导致自毁。那么这个如何对应到分子生物学里面呢?这里对应的是这样一种情况——病毒入侵细胞。
病毒进入细胞,病毒DNA破坏了主体的DNA,并利用细胞本身机制使它无法生成本身的蛋白质,转而开始生产病毒的蛋白质,病毒的第一批蛋白质进而开始复制病毒DNA。病毒的蛋白质(酶)攻击细胞壁,释放内部复制的病毒DNA。(有没有人联想到异形的生殖循环呢?)
注意病毒复制自身所利用的正是病毒感染的正常细胞的蛋白质合成机制,当然被入侵的细胞也会进行抵抗,这就可以对比到唱机的例子上来看了。乌龟不停的针对设计出新的唱片——病毒变异、螃蟹不断的升级自己的“完备唱机”——注射病毒疫苗后获得免疫力的细胞。
“ 识别过程是细胞和亚细胞生物学的中心主题。分子(或一些高层结构)如何互相识别?为了做到这一点,酶必须能锁在其基质的特殊‘拴缚部位’上,细菌必须能区别它自己的DNA和噬菌体的DNA,两个细胞必须能通过一种有控制的方式彼此识别和相互作用。这种识别问题可能会使你想起当初关于形式系统的那个关键问题:你怎么才能说清一个符号串有没有某种性质(比方说‘是定理’)?有没有一个判定过程?这类问题并不限于数理逻辑:它还渗入计算机科学乃至(我们已经看到了)分子生物学。 ”
这种类似于蕴含着“自我识别”的情况,在数理逻辑系统里也存在着,而且就是前面提到过的关于哥德尔类型符号串的例子。(这里使用的是侯世达教授自己构建的TNT系统)在形式系统里,语句能够对自身进行定性,但这里又有两种情况,一种定性是直接定性,而没有推导过程(它说是什么就是什么);“隐性”。另一种定性则有一个推导过程的描述(得出的结论在更高层次上);“显性”。回想上面关于隐形自指和显性自指语句的分类,我们是不是发现这其中蕴含着一些逻辑了呢?(但这部分实在是太飘渺不定了,书里也只是在讨论这些情况,并没有下断言。书中管这些逻辑语句叫“汉肯句子”,来自于数学逻辑学家列昂·汉肯的定义,但是很可惜笔者没有查到这位数学家的相关资料,只能直接引用书中的描述了。)
“ ……这很好地对应着两类病毒之间的一个重要的区别。有一类病毒(比如所谓的‘烟草花叶病毒’),叫做自组装病毒;同时也还有另一类病毒,比如我们最喜欢用的T偶数族病毒( T4噬菌体 ),叫做非自组装病毒。区别何在?者可以直接类比于隐性和显性的汉肯句子。
一个自组装病毒的DNA只给新病毒的各个部分编了码,而不给任何酶编码。一旦这些部分都造了出来,那个诡秘的病毒就依靠它们自行连接起来,而兀需什么酶的帮助。这样的过程依赖于各个部分在细胞的醇厚饮料中游泳时彼此之间所具有的化学亲和力。不光是病毒,某些细胞器——例如核糖体——也是自组装的。有些时候可能也需要酶——不过在这种情形,酶是从宿主细胞中硬拉来为其所奴役的,这就是自组装的含义所在。
反之,诸如T偶数号那样的比较复杂的病毒的DNA,就不仅给各个部分编码,而且也给在各个部分组装成整体的过程中起特殊作用的各种酶编码。由于这个组装过程不是自发的而是需要‘一下装置’,所以这些病毒不能看作是自组装。自组装元件与非自组装元件之间的区别,从本质上讲就是:前者不必告诉细胞任何有关它们结构的事情,就安然完成自复制,而后者则需要给出一些有关如何组装吧它们自己的指令。
这样一来,与隐形汉肯句子和显性汉肯句子相平行的东西也就非常清楚了。隐形汉肯句子是自证明的,但关于它们的证明却什么也没说出来——它们类似于自组装病毒:显性汉肯句子指示了自己证明的构造——这类似于在复制自己的过程中指挥主题细胞的那些比较复杂的病毒。 ”
我们确实可以把细胞看做是一个复杂系统,通过上面的种种阐述可以看到。我们在形式系统中看到的种种梳理逻辑上的奇观,实际上在现实中也有如此的映射——这里要再次强调一下,形式系统虽然和现实世界具有一定的同构,但是要简化太多了,有些甚至会因为这种简化而导致性质出现了变化,只不过由于对于形式系统来说,这种性质上的变化没有太大影响。但我们依然不应该混淆形式系统和现实世界界限——印符遗传学只不过是真正的分子遗传学的一个简化模型。
而到目前为止,我们依然还只是在生物大分子的层次上讨论各种问题和怪圈,看起来它已经异常复杂了,然而我们知道在此之上还有更高的层次——我们甚至还没有到达细胞的层次。分子遗传的中心法则中已经让我们看到了不同信息层次之间的“怪圈”而当我们上升到细胞层面的时候,变化还会更进一步的繁复——同样的DNA情况下,我们身体细胞上的各个部分为什么是如此的不同?鼻子、耳朵、眼睛、手脚的区别已经被包含在了DNA当中吗?从我们解构的DNA结构来看,至少表面上没有明显的显示出,在基因层面的哪里保存着各个不同类型的信息存储。但我们已经看到了从碱基到大分子结构的变化,这个“怪圈”也许可以更进一步,这也许就是我们上面问的这些问题的回答。而想要贯通各个层次来完整的描述整个大尺度上生物的种种关系结构,那么这将是一个复杂到难以置信的事。
但是通过这么多的列举和分析,我们已经对“量变到质变。”这句话有了更直观的感受,也许同样的道理也可以作为其它疑问的解答——始终不要忘记GEB的探讨核心目标:如何创造出人工智能?那么既然在分子生物学当中存在着这样的现象,是不是我们的智能也能适用呢?
“ 我希望,对诸如标识、自组装、分化、形态发生、以及转录和翻译等过程的描述,能有助于描述一个十分复杂的系统,那就是细胞——一种面貌全新的信息加工系统。在中心法则映射中,我们已经看到,尽管可以试着在程序和数据之间划一条分界线,但这种区别多少有些随意。按这种思路再进一步,我们就会发现,不仅程序和数据犬牙交错,就是程序的解释程序以及实际的处理机、乃至语言,都是如此紧密相关。尽管(在一定程度上)有可能给个层次划定边界,把它们分开,但是认识到各层次之间的交叉、混合也同样重要——而且同样吸引人。在生物系统中一个令人惊讶的事实说明了这一点:为做到自复制而必须的所有因素(即:语言、程序、数据、解释程序机处理机)高度协同动作,以至于到了能把它们同时复制出来的程序——这表明生物的自复制比人类沿这些方向所设计的任何东西都深奥得多。
分析全部这些生物分子之间的相互关系时,我们还只是蜻蜓点水而已。所看到的是,对于我们想要加以区分的那些混合在一起的层次,大自然却感到十分惬意。实际上,在计算机科学中,已经有着把一个信息处理系统中看上去不同的所有方面混为一谈的明显趋势。人工智能的研究尤其如此,而人工智能的研究通常是站在计算机语言设计的最前沿。
了解了这些难以置信的、复杂的、相互联结的软件和硬件玩意儿,会使人提出一个自然而又基本的问题:‘它们怎么开始的呢?’这倒真是一件令人困惑的事情。我们不得不设想有一个‘揪鞋带举自己’的过程,这有点像开发新计算机语言时使用的那个过程——可是从简单分子到整个细胞的‘揪鞋带’简直超出了我们的想象力。有许多关于生命起源的理论,它们遇到下述这个最最关键的问题时都不灵了:‘遗传密码及其翻译机能(核糖体和tRNA分子)都是如何发生的?’目前,我们不得不满足于一种惊奇和敬畏的感觉,这不是一个答案带来的满足。 也许体味这种惊奇和敬畏比有一个答案更令人满意 ——至少暂时是这样。 ”
在德国的除夕夜前半个小时敲下了最后一个字,由于时差关系,笔者要比国内的朋友们晚体验过年七个小时。不知道是不是巧合,正巧这一章的内容是关于分子生物学的内容,以至于笔者去啃了一堆相关资料(包括病毒的)。只能说勉勉强强写下来这些内容,因为笔者高中读了一半就休学了,以至于生物课实际上都没有上完,更后面的深入内容就更不提了,也许现在是在为那个时候补课吧。(所以依然可能存在大量谬误,如果能指出就感谢了)
目前还有五个大章节,GEB这本书就啃完了,也许这将是笔者2020年第一个能完成的明确目标吧(其实还有个重甲蝙蝠侠的模型~~)。不知道文章什么时候会发出来,但依然还是说一句,祝大家新年快乐、平安健康!
评论区
共 10 条评论热门最新