这篇文章,我将首先讲讲文字没有过时的依据,其次讲讲为何文字可能显得过时,最后讲讲可以如何看待文字。
首先,文字没有过时,因为人工智能领域对文字有历史路径依赖,具体是对词元(token)的依赖。
当人们讨论人工智能时代,讨论的更多是大语言模型(Large Language Model,简称LLM)主导的时代,也就是最近三年,标志事件是2022年末OpenAI推出ChatGPT。在此之前,虽然机器学习和深度学习从2012年复兴(或者称之为第三次人工智能热潮)过了十年时间,但普及度和实用性无法与近三年的发展相提并论,这不仅体现在用户基数和使用反馈,更体现在相关学术领域的研究密度和众多科技公司的研发决策。
因为大语言模型是以词元为处理单位,以文本为输入来源,以文本为输出成果,所以可以认为文字贯穿了当前人工智能技术的全流程。如果人工智能发展方向仍然与维持当前,那么对文字的需求会继续存在,并且需求量会越来越大。文字需求量的增加,部分体现为一些从业者在评估合成数据作为输入来源的可行性,合成数据指的是大语言模型的输出成果,这与自我指涉(self-reference)概念有关,并且评估尚未完成,所以需要耐心等待一段时间,假如证实合成数据可以作为输入来源,那么对相关技术的发展是利好,因为类似于「左脚踩右脚上天」,实现人工智能生成数据培养更好人工智能的自强化循环。
其次,文字没有过时,因为软件开发领域对文字有历史路径依赖,具体是对英文的依赖。
当前的软件开发,或者说编程,使用的众多编程语言,绝大多数都使用英文字词,这已经形成一种行业共识和规范。调整共识和打破规范当然是可以的,因为现实世界没有禁止人们用其他语言构建编程语言,它只是成本很高,高到实际上没有多少人选择不使用英文字词构建编程语言。不论从业者面对的是编程语言,还是开发框架,或者是流程系统,英文都是作为基础元素存在其中,这个现状,一方面极大巩固了英文本身在全球众多语言文字系统中的主导地位,另一方面要求从业者必须以学习英文作为前提来学习专业知识。
因为人工智能也是一种软件,所以人工智能顺理成章的依赖英文。人们难以想象不存在软件领域的人工智能领域,也难以发展不依赖英文的人工智能技术。并且,迄今为止的人工智能训练,其训练数据的语言主要是英文,这导致训练出的人工智能更擅长处理英文文本,而且内部构建的推理和逻辑模式更符合英文文本体现出的推理和逻辑,也就是说,英文相比其他自然语言在塑造人工智能表现方面占主导地位,效果既包括人工智能模型的生成结果对英文母语的用户更容易理解与接受,也包括不论母语是哪种语言的用户在与人工智能模型深度交互之后,会逐渐受到对方思维模式的影响,而这种影响主要来自英文。
以及,文字没有过时,因为人类沟通合作对文字有历史路径依赖,具体是对书写的依赖。
语言和文字是两回事,人类社会从过去的口语社会发展成至今的文字社会,相同的是两者都说话,不同的是后者依靠文字书写实现更大规模的社会合作。比如,消息传递,书写下来的文本可以被任何人随身携带,而口头传话则对传信者的记忆力有更高要求。比如,商业合作,白纸黑字的合同和契约既作为贸易诚信的物证,也作为事后仲裁的凭证,而口头承诺则让交易面临更高的违约风险。比如,知识传承,被认为有价值的内容可以抄写多份以便更多人传阅,也为了留给后人学习,如果抱有疑问,也可以针对原始文本做出批注或反驳,产生的新文本在后来成为原始文本的一部分,供后人继续思考和调整,如此循环,而知识就此积累,文明从此有源。
最后,文字没有过时,因为人类认知思考对文字有历史路径依赖,具体根据维特根斯坦的语言哲学。
虽然对维特根斯坦的语言哲学有诸多讨论,因为这只是众多哲学流派的一支,但这里论述的前提是认可其语言哲学的核心理念,即「人的语言边界就是其思维边界」。因此,如果认同人类的认知和思考的重要性,就会认同语言的重要性,而上述提到文字是书写下来的语言,所以文字对人类的思考也有重要性。诚然,并不书写的语言也可以指导人类的思考,但每个人都生活在人类社会中,文字把个体的思考成果以一种可分析可留存的方式分享给他人,我们正是因此得知古人曾经想过什么做过什么,他们虽然逝去,但文字部分记载了前人的所做所想,这让每个人都可以从更多人身上学习到经验和教训,不局限于可以口头沟通的较小范围,而是跨越时间跨越空间的向他人学习,这对于认知和思考是更加高效的,毕竟,人生有限。
语音合成、图片生成、视频生成以及数字人技术等,当前的人工智能趋势虽然发起于大语言模型的文字生成,但大量科技公司都不满足于文字,而是寻求视觉媒介的模型训练,目标是像之前实现高质量文字生成那样实现高质量视觉和听觉生成。多模态的发展更新鲜、演示更抓人眼球(相比文字),会导致用户得出多模态才是当下潮流和未来趋势的预期推论,而文字生成在比较后被判定为「过时」,所以文字也被判定为「过时」。
但是,文字只是「显得」过时,并非实际上过时,就像文字生成也只是「显得」过时。一方面,当前部分多模态训练基于文字输入产生语音或图像输出,所以多模态结果的质量离不开输入文字的质量,但这完全可能在之后的模型迭代中被克服,比如不再使用文字作为输入,而是语音输入语音输出,图像输入图像输出,以此实现多模态的生成结果。另一方面,多模态在定义上没必要排除文字,因为只有语音或只有图像并不能称为「多」模态,而是既有文字又有语音还有图像被称为「多」模态,所以语音和图像甚至视频的生成,不是替代文字生成,而是作为补充,生成一种同时适用于人类多种感官的结果,就像从阅读戏剧台本变成观看戏剧表演。
可能原因二,是当前内容创作的更重视图像作品而非文字作品的趋势。
这个趋势并非人工智能时代才产生,也不仅是互联网时代才产生,而是早就如此。前互联网时代,相比阅读文本,更多人倾向于当面交流和观看表演(包括电视电影等录制的表演)等沟通和娱乐方式,也就是对「多模态」的倾向。互联网时代,相比阅读文字信息,更多人倾向于语音聊天和观看视频,聊天室也从曾经的纯文字发展为当前的直播间。即使在工作中,给出图表而非表格已然形成一种共识。人工智能时代,文字生成虽然已经很震撼,但更加震撼的是听到合成的语音和看到生成的图像和视频,更不用说数字人的那种逐渐难以辨认的仿真合成。
但是,文字只是「显得」过时,并非实际上过时,因为文字仍然是内容创作的必要环节,即使创作的是图像影视内容。比如,漫画被公认为视觉作品,并且通过改编动画,漫画本身成为创作流程的一个环节,但漫画的创作需要文字脚本,不是指漫画台词,而是指用文字描述一幅漫画的布局和构图,并且在修改期间也需要文字做出批注指示。比如,影视剧被公认为视觉作品,导演和演员以此获得人气,摄影和后期也对作品质量影响很大,但所有影视剧都需要编剧首先写出剧本,用文字标注场景、动作和语气,并且当前的剧作理念基本源自亚里士多德的戏剧理论,他当年用文字规定了戏剧创作的步骤和方法,如果影视创作者想要学习理论,是无法绕开文字的。因此,虽然从观众角度考虑,文字作品的竞争力低于图像作品,但是从创作角度考虑,图像作品的创作仍然依赖文字,甚至有些创作者的成名原因就是「拍出了别人读文本都想象不出的画面」。
一方面,可以根据阿德勒的理念做一个课题分离,把「文字对创作的重要性」和「文字对观众的吸引力」分离。在娱乐内容丰富且形式多样的当代,承认影视娱乐比文字娱乐更有吸引力,不影响同时承认影视创作和文字创作都离不开文字。从内容消费者角度,即使接触的娱乐内容不出现任何文字,也是完全可以实现的,因此认为文字从自己生活中消退,这是合理的。从内容生产者角度,正因为任何创作都离不开文字,反而在持续的生产过程中,对文字的理解和认识逐渐加深,因此越来越重视文字,这也是合理的。
另一方面,如果认可维特根斯坦的语言哲学,或者至少认可「人的语言边界就是其思维边界」,那么语言和文字因为这种奠基地位,值得在生活中被持续学习,具体比如分辨概念、识别语境、分析含义和判定适用范围。人与人的沟通难以避免误解,本体论的原因是哲学的「他心问题」,指的是人无法得知他人的思想,认识论的原因是「同词不同义」问题,指的是虽然使用同一个词语,但是双方并没有提前确认对方的词语含义,这个最初的分歧带来后续沟通的分歧。他心问题目前无解,所以先悬置,而同词不同义的问题可以通过沟通消解,就像商业契约那样对词语的含义与用法达成某种不那么严谨但有胜于无的共识,然后再做原本的交流,只是这增加了成本,而人对节能有偏好,所以许多时候为了偷懒忽略了共识构建步骤,导致沟通出现误会,反而消耗更多时间精力去弥补,这种适得其反的案例在历史上和生活中屡见不鲜。
进一步考虑,假如文明和社会需要重建,大概率还是以语言和文字为始,不仅成本较低,而且成果耐久。有了文字,经史、法典、契约等随之产生,数理科学得以推敲和演算,人工智能在编程语言的基础上产生。可以说,文字是文明的安全点。
担忧某事物在当代或未来的过时,是源自恐惧,恐惧的是事物过时导致的生存威胁。假如某事物与己无关,比如物种灭绝之于多数人,那么无论灭绝速率是快是慢,人们不会为此担忧,因为认为物种灭绝并不影响自身在人类社会的生存,或者根本不知道物种在灭绝,这是认识论层面的局限。而文字与大多数当代人息息相关,从小到大的教育和沟通都依赖文字,因此会产生相关担忧,这种担忧部分源于损失厌恶,部分源于害怕错失(FOMO)。
这篇文章,是我对「文字是否过时」话题的一些想法,欢迎指正。正因为文字与每个人息息相关,所以这值得每个人花费一些时间精力去思考分辨,并且得出自己的结论判断。关于文字的过时与否,你是怎么考虑的,欢迎在评论区留言分享。
评论区
共 条评论热门最新