When “Features” Cease to Be Symbols: The Linguistic Transformation Driven by Large Language Models

  • LIU Haitao
Expand

Online published: 2026-03-31

Abstract

This paper examines the fundamental paradigm shift in linguistic research instigated by the rise of large language models (LLMs), taking the linguistic concept of “features” as its starting point. Traditional feature unification grammar relies on manually defined, discrete symbolic systems, aiming to characterize language competence through rule-based deduction. In contrast, LLMs implicitly build high-dimensional, continuous, and context-sensitive vector representations via statistical learning from massive text corpora, thereby achieving probabilistic modeling of linguistic systems. This transition from “rule-making” to “pattern discovery” not only challenges the epistemological foundations of classical linguistics but also underscores the inherent nature of language as a dynamic probabilistic system. Confronted with the cognitive impact of artificial intelligence, the paper contends that linguistics must proactively embrace a new “data-driven” paradigm. While elucidating the statistical patterns captured by these models, the field should reclaim its disciplinary mission as a bridge connecting human and machine language understanding, thereby contributing to the independent innovation of Chinese linguistics in the digital intelligence era.

Cite this article

LIU Haitao . When “Features” Cease to Be Symbols: The Linguistic Transformation Driven by Large Language Models[J]. Contemporary Foreign Languages Studies, 2026 , 26(1) : 94 -112 . DOI: 10.3969/j.issn.1674-8921.2026.01.008

1945年,世界上第一台可编程通用数字电子计算机问世。计算机作为一种脑力扩展工具开始进入人类社会,并不间断地用人造的“数字”(0和1)技术改变着天然的“物理”世界。从计算机诞生伊始,人们就开始想办法让它做一些需要智能才能做的事。1956年,“人工智能夏季研讨会”在达特茅斯召开。这次会议不仅推出了“人工智能”(Artificial Intelligence,AI)这个术语,也标志着一个新学科的诞生。过去70年里,人工智能潮起潮落,在前50年里基本没有引起大众的关注,直到最近才开始进入万众瞩目阶段,取得了前所未有的成功,至今热度不减。
如果将智能视为获取知识和使用知识解决问题的能力,人工智能就是赋予计算机这种能力的学科。乍看起来,这个事情似乎并不难,因为数千年来人类已经积累了不少关于智能的知识,只要把它们转换为计算机能理解的形式,计算机也应该能像智人一样做事了。事实上,大多数人工智能研究者在很长一段时间里就是这样做的,但效果很不理想。换言之,这种人工智能的产生方式尽管是可解释的,但智力水平却极其有限。
从2010年左右,人工智能开始起飞,但它的成功并不是因为人类在知识获得、表征与使用等领域取得了重大突破,而是得益于大数据和深度学习的加持。也就是说,这次的人工智能热潮是与大数据和深度学习联动的,智能是通过深度学习的方法从数据中涌现出来的。为了区别于传统的人工智能,就有了“数据智能”的说法,对应的这个时代也便成了“数智时代”,而那些智能源于数据的计算机系统便可称为“数智体”。世界已经进入一个“人机智能共同体”的时代,而要形成人主导的“共同体”,我们必须对数智体有更深入的了解,因为了解是形成“共同体”的基础。
语言是人类智能的窗口,也是这次数智革命的引爆点和数智体破解人类软件系统的切入点,以致“大语言模型”已几乎成为“人工智能”的同义词。语言之于人类,显然不只是个简单的“窗口”,因为“智人之所以能征服世界,是因为有独特的语言”(赫拉利 2014: 19)。从这句话不难看出语言对于人类的重要性和特殊性,但数智体语言能力的快速提升,又使我们对人类的未来极为担忧,因为具备语言智能的计算机(它们)可能“不需要派杀手机器人来射击我们。它们可以操纵人类来扣动扳机”(同上 2024:182)。为了让数智体更好地服务于人类,而不是变成“智人之上”的人造“怪物”,语言学家需要行动起来,为了使“它们”成为“我们”的一部分,而努力去寻找这只正在迅速长大的“小老虎”的命脉。
当机器通过海量数据训练获得了接近人类的语言能力,而语言学家却无法解释其内在机制时,学科存在的合法性便会遭遇根本性质疑,传统的语言观和语言学方法论必然面临重构。其中有两点尤为值得关注:当前AI的突破并非源于对人类知识本质的新理解,而是来自大数据和深度学习的合力加持;这种智能已经脱离人类生物学意义的硬件而运行,形成了独立的知识表示和处理体系。这两点共同构成了语言学范式转变的认识论基础。那么,数智体是如何掌握语言这种原本只属于智人的独家本领,并让人们担忧它会成为“智人之上”的“小老虎”呢?
诺贝尔奖和图灵奖双料得主、数据智能的奠基人之一辛顿在多个场合解释了大语言模型处理语言的机理,他认为:“大语言模型的工作方式,以及我们人类的工作方式就是,我们看到很多文本,或听到很多词串,进而获知词的特征,以及这些特征之间的交互作用。所谓理解,就是这么回事。神经网络模型正在以与人类完全相同的方式进行理解”(辛顿 2024:495)。他也将这种机制比喻为搭乐高积木。在这一框架下,每一个词如同有许多形状奇特的手的积木块,要理解词的确切含义,需要了解它是如何和其他词握手的。换言之,不同的词有不同的特征,词语能否结合要看相应的特征是否匹配。总结起来,辛顿所说的大模型理解语言的过程就是:特征→握手→结构。然而,在理论和计算语言学中,这种基于特征合一(握手)的理论与语言分析方法并不陌生,但却从未达到大语言模型的高度。同样是基于特征,为什么大语言模型可以,而此前那些基于特征的语言处理系统的效果却不尽人意呢?换言之,当大语言模型在翻译、推理与语义理解任务中展现出接近人类的表现时,一个根本性问题浮现在语言学家面前:我们习以为常的“特征”概念是否依然成立?还是说,我们对“特征”的理解本身亟须重构?传统语言理论将特征视为人工定义、离散的符号属性,用以构建句法结构与语义解释;然而,大语言模型并未显式编码任何一条规则,却能从数据中自动捕捉词语之间的复杂关联,展现了一种全新的“特征”形态。本文旨在揭示这一表征变革如何挑战传统语言学范式,并推动学科走向以数据驱动为核心的新路径。本文并非简单回答“大语言模型是否基于特征”的问题,而是力图揭示:在大语言模型中,“特征”本身的定义、获取方式、交互机制与表征形态均已发生根本性转变。要理解这场变革的深度,首先必须直面传统特征理论在真实语言面前的局限。当语言的复杂性远超预设规则所能覆盖的范围时,基于符号的特征系统便难以为继。

1. 特征合一语法难以应对真实语言的复杂性

20世纪80年代,为了克服经典形式语法在处理人类真实语言时的种种问题,出现了不少基于特征结构(feature structures)的语言形式化理论和方法,如:功能合一语法(FUG)、词汇功能语法(LFG)、广义短语结构语法(GPSG)、中心语驱动短语结构语法(HPSG)、PATR-Ⅱ和多标记多叉树形图分析法(MMT)等(冯志伟 2017)。为什么会在短时间内涌现如此之多基于特征的新方法和新理论呢?这是因为经过三四十年的发展,计算语言学(即人工智能领域中处理语言智能的方向)的研究者意识到采用特征可能有助于:获得更强的语言表达能力,早期的符号人工智能和计算语言学方法通常依赖于形式化框架,但这些形式化框架过于僵化或简单,难以捕捉语言结构不同层次中许多约束和依赖关系;克服“知识获取瓶颈”问题,手工编写的高度精细的规则系统难以从“玩具世界”扩展到更广泛、更多样化的真实语言应用,而特征结构似乎提供了一种更模块化、更易于管理的方式来组织和使用语言信息;满足研究人员对统一框架的渴望,即形成一种形式化框架,可以把不同来源的语言知识整合到一个统一的框架中。
人们为什么会认为特征可以解决或改善这些问题呢?特征是用于描述语言项语法属性的符号,它们构成特征结构的基本维度,并通过与原子值的关联来表达具体的语言信息。用特征(如数、格、性)及其值来表示词汇和句法成分的属性,使得语法范畴不再是原子符号(如NP、VP),而是可分解的结构。特征结构提供了一种结构化、可共享、可合一的表示方法,使形式语法能够简洁而有力地刻画自然语言中的复杂现象,弥补了传统上下文自由文法(CFG)的不足。而所谓“合一”(unification)是一种将两个相容的特征结构合并为一个特征结构的操作。若两个特征结构存在共同信息兼容,则它们的合一结果是关于“蕴含”关系的最简扩展;若信息冲突,则合一失败。研究者希望用合一的方法,也就是辛顿说的“握手”,把带有不同的词语和语言单位根据其特征的兼容性组合成更大的结构,从而可以在计算机处理语言的过程中,更有效地实现多种目的,包括:处理约束和依赖关系,通过合一操作,可强制执行短语间的复杂约束,如主谓一致、格标记和回指等;管理歧义,通过允许来自不同来源的约束更精准地剔除无效的解释,旨在提高语言分析的可靠性和效率;扩展系统的使用范围,将机器处理的负担从复杂的手写规则转移到词典和通用的合一机制本身,通过含有更丰富信息的词条,走出“玩具”世界;整合句法和语义,合一提供了一种将句法结构与语义表示联系起来的形式化方法,可确保由此产生的解释与语法形式的一致性。
由此可以看出,那时的研究者对于特征合一方法是抱有很大希望的,普遍认为特征合一提供了一种强大且灵活的形式工具,超越了传统句法分析在表达力和计算实用性方面的局限。从计算语言学的发展历史看,20世纪80年代在人工智能领域兴起的这股特征合一浪潮,在达到了符号计算语言学方法和可解释AI巅峰的同时,也可看作是理论语言学家和计算语言学家试图用规则方法处理真实语言的最后一次尝试。此处用了“最后一次”这个说法,本身就说明,这波看起来很美好的浪潮最终并没有将人们送到希冀中的彼岸。
尽管特征合一语法没有实现预想的目标,但它在理论和实践方面都产生了积极影响:理论方面,它所提供的强大而优雅的形式化框架,使得复杂的语言分析成为可能,这一点直至今日在语言学理论研究中仍有重要意义和价值;实际应用方面,通过更好的管理复杂数据和约束条件的方法,提高了当时自然语言处理系统的性能,扩大了其使用范围。更重要的是,特征合一方法的不成功在某种程度上意味着符号主义方法或理性主义方法可能并不适合用来研究人类语言这个概率系统,再多的规则也难以处理人类语言中随处可见的概率问题,再完美的形式化框架也难以(完全)克服“知识获取瓶颈”和规则难以解决的语言问题。于是计算语言学在20世纪80年代末迎来了从规则到统计的范式转变(也有人称之为革命,ten Hacken 2001)。当然,这种转变也是以海量数据的出现和计算能力的提升为前提的,与基于规则的方法相比,以真实语言数据为基础的统计方法在处理现实世界文本时更有效,从而也就更有可能让AI走进现实世界,起到真正可以扩展人类脑力的作用。虽然特征合一的思想从未被语言研究者放弃,但计算语言学或语言智能处理领域,已从纯粹基于符号规则的方法转变为从真实数据中学习这些模式的语言模型。
从理论上讲,几乎所有的特征合一语法走的都是辛顿所说的“特征→握手(合一)→结构”之路,但为何在真实世界的语言“丛林”中却走不通呢?如果将“特征”视为在“丛林”行走的“令牌”,是“令牌”的形状出了问题?还是“令牌”的数量不够?抑或是获取“令牌”的手段有问题?有没有一种可能,走出“丛林”需要的根本就不是一般意义的“令牌”,而是与所处环境密切相关的一种判断能力、一种选择能力?回到合一语法,它的根本困境在于“可扩展性”和“描述充分性”之间的矛盾。构造一个能处理真实语言的特征系统需要定义数千种特征及其交互(合一)规则,这种复杂性不仅导致实现困难,更从根本上限制了系统处理语言变异和新现象的能力。当然,这不仅是合一语法的问题,也是采用形式化手段研究人类语言的所有理论的通病。因为,在这些看起来很美的理论中,我们几乎看不见“人”的影子了,而没有了“人”的“人类”语言理论,无论构拟得再精妙,也难以走出真实世界的“语言丛林”。20多年前,我给本科生开了一门“句法引论”的课,采用的教科书是Syntactic Theory:A Formal Introduction,这本书算是HPSG的一个简化版(Sag & Wasow 1999)。记得有一次,我布置了一个用特征合一方法分析句子的作业,有位同学做得很认真,画了一大页的句法分析图,看起来很美、很壮观,也很有成就感,但这位同学在交作业时也送给我一句话:“这是你要的作业,我不想再看第二眼了。”想想看,这位同学分析的只是一个简单的句子,如果让她用这种特征合一方法分析她日常生活中遇到的每一个句子,她肯定会更抓狂。但如果她不分析,其他人也不分析,计算机又怎么会理解人的语言呢?
关于此,我曾经写道:“传统的计算语言学方法是由语言学家人工从大量的语言材料中提取出词汇、语法、语义等各种规则,然后想办法让机器来搞明白这些规则,进而可以处理语言。这种方法的理论基础和哲学根源大致就是经乔姆斯基发扬光大的洪堡特的名言‘语言是有限手段的无限运用’。遗憾的是,在大量研究和尝试后,人们发现规则的有限性并不意味着它的普遍可操作性。换言之,在语言分析和生成的过程中,就目前人类对于语言的认知水平而言,所谓的‘有限手段’可能仍然是一种理论上的说法。在实践方面,不可控或无法穷尽的‘有限’还是一种无限”(刘海涛2009:1)。在谈到“有限手段”和“无限运用”之间的关系时,人们往往把“递归”拿出来说事,因为单从数学上看,“递归”确实是最能体现有限和无限关系的一种操作,但对真实世界语言的分析表明,人类真实语言几乎不使用递归(陆前、刘海涛 2025),因此将递归视为人类语言最本质的特征可能是脱离人类的一种纯理论说法,我们有必要进一步反思递归在人类语言中的所处地位和真实作用。说到这里,我们可能会意识到,需要范式转变的可能不只是计算语言学,理论语言学同样可能也需要面对真实的人类语言,因为索绪尔(1980:35)曾指出“在任何人的脑子里,语言都是不完备的,它只有在集体中才能完全存在”,而且只靠语言学家自己的内省也是不够的,因为“人有大脑并不意味着他就能明白自己是如何思考的,如同人有肝脏并不意味着他了解自己是如何进行新陈代谢一样”。
尽管语言学研究的目的不只是为了机器实现,但当其他领域的研究者用语言学家搞不清楚的机理与方法让计算机有了几乎可以媲美人类的语言能力时,语言学相关领域对此进行反思,不仅合理,也很有必要。更何况自计算机诞生以来,它几乎就一直扮演着各种新语言学理论测试台的角色。某种程度上讲,那些可形式化和可程序化的语言学理论甚至可以算作是计算机的相生相伴之物。
如果计算机是语言学理论的测试台和试金石,又考虑到现代语言学理论大多是以解释人类语言系统运作机理为目标的,由此,任何在计算机上无法实现或验证的语言学理论可能都需要反思其理论和方法何处出了问题。理论上讲,如果语言学理论发现的语言系统的知识都是有效的,那么把这些知识表达成计算机可以理解的形式放到计算机里,计算机就应该具有相当的语言智能。通俗来讲,“语言智能”学科或计算语言学的目标就是用非传统的方式构建一个“会说话的机器人”,“会说话”意味着“能交流”,而交流本身就是语言最主要的功能。既谈到“会说话的机器人”,就不得不提及德国学者Roland Hausser。在1999年出版的《计算语言学基础》开篇,Hausser(1999:v)写道:“面向未来的计算语言学的核心任务是开发出能够以人类自然语言进行自由交流的认知机器。长远来看,这项任务将推动语言功能理论的发展,实现客观的验证方法,并带来广泛的应用前景。”在2011年出版的《计算语言学和会说话的机器人》一书的同样位置,他又写道:“构建会说话的机器人的实际任务需要一套关于自然语言交流机制的理论。反之,验证自由地用自然语言交流理论的最佳途径,正是通过会说话的机器人,这一人机沟通的范例来具体展示该理论的可运作性”(同上 2011:v)。按照Hausser的说法,要想构造一个能说会道可用自然语言与人交流的机器人,首先需要一套关于自然语言交流的理论,而要验证这样的理论,最好的办法就是做一个机器人。Hausser把自己的这套理论称之为“数据库语义学”(Database Semantics),值得注意这里面的“语义”两个字,它清楚地表明“交流”的核心是“意义”,而不是句子是否合乎语法书里说的那些语法规则。然而,意识到“意义”对于交流的重要性,并不意味着机器就真的能“交流”了。在实现上,Hausser采用了一种如图1所示的类似于特征合一的方式。
图1 自然语言交流示意图(引自 Hausser 2017:435)
首先,说话者(图1右框)将想交流的内容映射为一系列外部词形表示,听者(图1左框)在接收到这些词形表示后,如果能够等效地重构并存储该内容,则交流成功。为了成功,说话者需在一组相互关联的语义单元(大方框中那些词语的小方框)之间游走,以便概念化(说什么)和序列化(如何说)地说要生成的语言。听者通过自动识别词形以及句法-语义分析,推导出相应的由各种特征构成的语义单元组来完成理解。显然,要想让这样的系统真正能自由地交流,需要人工输入成千上万的语义单元,这些带有特征的语义单元在需要时被激活,与其他相关的单元形成更大的结构,从而达到理解和交流的目的。与其他人的理论相比,Hausser几乎把特征合一用到了极致,而且将系统的目标明确为意义传递和交流,但与其他人的理论一样,他的系统也似乎从来没有达到用自然语言自由交流的水平,基本停留在实验室阶段。2015年,他向Springer提交了一部题为《怎么构造一个会说话的机器人》(How to Build a Talking Robot)的书稿。网络书店Amazon在介绍这本书时说,本书“解释了如何运用计算机科学、语言学、哲学、心理学、人工智能及控制论的理念来建造会说话的机器人。作者自主研发的数据库语义学(DBS)系统提供了自然语言交流所需的连环机制,并借助控制论与人工智能技术设计出自主控制系统。本书对语言学、人工智能及控制论领域的研究者具有特别价值”。10年过去了,这本指导建造会说话的机器人的著作一直没有上市,其间也没有新的关于自然语言交流的理论出现,但却有了以ChatGPT、DeepSeek为代表的众多的可用上百种自然语言与人自由交流的大语言模型。换言之,当传统语言学家还在想办法精心设计特征系统时,大语言模型不但已经掌握了远比人工设计更丰富、更有效的特征体系,还将人类送进数智时代。
为什么会这样呢?问题可能在于,尽管特征合一语法在处理理想化例句时表现出良好的解释力,但一旦进入真实文本环境,其脆弱性便暴露无遗。自然语言充满歧义、变异与跨范畴现象,而人工设定的特征集既无法穷尽所有可能组合,也难以动态适应上下文变化。更糟糕的是,这些特征之间缺乏权重差异,导致模型在面对高频例外或渐变语义时束手无策。因此,问题不在于如何扩展特征清单,而在于整个表征范式的根本缺陷:将语言简化为符号逻辑的操作,忽视了其内在的连续性与统计本质。当规则边界不断被现实语言突破时,我们可能需要一种新的“特征”观,即:“特征”不是源于人的内省,而是来自现实的语言数据之中。

2. 大语言模型用向量让“特征”从上下文中感受到“意义”

尽管目前仍不清楚“数据涌现智能”的机理,但大语言模型的运作流程还是清楚的(张奇等 2024)。首先,用维基百科之类的海量语言数据训练大语言模型。从这些数据中,模型不仅可以掌握词的各种用法模式和语言的一般表达模式,也可获得输入材料中含有的世界知识。这个过程相当于人们上大学之前所受的教育。随后,可用规模较小的特定数据集微调模型,进而形成能执行专业任务的智能体。后面这一过程相当于人们所受的大学专业教育。采用如上这种看起来平淡无奇的技术架构,大模型用非传统的方式快速复制了人获得知识的过程,并使人类“软件”得以脱离人类生物学意义的“硬件”而运行。与人类相比,机器获得的知识更容易复制和分发。
可能让人好奇的是,机器学到的这些知识是以什么形式存在的,如,词汇用的什么形式的词典?语法规则用的是上下文无关文法,还是别的什么?很显然,大语言模型里面既没有词典也没有语法书,有的只是复杂的人造神经网络。也就是说,机器学到的这些知识均存在于人造神经网络的节点以及节点之间的权重之中。本质上,人学到的知识也是存在于人类大脑的天然神经网络之中的。换言之,人类学习改变的是人的天然神经网络,而机器学习改变的是人造神经网络。如果是这样,那词典和语法又有何用呢?大语言模型的成功在一定程度上也迫使人们重新思考这些涉及人类软件系统的根本问题。用专业一点的话讲,就是如何走出大模型没用词典和语法、但工作得还不错而导致的语言学理论困境,更重要的是,此前的那些用了词典和语法的AI系统却只能在玩具世界里游走。这在一定程度上印证了辛顿所说的:“人们可以正确使用词语,却对词语如何运作持有完全错误的理论。”那么,大模型的成功靠得又是何种“魔法”呢?
辛顿说,大模型能理解语言,走的就是“特征→握手→结构”的路子,但这条路20世纪80年代的计算语言学研究者们已经走过多次了,却大多无功而返。而且,从上文提及的大模型的技术架构看,几乎没有用在文章上一部分提及的那些特征。因此,大模型必然在特征的获取方式和表征形式上与此前的特征合一语法时代有着本质的不同,正是这种本质差异产生了完全不同的结果。事实上,Smith(2020)在其所作的“Contextual Word Representations: Putting Words into Computers”文中,道出了推动这次革命的原动力,即:革命始于输入,始于词的上下文表征。把他的主标题与副标题连起来会清楚地看到,词语在输入到大模型时,不像此前就是输入一个符号,而是连同词语的上下文一并输入。为何如此?这些上下文又该如何输入呢?
刘海涛(2005:61)指出:“假如只用一句话来概括计算语言学几十年来的历史,那就是一部与 ‘歧义’作斗争的历史。”表达的是,为了解决无处不在的歧义问题,传统(计算)语言学采用了各种五花八门的方法,但由于这些方法大多与意义不可分解的本质相违背,与语言的概率性相悖,所以效果不好。在这种情况下,必须另辟蹊径,找到一种方法让机器更好地掌握词语的意义。如维特根斯坦所说“意义即用法”,用法是什么?是上下文!因此,如果有一种方法,可以量化一个词语的上下文关系,那就可以更好地处理语义。词嵌入(Embeddings)就是这样一种方法。经过词嵌入处理后的“词语”,是一组数(多维向量)。词嵌入不是简单的代码转换,而是将词语连同与其他词语的关系一并表示为向量(浮点数列表)。在嵌入过程中,从真实文本中获得的信息可改变词语向量不同维度(特征)的值,向量的维度越高,可包含的特征也就越多。这种以词元(token)为基础的含有上下文信息的向量,构成了一种体现了词元关系的多维语义(概念)空间,语义相似的词语在向量空间中也更接近。不同单词的意义或多或少有其相似之处。人们使用连续向量可有效地获取这种性质,大规模的文本语料让人可以自动地发掘许多层面上的词义相似性。嵌入是大语言模型的语义支柱,是将原始文本转化为模型可理解的数字向量的关键入口,也是机器可理解的概念知识空间的基础。于是,大模型的基元不再是简单的词语,而成了概念和知识,知识也便顺理成章地成了数据智能的基础,而智能本身就是获得知识和用知识解决问题的能力。这一切均源于上下文,因此似乎也可以说,数智革命的本质可能就是“上下文革命”(Hua et al. 2025)。
如果一个词经过嵌入后变成了一个多维的向量,而词的意义隐含于这些维度中的不同数值之中,这些数值又体现了这个词与其他词的关系,那么,词义便成了可比与可计算的。例如,英语中的King(国王)用一个50维度的向量可表示为:[0.50451, 0.68607, -0.59517, -0.022801, 0.60046, -0.13498, -0.08813, 0.47377, -0.61798, -0.31012, -0.076666, 1.493, -0.034189, -0.98173, 0.68229, 0.81722, -0.51874, -0.31503, -0.55809, 0.66421, 0.1961, -0.13495, -0.11476, -0.30344, 0.41177, -2.223, -1.0756, -1.0783, -0.34354, 0.33505, 1.9927, -0.04234, -0.64319, 0.71125, 0.49159, 0.16754, 0.34344, -0.25663, -0.8523, 0.1661, 0.40102, 1.1685, -1.0137, -0.21585, -0.15155, 0.78321, -0.91241, -1.6106, -0.64426, -0.51042]
显然很难从这些数字中看出个所以然来,但大模型正是从这些来自真实语言的数字中产生了自己的智能。这50个数字,不单塑造了King在计算机的形象,每一个数字也代表了King的某种特征,但具体代表的是哪个特征却很难说清楚。按照语言学家习惯的方式,特征这事似乎是可说清楚的,如,King的语义特征可表示为:[+人][+男性][+统治者][+世袭][+最高权力][+国家层面]。当然,King的语义特征可能不止这6个,还可以更多,但多到何时才够用,才能达到大模型的水平呢?在King向量中,可能含有这6个特征,但剩余44个是什么呢?一时还真想不出来。要知道这里采用50维只是为了便于讨论,实际使用中的向量可能是成百上千维的,其描写精度和难度,都是难以想象和难以实际操作的。有趣的是,尽管可能难以说清楚,但这不妨碍人们每天都使用这些说不清楚的东西来与他人交流。语言就是这样一种人人都会用、但又难以用“语言”本身说清楚它是如何运作的概率系统。当然也会使人疑惑,这些数字真的反映了词语的意义吗?为了搞清楚这个问题,图2采用可视化的方法来比较几个常用词的向量。
图2 几个英语词的词向量示意图
图2中的每一个词由50个小格组成,每个格的颜色是由50维向量中对应的数字决定的,数值接近2为红色,接近0为白色,接近-2则为蓝色图2尽管只有4个词,但还是有不少看点的。比如,King和Queen(女王)的区别,按照义素分析法,二者的差别就在[+女性]/[+男性]这个特征上,但这样的区别显然有些粗糙了,因为每个懂英语的人,都会感觉到二者之间除性别外,还是有一些说不清道不明的差别。这种模糊的感觉,在图2中是有体现的。这一点,对比Man和Woman的向量图,也可看出King和Queen的区别不只是Man和Woman的区别这样简单。如前文所述,有了词向量,语义不仅可以量化了,也可以计算了。如果这是真的,那么king-man+woman就该等于queen,但图2显示二者并不完全相同,但在包含40万个词的向量集中,queen的向量值却是最接近“king-man+woman”运算所产生数值的单词。这个例子说明,语义计算是可行的、有效的,而且结果也是可靠的和可信的,但语义本身不是绝对的,而是概率的。如果语义可以计算,那么长久以来困扰计算语言学界的歧义问题也就不再是一个严重的问题,这可能也是近年来几乎很难在计算语言学的会议和刊物上看到曾经颇为流行的“歧义消解”研究了。这不仅反映了离散符号表示与连续向量表示的本质区别,也揭示了传统语言学方法在处理语义问题时的局限和不足。遗憾的是,今天的自然智能体们(语义学家)大多却仍在像过去的人工智能体一样用各种形式化的手段来处理本质上不可分解和形式化的真实语言的“意义”,尽管早有学者说过形式逻辑语言无法表达日常语言的丰富性(Hjelmslev 1970),计划(人造)语言的历史也表明,基于逻辑的人造语言方案尽管设计精良,但从未社会化为一般意义的人类语言(德雷仁 1999;刘海涛 2023)。
回到辛顿说的大模型用的语言理解链“特征→握手→结构”,应当说,在大语言模型中特征确实是有用的甚至是必不可少的,但特征的样子却跟人们在语言学书里看到的不一样。当然,大模型与传统的基于规则的语言处理方式的差别不仅是特征的样子不一样。表1比较了传统的特征合一语法和大语言模型的一些异同。
表1 特征合一语法与大语言模型的比较
特征合一语法 大语言模型
本质与形式 离散的、符号化的 连续的、数值化的向量(嵌入)
特征维度 低维(通常<10) 高维(通常>1000)
特征交互 确定性规则(合一运算) 概率性关联(权重调整)
产生方式 人工特征工程。需要专家根据语言学知识精心设计和选择特征,然后编写规则来提取。 自动学习。模型在大量文本数据上通过预训练过程自行学习到如何将语言元素表示为向量。无需人工设计。
含义与可解释性 高可解释性。每个特征都有明确的语言学意义。 低可解释性。单个维度(向量中的某个数字)通常没有明确含义。其语义信息分布式地隐藏在整个向量中。
上下文依赖性 大部分是上下文无关的。例如,“apple”这个词的“词形”特征就是“apple”本身,无论它指的是水果还是公司。需要额外设计特征来捕捉上下文。 高度上下文相关。会根据上下文为同一个词形生成不同的向量表示。例如,“apple pie”和“Apple Inc.”中的“apple”,其向量表示会完全不同,精准捕捉了上下文语义。
知识与信息来源 来自语言学家的先验知识和词典、规则库。 来自训练数据中的统计模式。模型从海量文本中隐式地学习语法、常识甚至推理能力。
粒度与层次 特征通常是分层次、模块化的:先有词法特征,再有句法特征,最后是语义特征。 端到端的。模型同时学习所有层次的特征(从字符、词法、句法到语义、语用),所有信息都混合在最后的向量表示中。
迁移性与泛化能力 差。为特定任务精心设计的特征很难直接用于另一个任务。 极强。预训练好的通用向量表示可以作为一个强大的特征基础,通过微调或少样本学习轻松迁移到各种下游任务中。
总的说来,在同样的“特征→握手→结构”的道路上,大语言模型中“特征”不再表现为静态的符号标签,而是嵌入高维空间中的动态向量。通过词嵌入技术,每个词语被映射为一个稠密向量,其维度不再对应具体语法属性,而是反映其在大规模语料中与其他词语共现的统计模式。更重要的是,这些向量并非固定不变,而是可以随上下文实时调整,同一词语在不同语境下拥有不同的向量表示。这种上下文敏感性使得模型能够自然捕捉多义、隐喻与风格等传统语法难以建模的现象。向量不仅是表征方式的改变,更是认知逻辑的转换,即,从“匹配规则”变为“逼近分布”。当每一个语言单位都成为概率空间中的点,语言理解就不再是符号演绎的过程,而转化为对模式相似性的连续判断。这为重新思考语言的本质打开了新的可能。

3. 自然语言本质上是一个概率系统

如果说传统语言学试图用确定性规则解释语言合法性,那么大语言模型则揭示了一个更为深刻的真相:自然语言本质上是一个概率系统。人们说话的方式并非严格遵循一套绝对规则,而是在长期使用中形成了一种统计偏好——某些搭配更常见、更流畅或更合理。大语言模型通过深度学习的方法,在海量文本中学习这种分布规律,并以此预测下一个词、解析句法结构,甚至完成逻辑推理。它的“知识”,本质上是对语言使用频率与模式的内化。然而翻开国内外最新出版的语言学期刊,看到的几乎都是用各种概念堆砌的理论与发现,要想看懂这些可能需要学习更多的东西,于是很多语言学研究者终身努力的目标就是搞清楚这些作者到底说的是什么,似乎不了解这些语言学家的研究就没法说话一般。另一方面绝大多数人一辈子根本就不知道什么是NP、VP,什么是动词、名词,但说的话可能比语言学家要得体和流畅得多。当然,语言学家可以说自己探求的是语言系统的规律、发掘的是语言系统运作的各种知识。而这些规律和知识对于人们认识自身、认识社会都是有益的,更重要的是,如同物理学研究可以造福于人类社会的诸多领域一样,我们坚信语言学作为一种基础学科也会在人类社会大放异彩,因为语言是智人最重要的特征。然而大语言模型的成功直接将语言学推到了尴尬的境地,它不但说明学者想出来的那些所谓的知识和规律实际上可能不是驱动语言学系统运作的本质规律,也让普通人更相信那句流传甚广的“解雇一个语言学家,系统性能会更好一些”的合理性,也使得诸如“如果火星人来地球,用统计方法造汽车,这车永远也跑不起来”此类的反驳显得甚是苍白,因为“统计”汽车不但跑起来了,还把车上的人送进了一个新时代。
这或许说明,“人类语言及其背后的思维模式在结构上比我们想象的更简单、更符合规律。ChatGPT已经隐含地发现了这一点”(沃尔弗拉姆 2023:103)。这些简单的规律是什么样呢?显然并不是从语言学期刊和教科书上看到的那些东西,因为人工智能前五十年并不成功的实践已经说明那些原本人们一直以为支撑人类语言系统运作的知识,换个人造脑(硬件)就不灵了。这是否也说明,语言学家整理出来的那些语言系统运作的知识可能并不是人实际使用的东西,或不是驱动语言系统运作的关键。有关人类软件的认识,可能一直困在“获得不足,验证来补”的怪圈之中,难以自知,也就谈不上自拔。以ChatGPT为代表的数智体的成功,为学者们走出数千年的认知怪圈指明了方向,因为“它表明我们仍然可以期待能够发现重大的新‘语言法则’,实际上是‘思维法则’。在ChatGPT中,……,这些法则最多只是隐含的。但是,如果我们能够通过某种方式使这些法则变得明确,那么就有可能以更直接、更高效和更透明的方式做出ChatGPT所做的那些事情”(同上 2023:83)。这样一来,语言学家和认知科学家的任务就成了寻找那些可使AI更聪明的“语言规律”和“思维规律”,这些法则大概率也是驱动人类语言系统日常运作的动力。为了寻找规律,可能需要首先知道规律的表现形式。
按照AI研究者的说法,“语言模型的目标就是建模自然语言的概率分布”(张奇等 2024:1),那么,“从这个意义上来说,学会一门语言,本质上就是掌握一套非常复杂的概率分布”(陈浪 2024:40)。因此有理由说,各种概率分布可能就是大语言模型获得的知识和规律,甚至是最重要的知识,这也使得对语言本质的认识从传统的“规则”系统转向“概率”系统,随之而来的是语言观的根本转变。从数学角度看,大语言模型本质上是在学习真实语料中词语和结构的概率分布,这一分布编码了语言的所有规律性。依旧拿特征来说,大语言模型彻底改变了语言的图景,它将语言特征转化为“高维向量”表示。在这种表示中,词不再被几个手工定义的特征所刻画,而是被映射为一个高维连续空间中的点,其坐标(即向量值)编码了该词在所有可能维度上的统计特性。向量特征与传统符号特征的关键区别在于其“概率”本质。换言之,大语言模型掌握了事物之间联系的权重和概率,这是其成功的关键。在向量空间中,词语间关系不再是非此即彼的逻辑判断,而是表现为连续的概率分布。这种表示更贴近实际语言使用的模糊性和语境依赖性,也更适应语言的变化和创新。值得注意的是,这种概率性特征与人类语言习得和使用中的统计学习机制存在深刻相似性,为理解人类和机器的语言学习提供了统一视角。表2列出了符号和概率两种语言观在几个方面的异同。
表2 符号语言观与概率语言观的对比
符号语言观 概率语言观
基本单位 离散符号 连续向量
规则性质 确定性规则 概率性关联
语言知识 显式规则系统 隐式概率分布
语言习得 系统参数设置 概率统计学习
语义表示 逻辑形式 向量空间
变异处理 规则例外 概率梯度
普遍性基础 先天语法习得机制 数据规律和模式
表2看,两种语言观似乎是完全对立的,但事实上在符号语言观的奠基人索绪尔的《普通语言学教程》中,也不难发现二者之间的那种隐约联系。如,语言是言语的“平均数”,没有一个人的语言是完备的(索绪尔 1980)。这个从言语中产生的抽象的语言“平均数”就是常说的“语感”,也可以说语感或语言是从语言使用中涌现出来的。如果语言是言语的“平均数”,越多的“言语”数据参与到计算过程中,算出来的“平均数”就越接近那个抽象的“语言”,语感也就会越好;如果没有一个人的语言是完备的,在“平均数”的计算过程中,有越多人的“言语”参与进来,最终得到“平均数”(语言)也就越完备(刘海涛 2024)。也可以说,抽象的“语言符号”的生命与活力实际上来自大众所说的日常言语,而“社会是将个人言语晶化为集体语言的熔炉”(同上 2025:191)。于是,“语言”和“言语”不再是“抽象”与“具体”的对立,而成了同一事物的不同表现形式。如果说,索绪尔时代的“语言是言语的平均数”只是一个深刻揭示了概率语言观的隐喻,大语言模型的本质也许实现了这种语言观。通过在大规模语料上的深度学习,大语言模型不仅解决了语言学家争论不休的“语言”和“言语”的关系问题,打通了二者之间的联系,用实践证明了“语言就是语言使用(Sprache ist Sprachgebrauch)”(Mauthner 1901:23)。
如果概率统计是从言语到语言的必由之路,那么,被索绪尔称之为语言符号头等重要的两个特征之一的“线条性”,则是构筑这条路的坚实的铺路石。在谈到语言的线条性时,索绪尔特别强调说,它的“后果是数之不尽”的、“语言的整个机构都取决于它”(索绪尔 1980:106)。但是,索绪尔之后的语言学家们,却喜欢围绕着抽象的“语言”做文章,对于语言线条性带来的数之不尽的后果所知甚少,更谈不上去搞清楚为什么整个语言结构都会取决于它的道理。大语言模型以真实语料为基础,从数以亿计的言语线条中获得了各种概率分布规律,从而有了可与人比拟的“语感”,获得了语言智能,但这些有用的规律与人们所熟悉的东西不一样,为了发现这些很难用日常语言说清楚的规律,需要学习新的方法、借助科学的手段和方法才有可能发现并把这些规律说清楚。从科学哲学的角度看,理论是由经过验证的假设(定律)组成的,足够多的定律是形成具有解释力和预测力的理论的基础(刘海涛 2017),换言之,没有方法创新,就很难发现切实的定律(规律),而没有定律,语言学的理论创新也就变成解决不了人类在数智时代所面临问题的空谈。
语言是一个概率系统。语言学家不仅在语言研究的各个领域都发现了概率因素(Bod et al. 2003),概率也与语言相关的认知活动密切相关(Divjak 2019)。也应该注意到,尽管此前已有不少语言学家注意到语言的概率性,但在很大程度上,概率仍然只是规则的补充或装饰,并没有上升到“规律→理论”的高度。理论语言研究方法一直聚焦和关注的是个体言语行为背后的抽象系统(langue),而大语言模型则直接从大量言语实例(parole)中提取统计规律,甚至形成科学意义的定律(laws)。这种“自下而上”的数据驱动方法避免了传统自上而下理论构建中的先验假设,能够更直接地反映语言使用的真实模式。特别需要说明的是,大语言模型所捕捉的概率模式往往超出人类直觉感知的范围。如图2的词向量可视化示意图表明模型能够识别人类可能可以察觉,但用现有的方法难以显式化描述的微妙模式。
概率语言观对传统语言学概念提出了深刻挑战。以“语法性”概念为例,传统理论将其视为二元判断(合乎语法/不合语法),而概率模型则将其转化为“梯度概念”,语句的可能性取决于其使用概率。这种转变更符合实际语言使用中的判断,也更能解释创新用法的出现和传播。同样,语义理解在概率框架下不再是符号的逻辑组合,而是向量空间中的相似性计算,这为处理隐喻、歧义等传统难题提供了新思路。不能将“概率”简单地理解“频率”,尽管“频率”是驱动大语言模型工作的原动力,但在极其复杂的特征交互中,大语言模型学到的显然不只是词语或词语组合的“频率”,而是人类的各种规律和模式。
如果语言是一个概率系统,那么多维概率分布便是一种语言知识,这不但与大模型的本质相契合,也印证了前引沃尔弗拉姆关于语言模式可能更简单、更具规律性的说法。而要想掌握概率,没有数据是万万不能的。因此,数智时代的语言研究需要以现实世界的语言数据为基础,开展数据驱动语言学研究,所谓“数据驱动语言学是计量语言学在数智时代的升级版,它不仅像计量语言学那样,从真实语料出发,采用统计方法,探求人类语言的概率性规律,而且也将语言视为一个人驱复杂适应系统,……,采用系统科学的方法,力图发现人类语言系统的运作规律并考察这些规律在应用语言学和计算语言学等领域的适用性和可用性,最终形成科学的‘言语动力学’”(刘海涛 2025:186-187)。
要形成“言语动力学”,可以从构成天然和人造神经网络的“神经元”开始,因为毕竟无论是人还是机器要有智能,神经网络都是必不可少的,然而“只研究神经元就想理解知觉,就像只研究羽毛就想理解鸟的飞行问题一样,这是办不到的。为了理解鸟为什么会飞,我们必须懂得空气动力学”(马尔 1988:27)。因此需要回到数据,因为数据是创造智能奇迹的原动力,没有足够的输入数据,人不可能有语言能力,机器也不会语言智能。数据驱动语言学对传统语言概念的“重构”体现在多个方面:将语法性视为梯度概念而非二元判断;将语义理解为向量空间中的关系而非符号逻辑演算;将语言习得看作统计学习而非规则系统的参数设置。这种重构不是对传统的简单否定,而是将其作为“特殊性”包含在更广泛的概率模型和规律中。换言之,数据驱动语言学更关注从大规模真实语言材料中发现语言系统运作的普遍规律,通过模型参数的变化来探究语言的特殊性,而不是从“特例”出发,寻求语言的普遍规律。一项采用10种语言真实语料的句子长度分布研究表明,语言的普遍性并非表现为形式上的绝对一致,而是通过跨语言、跨体裁的统计规律性在概率分布中显现。具体而言:句子长度和子句长度在10种语言中均符合相同的概率分布模型——扩展正负二项分布(EPNB),表明语言使用的模式具有内在的随机性,但这种随机性受共享认知机制约束,呈现出可建模的概率性普遍规律。尽管不同语言在句法结构上存在差异,但其长度分布的整体形态由概率模型统一刻画,说明语言普遍性是以“概率分布模式”的形式存在的,而不是固定规则。分布参数的聚类结果与语言谱系一致,说明语言特殊性嵌在普遍的概率规律之中(Zhou et al.2025)。因此,语言的普遍性是通过数据拟合揭示出的深层概率规律,表面变异则由概率分布的参数变化承载。也可以说,这种研究方法也体现了更具数学意义的语言系统的“原则”和“参数”。这可能也意味着语言能力不应再被理解为掌握一组先天规则,而应被视为对统计规律的敏感度与泛化力。语言学家的任务也随之转变,不再需要发明规则去“规定”语言应该如何,而是需要发现数据中已然存在的规律并解释它们为何如此分布。
数智时代,人们期盼语言学能够做出更大的贡献,这可能也是《大数据入门》一书中,在提到了有助于构建AI的学科时,除了有计算机、数学、医学、心理学和工程等学科之外,也有语言学的一席之地(Sarangi & Sharma 2020)。显而易见的是,如果语言学家要证明自己发现的规律有助于那些包括AI在内的需要语言规律的学科和领域,语言学需要改变。这种改变不只是方法的改变、语言观的改变,更需要从“规则制定者”转向“规律发现者和解释者”。传统语言学家在涉及人类语言的AI中的角色主要是提供分析框架和规则系统。当大语言模型通过数据自动学习获得超越人工规则系统的语言能力时,这种角色显然难以为继。但这绝不意味着语言学失去价值,而是其价值形态需要转变。语言学家的新使命在于发现和解释数据驱动的语言模型所捕获的规律,架起人类语言理解与机器语言处理之间的认知桥梁。例如,张子豪和刘海涛(2023)发现大语言模型自动捕捉到的虚词使用模式与真实语言数据中的统计规律高度一致。此类研究的意义在于:(1)验证模型可靠性:确认模型确实学到了有效的语言规律;(2)发现新规律:模型可能揭示人类研究者尚未注意到的语言模式;(3)解释模型行为:理解模型决策的语言学基础。这种解释性研究对提高AI系统的透明性和可信性至关重要。得益于数据驱动语言研究方法发现的语言普遍规律,语言学也可为AI模型的跨语言泛化提供理论指导,助力这种跨语言学习的理解和优化,这对于低资源语言处理和AI全球化应用尤为重要。由此不难看出,数智时代的语言学与AI的关系不应是单向的知识应用,而应是协同进化的共生关系。在这种关系中,语言学不仅解释AI,也从AI中获得启发;AI不仅使用语言学理论和发现,也会挑战和丰富语言学理论。人机“协同进化”也为构建数字时代中国语言学的自主知识创新创造了新的可能。中国语言学在传统理论框架下长期处于跟跑状态,但在数据驱动的语言研究新范式中,中国学者完全有机会实现从跟跑到并跑乃至领跑的跨越式发展。

4. 走向数据驱动的语言学新范式

数智风暴席卷全球,AI不仅破解了人类引以为傲的“软件”系统,也正在改变人类的认知过程。人类了解数智体的最大障碍在于,数千年来辛苦构建的有关人类软件的知识体系无法回答“数据涌现智能”这个数智时代的核心问题。为了回答这个问题,需要用数据的眼光审视已有的人类知识体系,特别是有关人类“语言软件”的那些知识。辛顿说,大语言模型也是基于特征来理解和处理人类语言的,但显然大模型用的特征与传统语言学中的特征长得不一样。大语言模型通过数据驱动的学习方式,从根本上改变了语言特征的表征和处理机制。与传统符号特征相比,大模型自动学习的高维向量特征具有概率性、上下文敏感性和动态浮现性等本质区别。这种特征更有效地捕捉了真实语言的复杂性,解释了模型在语言任务上的卓越表现。虽然大语言模型不依赖显式语言学规则,但对模型捕获的统计规律的解释和理论化,仍是语言学的重要使命。构建“数据驱动语言学”新范式,将语言视为人驱动的概率系统,将语言知识视为多维概率分布,为AI时代的语言研究提供了可行路径。如果说,大模型的成功并不是算法的偶然,而是数据中潜藏的语言普遍规律在发挥作用,那么发现和阐释这些规律正是语言学在数智时代的新机遇和新使命。对于中国语言学家而言,这“也可能是未来五六十年里,中国语言学唯一一次超越或者引领世界语言学的机会”(刘海涛、郑国锋 2021:18)。
语言学正站在一个历史转折点上。大语言模型的兴起并非宣告传统语言学的终结,而是暴露了现有理论在处理真实语言复杂性时的方法论瓶颈,旨在呼唤一场方法论与认识论的深刻转变。从“制定规则”转向“发现规律”,从“解释个体直觉”走向“建模群体行为”,语言学正迈向一个更加开放、实证与跨学科的新阶段。面对这一转变,语言学家不应退守象牙塔,也不必畏惧技术冲击,而应主动成为人机智能之间的桥梁、迎接这场方法论的转变——走向数据驱动的语言学。这一新范式不否认理论的重要性,但强调理论必须建立在对真实语言使用的观察之上。当“特征”不再是符号,语言学的未来也不再是封闭的体系建构,而是一场持续开放的探索。唯有如此,语言学才能在智能时代重获其应有的科学地位。在这条通往理解“智能”的道路上,人们或许终将明白:人类语言最深层的秩序和规律,并非语言学家头脑中的抽象规则,而是源于亿万次真实语言交流所形成的统计之流。

附注

① 该句源于控制论学者Ross Ashby的格言警句集,详见 https://ashby.info/images/aphorisms/wrasa084.jpg。
② 该句节选自辛顿与周伯文在2025年世界人工智能大会科学前沿全体会议上的对话,对话全文参见 https://blog.csdn.net/cf2SudS8x8F0v/article/details/149698992。
③ 本节词嵌入的例子和图2均引自 https://jalammar.github.io/illustrated-word2vec/。
④ 该图原版为彩色,原图可参见附注③中的网址。
[1]
Bod, R., J. Hay & S. Jannedy. 2003. Probabilistic Linguistics[C]. Cambridge: MIT Press.

[2]
Divjak, D. 2019. Frequency in Language: Memory, Attention and Learning[M]. Cambridge: Cambridge University Press.

[3]
Hausser, R. 1999. Foundations of Computational Linguistics: Human-Computer Communication in Natural Language[M]. Berlin, Heidelberg & New York: Springer.

[4]
Hausser, R. 2011. Computational Linguistics and Talking Robots: Processing Content in Database Semantics[M]. Berlin, Heidelberg, New York: Springer.

[5]
Hausser, R. 2017. Generalized reference: Referring with and without language by matching, pointer, or address[A]. In M. Kurosu (ed.). Human-Computer Interaction: User Interface Design, Development and Multimodality (HCI 2017,Part I, LNCS 10271)[C]. Cham: Springer. 427-446.

[6]
Hjelmslev, L. 1970. Language: An Introduction[M]. Madison: The University of Wisconsin Press.

[7]
Hua, Q., L. Ye. D. F . et al. 2025. Context engineering 2.0:The context of context engineering[J/OL]. arXiv preprint arXiv:2510. 26493.[2025-12-01]. https://arxiv.org/abs/2510.26493.

[8]
Mauthner, F. 1901. Beiträge zu einer Kritik der Sprache[M]. Stuttgart: J.G. Cotta’sche Buchhandlung.

[9]
Sag, I. A. & T. Wasow. 1999. Syntactic Theory: A Formal Introduction[M]. Stanford: CSLI Publications.

[10]
Sarangi, S. & P. Sharma. 2020. BIG DATA: A Beginner’s Introduction[M]. Abingdon and New York: Routledge.

[11]
Smith, N. A. 2020. Contextual word representations: Putting words into computers[J]. Communications of the ACM (6): 66-74.

[12]
ten Hacken, P. 2001. Revolution in computational linguistics: Towards a genuinely applied science[A].In W. Daelemans, K. Sima’an, J. Veenstra, et al. (eds.). Computational Linguistics in the Netherlands 2000[M]. Amsterdam: Rodopi. 60-72.

[13]
Zhou, Y., J. Jiang & H. Liu. 2025. Language universals in sentence length: Comparing sentence length distributions of 10 languages[J]. Cognitive Science (9): e70115.

[14]
杰弗里·埃佛勒斯·辛顿. 2024. 杰弗里·辛顿接受尤利西斯奖章时发表的获奖感言(陈国华译)[J]. 当代语言学(4):489-495.

[15]
陈浪. 2024. ChatGPT和语言学研究[A]. 杨旭、罗仁地. ChatGPT来了:语言科学如何看待ChatGPT[M]. 上海: 上海教育出版社.37-45.

[16]
德雷仁. 1999. 世界共通语史——三个世纪的探索[M]. 北京: 商务印书馆.

[17]
冯志伟. 2017. 自然语言计算机形式分析的理论与方法[M]. 合肥: 中国科学技术大学出版社.

[18]
费尔迪南·德·索绪尔. 1980. 普通语言学教程[M]. 北京: 商务印书馆.

[19]
刘海涛. 2005. 从比较中看计算语言学[J]. 咸宁学院学报(4): 60-66.

[20]
刘海涛. 2009. 依存语法的理论与实践[M]. 北京: 科学出版社.

[21]
刘海涛. 2017. 计量语言学导论[M]. 北京: 商务印书馆.

[22]
刘海涛. 2023. 语言规划讲义[M]. 北京: 商务印书馆.

[23]
刘海涛. 2024. 从语言数据到语言智能——数智时代对语言研究者的挑战[J]. 中国外语(5): 60-66.

[24]
刘海涛. 2025. 数据驱动语言学的理论基点[J]. 中国社会科学(4): 184-203.

[25]
刘海涛、 郑国锋. 2021. 大数据时代语言学理论研究的路径与意义[J]. 当代外语研究 (2): 5-18,31.

[26]
陆前、 刘海涛. 2025. 人类真实语言为什么不会无限中心递归[J]. 当代语言学(3): 361-379.

[27]
马尔. 1988. 视觉计算理论[M]. 北京: 科学出版社.

[28]
斯蒂芬·沃尔弗拉姆. 2023. 这就是ChatGPT[M]. 北京: 人民邮电出版社.

[29]
尤瓦尔·赫拉利. 2014. 人类简史:从动物到上帝[M]. 北京: 中信出版社.

[30]
尤瓦尔·赫拉利. 2024. 智人之上:从石器时代到 AI时代的信息网络简史[M]. 北京: 中信出版社.

[31]
张奇、 桂韬、 郑锐、 黄萱菁. 2024. 大规模语言模型:从理论到实践[M]. 北京: 电子工业出版社.

[32]
张子豪、 刘海涛. 2023. 从线性位置看神经网络模型中语言规律的获得与表征[J]. 当代语言学(6): 791-809.

Outlines

/