当代外语研究 ›› 2026, Vol. 26 ›› Issue (1): 94-112.doi: 10.3969/j.issn.1674-8921.2026.01.008
出版日期:2026-02-28
发布日期:2026-03-31
作者简介:刘海涛, 复旦大学文科资深教授。主要研究方向为数据驱动语言学、数字人文、语言规划。电子邮箱:htliu@163.com。
基金资助:Online:2026-02-28
Published:2026-03-31
摘要:
本文从语言学理论中的“特征”切入,探讨大语言模型兴起背景下语言学研究范式的根本转变。传统特征合一语法依赖人工定义的离散符号系统,试图以规则演绎方式刻画语言能力;而大语言模型则通过海量文本的统计学习,隐式构建出高维、连续、上下文敏感的向量表征,实现了对语言系统的概率化建模。这种从“规则制定”到“规律发现”的转变,不仅挑战了经典语言学的认识论基础,更揭示了语言本质上是一个动态的概率系统。文章认为,面对人工智能带来的认知冲击,语言学应主动转向“数据驱动”的新范式,在解释模型所捕获的统计规律的同时,重新确立自身作为人机语言理解之间桥梁的学科使命,为中国语言学在数智时代的自主创新贡献力量。
中图分类号:
刘海涛. 当“特征”不再是符号:大语言模型引发的语言学变革[J]. 当代外语研究, 2026, 26(1): 94-112.
LIU Haitao. When “Features” Cease to Be Symbols: The Linguistic Transformation Driven by Large Language Models[J]. Contemporary Foreign Languages Studies, 2026, 26(1): 94-112.
表1
特征合一语法与大语言模型的比较
| 特征合一语法 | 大语言模型 | |
|---|---|---|
| 本质与形式 | 离散的、符号化的 | 连续的、数值化的向量(嵌入) |
| 特征维度 | 低维(通常<10) | 高维(通常>1000) |
| 特征交互 | 确定性规则(合一运算) | 概率性关联(权重调整) |
| 产生方式 | 人工特征工程。需要专家根据语言学知识精心设计和选择特征,然后编写规则来提取。 | 自动学习。模型在大量文本数据上通过预训练过程自行学习到如何将语言元素表示为向量。无需人工设计。 |
| 含义与可解释性 | 高可解释性。每个特征都有明确的语言学意义。 | 低可解释性。单个维度(向量中的某个数字)通常没有明确含义。其语义信息分布式地隐藏在整个向量中。 |
| 上下文依赖性 | 大部分是上下文无关的。例如,“apple”这个词的“词形”特征就是“apple”本身,无论它指的是水果还是公司。需要额外设计特征来捕捉上下文。 | 高度上下文相关。会根据上下文为同一个词形生成不同的向量表示。例如,“apple pie”和“Apple Inc.”中的“apple”,其向量表示会完全不同,精准捕捉了上下文语义。 |
| 知识与信息来源 | 来自语言学家的先验知识和词典、规则库。 | 来自训练数据中的统计模式。模型从海量文本中隐式地学习语法、常识甚至推理能力。 |
| 粒度与层次 | 特征通常是分层次、模块化的:先有词法特征,再有句法特征,最后是语义特征。 | 端到端的。模型同时学习所有层次的特征(从字符、词法、句法到语义、语用),所有信息都混合在最后的向量表示中。 |
| 迁移性与泛化能力 | 差。为特定任务精心设计的特征很难直接用于另一个任务。 | 极强。预训练好的通用向量表示可以作为一个强大的特征基础,通过微调或少样本学习轻松迁移到各种下游任务中。 |
| [1] |
|
| [2] |
|
| [3] |
|
| [4] |
|
| [5] |
|
| [6] |
|
| [7] |
|
| [8] |
|
| [9] |
|
| [10] |
|
| [11] |
|
| [12] |
|
| [13] |
|
| [14] |
杰弗里·埃佛勒斯·辛顿. 2024. 杰弗里·辛顿接受尤利西斯奖章时发表的获奖感言(陈国华译)[J]. 当代语言学(4):489-495.
|
| [15] |
陈浪. 2024. ChatGPT和语言学研究[A]. 杨旭、罗仁地. ChatGPT来了:语言科学如何看待ChatGPT[M]. 上海: 上海教育出版社.37-45.
|
| [16] |
德雷仁. 1999. 世界共通语史——三个世纪的探索[M]. 北京: 商务印书馆.
|
| [17] |
冯志伟. 2017. 自然语言计算机形式分析的理论与方法[M]. 合肥: 中国科学技术大学出版社.
|
| [18] |
费尔迪南·德·索绪尔. 1980. 普通语言学教程[M]. 北京: 商务印书馆.
|
| [19] |
刘海涛. 2005. 从比较中看计算语言学[J]. 咸宁学院学报(4): 60-66.
|
| [20] |
刘海涛. 2009. 依存语法的理论与实践[M]. 北京: 科学出版社.
|
| [21] |
刘海涛. 2017. 计量语言学导论[M]. 北京: 商务印书馆.
|
| [22] |
刘海涛. 2023. 语言规划讲义[M]. 北京: 商务印书馆.
|
| [23] |
刘海涛. 2024. 从语言数据到语言智能——数智时代对语言研究者的挑战[J]. 中国外语(5): 60-66.
|
| [24] |
刘海涛. 2025. 数据驱动语言学的理论基点[J]. 中国社会科学(4): 184-203.
|
| [25] |
刘海涛、 郑国锋. 2021. 大数据时代语言学理论研究的路径与意义[J]. 当代外语研究 (2): 5-18,31.
|
| [26] |
陆前、 刘海涛. 2025. 人类真实语言为什么不会无限中心递归[J]. 当代语言学(3): 361-379.
|
| [27] |
马尔. 1988. 视觉计算理论[M]. 北京: 科学出版社.
|
| [28] |
斯蒂芬·沃尔弗拉姆. 2023. 这就是ChatGPT[M]. 北京: 人民邮电出版社.
|
| [29] |
尤瓦尔·赫拉利. 2014. 人类简史:从动物到上帝[M]. 北京: 中信出版社.
|
| [30] |
尤瓦尔·赫拉利. 2024. 智人之上:从石器时代到 AI时代的信息网络简史[M]. 北京: 中信出版社.
|
| [31] |
张奇、 桂韬、 郑锐、 黄萱菁. 2024. 大规模语言模型:从理论到实践[M]. 北京: 电子工业出版社.
|
| [32] |
张子豪、 刘海涛. 2023. 从线性位置看神经网络模型中语言规律的获得与表征[J]. 当代语言学(6): 791-809.
|
| [1] | 王孟. 大语言模型驱动中华优秀传统文化在高校课堂中的多模态传播——以殷商文化为例[J]. 当代外语研究, 2025, 25(6): 73-82. |
| [2] | 张静, 彭思锐. 大语言模型赋能学生译文智能评估的实证研究[J]. 当代外语研究, 2025, 25(5): 85-96. |
| [3] | 杨明明, 王溪淙. 基于大语言模型的高校俄语教材数智化教学探索——以《走遍俄罗斯1》为例[J]. 当代外语研究, 2025, 25(3): 129-139. |
| [4] | 袁周敏, 邓馨蕊, 蒋超. 政务语言能力及其形成——兼评《联邦平实语言指南》[J]. 当代外语研究, 2024, 24(3): 166-172. |
| [5] | 张新玲, 刘杨. 语言能力量表的价值取向和语言能力描写[J]. 当代外语研究, 2024, 24(1): 178-190. |
| [6] | 盖飞虹. 语言迁移研究30年变迁[J]. 当代外语研究, 2022, 22(3): 113-121. |
| [7] | 邹绍艳, 潘鸣威. 《中国英语能力等级量表》的写作能力构念界定[J]. 当代外语研究, 2018, 18(05): 62-72. |
| [8] | 王强. 法律外语教学改革之我见[J]. 当代外语研究, 2017, 17(05): 6-8. |
| [9] | 邹绍艳;. 校本英语分级考试的构念效度研究——以QDAU英语分级考试为例[J]. 当代外语研究, 2012, 12(08): 51-55+78. |
| [10] | 王振亚;. 翻译能力新探[J]. 当代外语研究, 2012, 12(03): 43-47+160. |
| [11] | 程昕;吴诗玉;. 大学物理双语教学模式的研究[J]. 当代外语研究, 2011, 11(05): 34-38+61. |
| 阅读次数 | ||||||
|
全文 |
|
|||||
|
摘要 |
|
|||||
