图2中的每一个词由50个小格组成,每个格的颜色是由50维向量中对应的数字决定的,数值接近2为红色,接近0为白色,接近-2则为蓝色
④。
图2尽管只有4个词,但还是有不少看点的。比如,King和Queen(女王)的区别,按照义素分析法,二者的差别就在[+女性]/[+男性]这个特征上,但这样的区别显然有些粗糙了,因为每个懂英语的人,都会感觉到二者之间除性别外,还是有一些说不清道不明的差别。这种模糊的感觉,在
图2中是有体现的。这一点,对比Man和Woman的向量图,也可看出King和Queen的区别不只是Man和Woman的区别这样简单。如前文所述,有了词向量,语义不仅可以量化了,也可以计算了。如果这是真的,那么king-man+woman就该等于queen,但
图2显示二者并不完全相同,但在包含40万个词的向量集中,queen的向量值却是最接近“king-man+woman”运算所产生数值的单词。这个例子说明,语义计算是可行的、有效的,而且结果也是可靠的和可信的,但语义本身不是绝对的,而是概率的。如果语义可以计算,那么长久以来困扰计算语言学界的歧义问题也就不再是一个严重的问题,这可能也是近年来几乎很难在计算语言学的会议和刊物上看到曾经颇为流行的“歧义消解”研究了。这不仅反映了离散符号表示与连续向量表示的本质区别,也揭示了传统语言学方法在处理语义问题时的局限和不足。遗憾的是,今天的自然智能体们(语义学家)大多却仍在像过去的人工智能体一样用各种形式化的手段来处理本质上不可分解和形式化的真实语言的“意义”,尽管早有学者说过形式逻辑语言无法表达日常语言的丰富性(Hjelmslev
1970),计划(人造)语言的历史也表明,基于逻辑的人造语言方案尽管设计精良,但从未社会化为一般意义的人类语言(德雷仁
1999;刘海涛
2023)。