思想与学术

自然语言处理中的神经网络模型

展开
  • 新疆大学,乌鲁木齐,830000
    大连海事大学,大连,116026
冯志伟,教授,新疆大学天山学者。主要研究方向为自然语言处理、计算语言学、数理语言学。电子邮箱: zwfengde2010@163.com|丁晓梅,大连海事大学外国语学院副教授。主要研究方向为俄罗斯语言学、语料库语言学。电子邮箱: wyxydxm@dlmu.edu.com

网络出版日期: 2022-09-13

基金资助

* 国家社会科学基金项目“基于平行语料库的俄汉语言学术语词典编纂研究”的阶段性成果(编号17BYY220)

Neural Network Models in Natural Language Processing

Expand

Online published: 2022-09-13

摘要

自然语言处理是用计算机来研究和处理自然语言的一门交叉学科,近年来发展迅速,引起语言学界的极大关注。文章讨论了自然语言处理中的四种神经网络模型,即前馈神经网络模型、卷积神经网络模型、循环神经网络模型和预训练模型,其中包括模型的原理、结构、算法、机制,并突出强调它们在自然语言处理中的应用。文章指出,尽管神经网络模型已经成为自然语言处理的主流,但这些模型还缺乏可解释性,未来需要得到基于规则的语言模型和基于统计的语言模型的支持。

本文引用格式

冯志伟, 丁晓梅 . 自然语言处理中的神经网络模型[J]. 当代外语研究, 2022 , 22(4) : 98 -110 . DOI: 10.3969/j.issn.1674-8921.2022.04.010

Abstract

Natural Language Processing (NLP) is a new interdisciplinary subject to study and process the natural language by computer. In recent years, NLP has developed very rapidly and it attracted great attention from the linguistic community. This paper discusses four types of neural network model in natural language processing: Feed-forward Neural Network model (FNN), Convolutional Neural Network model (CNN), Recurrent Neural Network model (RNN), and Pre-Training model (PT), including the basic principle, structure, algorithm, and mechanism of the model, highlights their application in NLP. The paper points out that although the neural network models have become the mainstream of NLP, but these models still lack interpretability and need to be supported by rule-based language models and statistics-based language models in the futur.

参考文献

[1] Bengio Y., R. Ducharme, P. Vincent, et al. 2003. A neural probabilistic language model[J]. Journal of Machine Learning Research (3):1137-1155.
[2] Devlin J., M. W. Chang K. Lee, et al. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[C]. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics.
[3] Goldberg J. 2017. Neural Network Methods for Natural Language Processing[M]. New York: Morgan & Claypool Publishers.
[4] Mikolov T., K. Chen, G. Corrado, et al. 2013. Efficient estimation of word representation in Vector Space[J/OL]. Computer Science (3): 24-30.
[5] Mostafa D., G. Stephan, V. Oriol, U. Jakob, et al. 2018. Universal transformers[J/OL]. [2018-07-10]. https://arxiv.org/abs/1807.03819.
[6] Radford A, K. Narasimhan, T. Salimans, et al. 2018. Improving language understanding by generative pre-training[J/OL]. [2018-10-22]. https://s3-us-west-2.amazonaws.com/openai-assets/researchcovers/languageunsupervised/language understanding paper.pdf.
[7] Vaswani A, N. Shazeer, N. Parmar, et al. 2017. Attention is all you need[C]. Proceedings of Advances in Neural Information Processing Systems. 5998-6008.
[8] 冯志伟. 2011. 计算语言学的历史回顾与现状分析[J]. 外国语(上海外国语大学学报) (1):9-17.
[9] 冯志伟. 2017. 自然语言计算机形式分析的理论与方法[M]. 合肥: 中国科学技术大学出版社.
[10] 冯志伟、 丁晓梅. 2021. 自然语言处理中的语言模型[J]. 外语电化教学 (6):17-24.
[11] 冯志伟、 李颖. 2021. 自然语言处理中的预训练范式[J]. 外语研究 (1): 1-14.
[12] 冯志伟. 2021a. 生成词向量的三种方法[J]. 外语电化教学 (1): 18-26.
[13] 冯志伟. 2021b. 神经网络、深度学习与自然语言处理[J]. 上海师范大学学报(社会科学版):(2):110-122.
[14] 冯洋、 邵晨泽. 2020. 神经机器翻译前沿综述[J]. 中文信息学报 (7):1-18.
[15] 李沐、 刘树杰、 张冬冬、 周明. 2018. 机器翻译[M]. 北京: 高等教育出版社.
[16] 邱锡鹏. 2019. 神经网络与深度学习[M/OL]. [2019-07-20]. http://nndl.github.io.
文章导航

/