You can not select more than 25 topics Topics must start with a chinese character,a letter or number, can include dashes ('-') and can be up to 35 characters long.

Word2Vec.ipynb 6.5 kB

5 years ago
5 years ago
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144
  1. {
  2. "cells": [
  3. {
  4. "cell_type": "markdown",
  5. "metadata": {},
  6. "source": [
  7. "# Word2Vec\n",
  8. "\n",
  9. "众所周知,机器处理原始文本数据。实际上,机器几乎不可能处理数据文本之外的其它文本。因此,以向量的形式表示文本一直是所有NLP任务的重要步骤。\n",
  10. "\n",
  11. "其中非常关键的一步是word2vec词嵌入的使用。该方法在2013年被引入NLP领域,完全改变了NLP的前景。\n",
  12. "\n",
  13. "这些嵌入法代表了处理词类比和相似度等任务可达到的最高水准。word2vec嵌入法也能实现King – man +woman ~= Queen(国王–男性 + 女性 ~= 女王等任务),近乎神迹。\n",
  14. "\n",
  15. "现在有两种word2vec模型——连续词袋模型与Skip-Gram模型。本文将使用后者。首先要了解如何计算word2vec向量或嵌入。"
  16. ]
  17. },
  18. {
  19. "cell_type": "markdown",
  20. "metadata": {},
  21. "source": [
  22. "## 1. 如何生成word2vec词嵌入?\n",
  23. "\n",
  24. "word2vec模型是一个单个简单隐藏层的神经网络模型。模型任务用于预测语句中每个单词的临近单词。然而,我们的目标与此完全无关。我们想做的只是知道模型被训练后隐藏层所学习的权重。这些权重可做被用做词嵌入。\n",
  25. "\n",
  26. "下面的例子用于理解word2vec模型是如何工作的。思考以下句子:\n",
  27. "\n",
  28. "![img](images/word2vec_01.jpeg)\n",
  29. "\n",
  30. "假设“teleport(传输)”这个词作为输入词。该词拥有规格为2的上下文窗口。这意味着只将此词左右两侧的两个单词作为相近单词。\n",
  31. "\n",
  32. "注意:上下文窗口的规格非固定,可根据需要改变。\n",
  33. "\n",
  34. "现在,任务是逐一选择相近单词(上下文窗口中的单词)并确定词汇表中每个单词被选中的可能性。听起来很容易,对吗?\n",
  35. "\n",
  36. "通过另一个例子来理解这个过程。\n",
  37. "\n",
  38. "\n",
  39. "### 1.1 训练数据\n",
  40. "\n",
  41. "\n",
  42. "需要一个标签数据集来训练神经网络模型。这意味着数据集需要有一组输入,每组都会有相应输出。这时你可能会想问以下问题:\n",
  43. "\n",
  44. "* 何处寻找这样的数据集?\n",
  45. "* 该数据集需要包含什么内容?\n",
  46. "* 这组数据有多大?\n",
  47. "\n",
  48. "好消息!可以很容易地创建自己的标签数据来训练word2vec模型。如下阐述了如何从文本生成数据集。应用其中的一个句子并创建训练数据。\n",
  49. "\n",
  50. "第一步:黄色高亮单词作为输入,绿色高亮单词为输出。窗口规格为2个单词。将首单词作为输入词。\n",
  51. "\n",
  52. "![img](images/word2vec_02.jpeg)\n",
  53. "\n",
  54. "因此,该输入词的训练样本如下所示:\n",
  55. "\n",
  56. "![img](images/word2vec_03.jpeg)\n",
  57. "\n",
  58. "第二步:将第二个单词作为输入词。上下文窗口将同时改变。现在的相近单词变成了“we”、“become”和“what”。\n",
  59. "\n",
  60. "![img](images/word2vec_04.jpeg)\n",
  61. "\n",
  62. "新的训练样本将附于之前的样本后面,如下所示:\n",
  63. "\n",
  64. "![img](images/word2vec_05.jpeg)\n",
  65. "\n",
  66. "重复以上步骤直至最后一个单词。最后,完整的训练数据如下所示:\n",
  67. "\n",
  68. "![img](images/word2vec_06.jpeg)\n",
  69. "![img](images/word2vec_07.jpeg)\n",
  70. "\n",
  71. "一个句子能生成27个训练样本。太赞了!这是我喜欢处理非结构化数据的原因之一——能让标签数据集从无到有。\n",
  72. "\n",
  73. "\n",
  74. "### 1.2 生成word2vec词嵌入\n",
  75. "\n",
  76. "现在假设存在一组句子,用同样的方法提取出一组训练样本。将会得到大量训练数据。\n",
  77. "\n",
  78. "假设该数据集中唯一单词(即只出现一次的单词)的数量是5000,并且希望为每一个单词创建规格为100的单词向量。同时word2vec架构如下所示:\n",
  79. "\n",
  80. "* V=5000(词汇表规格)\n",
  81. "* N=100(隐藏单元数量或词嵌入长度)\n",
  82. "\n",
  83. "![img](images/word2vec_08.jpeg)\n",
  84. "\n",
  85. "输入是独热编码向量,**输出层是词汇表中各单词成为相近单词的概率**。\n",
  86. "\n",
  87. "为了将事物置于上下文中,词嵌入是文本的向量表示形式,它们捕获上下文信息。让我们看看下面的句子:\n",
  88. "\n",
  89. "* 我乘**巴士**去孟买\n",
  90. "* 我乘**火车**去孟买\n",
  91. "\n",
  92. "粗体字(公共汽车和火车)的向量将非常相似,因为它们出现在相同的上下文中,即粗体文本之前和之后的词。该信息对于许多NLP任务非常有用,例如文本分类,命名实体识别,语言建模,机器翻译等等。\n",
  93. "\n",
  94. "\n",
  95. "一旦模型被训练,很容易提取$W_V x N$ 矩阵的学习权重,并用以提取单词。\n",
  96. "\n",
  97. "![img](images/word2vec_09.jpeg)\n",
  98. "\n",
  99. "如上所示,权重矩阵的规格为5000x100。第一行对应词汇表中的第一个单词,第二行对应第二个,以此类推。\n",
  100. "\n",
  101. "![img](images/word2vec_10.jpeg)\n",
  102. "\n",
  103. "这就是通过word2vec生成固定规格的单词向量或单词嵌入的方法。数据集中的相似词会有相似向量,如指向同一方向的向量。比如,“car”和“jeep”两个词有着相似的向量。\n",
  104. "\n",
  105. "![img](images/word2vec_11.jpeg)\n",
  106. "\n",
  107. "这是对于NLP中如何应用word2vec模型的简要介绍。\n",
  108. "\n",
  109. "\n"
  110. ]
  111. },
  112. {
  113. "cell_type": "markdown",
  114. "metadata": {},
  115. "source": [
  116. "## References\n",
  117. "* 用Word2Vec建立你的私人购物助手 https://www.toutiao.com/a6730445169444782606\n",
  118. "* 使用DeepWalk从图中提取特征 https://www.toutiao.com/a6766104546411282947\n",
  119. "* 词向量详解:从word2vec、glove、ELMo到BERT https://www.toutiao.com/a6746020414075437579"
  120. ]
  121. }
  122. ],
  123. "metadata": {
  124. "kernelspec": {
  125. "display_name": "Python 3",
  126. "language": "python",
  127. "name": "python3"
  128. },
  129. "language_info": {
  130. "codemirror_mode": {
  131. "name": "ipython",
  132. "version": 3
  133. },
  134. "file_extension": ".py",
  135. "mimetype": "text/x-python",
  136. "name": "python",
  137. "nbconvert_exporter": "python",
  138. "pygments_lexer": "ipython3",
  139. "version": "3.6.8"
  140. }
  141. },
  142. "nbformat": 4,
  143. "nbformat_minor": 2
  144. }

机器学习越来越多应用到飞行器、机器人等领域,其目的是利用计算机实现类似人类的智能,从而实现装备的智能化与无人化。本课程旨在引导学生掌握机器学习的基本知识、典型方法与技术,通过具体的应用案例激发学生对该学科的兴趣,鼓励学生能够从人工智能的角度来分析、解决飞行器、机器人所面临的问题和挑战。本课程主要内容包括Python编程基础,机器学习模型,无监督学习、监督学习、深度学习基础知识与实现,并学习如何利用机器学习解决实际问题,从而全面提升自我的《综合能力》。