Skip to main content

AI入门

AI: RNN, CNN, LSTM, GPT2

TextCNN 短中长三种特征,1D CNN

RNN的核心: stateful

RNN-LSTM 的共同问题: 无法并行化

RNN->LSTM 解决的问题:梯度爆炸与消失

LSTM: 内部状态 + 输出

transformer QKV

温度: 温度是0, 一定选概率最高的

温度不是0, 会有一些“意外”的选择

GPT

n-gram 求概率

带来的问题: 数据量随n指数增长

-> 降维, embedding

单词的embedding + 位置的embedding = feature

feature-> attention-> result

encoder 并行

decoder 非并行

备考八股

1. CNN (卷积神经网络)

  • 问题: CNN 的核心思想是什么?它最适合处理哪种类型的数据?为什么?
  • 答案: CNN 的核心思想是局部连接和权值共享。它通过卷积核提取局部特征,并通过池化层降低维度和计算量。CNN 最适合处理具有空间结构的数据,例如图像和视频,因为卷积操作可以有效地捕捉局部空间相关性。
  • 问题: 解释一下卷积核、步长和填充的概念,以及它们如何影响 CNN 的输出。
  • 答案: 卷积核定义了要提取的特征类型,步长决定了卷积核在输入数据上移动的步幅,填充则是在输入数据的边缘添加额外的像素。这些参数共同决定了输出特征图的大小和感受野。
  • 问题: CNN 中的池化层有什么作用?常用的池化方法有哪些?
  • 答案: 池化层的主要作用是降低特征图的维度,减少计算量,并提高模型的鲁棒性。常用的池化方法包括最大池化和平均池化。

2. RNN (循环神经网络)

  • 问题: RNN 与传统神经网络的主要区别是什么?它适用于哪些类型的任务?
  • 答案: RNN 的主要区别在于它具有循环连接,可以处理序列数据,例如文本、语音和时间序列。它适用于需要考虑输入顺序的任务,例如自然语言处理、机器翻译和语音识别。
  • 问题: RNN 中的梯度消失和梯度爆炸问题是什么?如何解决这些问题?
  • 答案: 梯度消失和梯度爆炸问题是指在训练 RNN 时,梯度在反向传播过程中可能会变得非常小或非常大,导致模型难以训练。解决这些问题的方法包括使用 LSTM 或 GRU 等门控机制,以及梯度裁剪等技术。

3. LSTM (长短期记忆网络)

  • 问题: LSTM 如何解决 RNN 中的梯度消失和梯度爆炸问题?
  • 答案: LSTM 通过引入门控机制(输入门、输出门和遗忘门)来控制信息的流动,从而更好地捕捉长期依赖关系,并缓解梯度消失和梯度爆炸问题。
  • 问题: 解释 LSTM 中的三个门的作用。
  • 答案: 输入门控制新信息是否进入记忆单元,输出门控制记忆单元的输出,遗忘门控制记忆单元是否遗忘之前的状态。

4. 1dCNN (一维卷积神经网络)

  • 问题: 1dCNN 与 2dCNN 的主要区别是什么?它适用于哪些类型的任务?
  • 答案: 1dCNN 的卷积核在一维方向上滑动,而 2dCNN 的卷积核在二维方向上滑动。1dCNN 适用于处理时间序列数据或具有局部时间相关性的数据,例如传感器数据、文本数据等。

5. TextCNN (文本卷积神经网络)

  • 问题: TextCNN 如何将 CNN 应用于文本分类任务?
  • 答案: TextCNN 使用不同大小的卷积核提取文本的不同 n-gram 特征,然后通过池化层将这些特征组合成一个向量,最后使用全连接层进行分类。

6. Transformer

  • 问题: Transformer 与 RNN 的主要区别是什么?它有哪些优势?
  • 答案: Transformer 使用自注意力机制来捕捉序列中不同位置之间的关系,而不需要像 RNN 那样按顺序处理输入。它的优势在于可以并行计算,训练速度更快,并且可以更好地捕捉长距离依赖关系。
  • 问题: 解释一下 Transformer 中的自注意力机制。
  • 答案: 自注意力机制计算序列中每个位置与其他所有位置之间的相关性,从而得到每个位置的加权表示。

7. GPT-2 (Generative Pre-trained Transformer 2)

  • 问题: GPT-2 是什么类型的模型?它如何进行文本生成?
  • 答案: GPT-2 是一个基于 Transformer 的预训练语言模型。它通过学习大量的文本数据,可以根据给定的上下文生成流畅自然的文本。
  • 问题: GPT-2 的预训练过程是什么?
  • 答案: GPT-2 使用无监督学习的方式进行预训练,目标是预测下一个单词。

这些问题涵盖了这些深度学习架构的核心概念和重要考点,可以帮助你更好地理解和应用这些架构。