计算机视觉导论
期中一站式复习
覆盖 Lect01-08 全部考点,涵盖经典视觉方法(边缘/角点/RANSAC)与深度学习(MLP/CNN/ResNet/检测/分割),结合 2022 年期中真题与自编练习。
考点权重(基于课件结构与 2022 真题推断)非课件内容
CNN 与训练技巧
Conv 层参数共享/稀疏连接、BatchNorm、ResNet 残差连接、优化器选择
经典视觉方法
Canny 边缘检测全流程、Harris 角点检测 $\theta$ 公式推导、RANSAC 直线拟合
2D 视觉任务
语义分割(FCN/UNet)、目标检测(R-CNN 系列)、实例分割(Mask R-CNN)
选择 & 简答
概念辨析、梯度回传、损失函数选择、归一化对比、评估指标
考点路线图 整理导图
CV 概述 (Lect01)
人类视觉系统 / CV 任务层次 / 数据类型 / 视觉与图形学关系
边缘检测 (Lect02)
图像梯度 → 高斯平滑 → Canny:NMS + 滞后阈值 + 边缘连接
直线拟合 & 角点 (Lect03)
最小二乘/SVD → RANSAC → Hough 变换 · Harris $\theta = \det(M) - \alpha\text{tr}(M)^2 - t$
MLP 基础 (Lect04)
逻辑回归 → MLE/NLL → GD/SGD → MLP → 反向传播 · ReLU 优势
CNN (Lect05)
Conv 层/Pooling 层 · 参数共享 & 稀疏连接 · 平移等变性 · Xavier/He 初始化
训练技巧 (Lect06)
SoftMax/交叉熵 · BatchNorm (Conv-BN-ReLU) · LayerNorm/GroupNorm 对比
ResNet & 分割 (Lect07)
残差连接/梯度旁路 · 数据增强 · 语义分割 FCN/UNet · 转置卷积
检测 & 实例分割 (Lect08)
R-CNN→Fast→Faster R-CNN · RPN · NMS · mAP · Mask R-CNN / RoI Align
第 1 章 · 计算机视觉概述(Lect01)
1.1 人类视觉系统
- 视觉通路:visual field → retina → optic nerve → optic tract → visual cortex
- 83% 的信息来自视觉(11% 听觉,其余嗅觉/触觉/味觉)
- 视觉任务分三层:视觉感知 (sensation) → 视觉知觉 (perception) → 视觉运动协调 (visuomotor coordination)
- 视觉知觉是认知活动,与纯光学过程(如摄影)有本质区别。相机没有知觉能力。
1.2 计算机视觉定义
Computer vision deals with: acquiring, processing & analyzing, understanding, generating or imagining visual data — and providing visual feedback for embodied agents.
1.3 视觉数据获取
| 传感器 | 数据类型 |
|---|---|
| RGB camera | RGB image |
| Depth camera | Depth image |
| LiDAR | LiDAR point cloud |
| Stereo / Multi-view | 3D from disparity |
还包括 RGB video、RGBD video、全景图像等。
1.4 CV 三层次任务
| 层次 | 内容 | 示例 |
|---|---|---|
| Low-Level | 图像处理、特征提取 | 去噪/去模糊、边缘/角点检测、光流 |
| Mid-Level | 局部结构分析、3D 重建 | 分割、运动分析、SLAM、NeRF |
| High-Level | 语义理解 | 目标识别/检测、场景理解、活动理解 |
1.5 视觉与图形学
Vision:逆图形学 (inverse graphics),更病态 (ill-posed),理论上更难。
可利用图形学生成合成数据(自带免费标签)辅助视觉任务训练。
第 2 章 · 经典视觉 I — 边缘检测(Lect02)
2.1 图像作为函数
- 图像 $f = f(x, y)$:将像素坐标映射到亮度值。
- 图像梯度:$\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$,指向亮度变化最剧烈的方向。
- 实践中用有限差分近似梯度:$\frac{\partial f}{\partial x} \approx f(x+1, y) - f(x, y)$
2.2 滤波器与卷积
- 线性滤波器 $\mathcal{G}$ 满足叠加性:$\mathcal{G}(\alpha f_1 + \beta f_2) = \alpha\mathcal{G}(f_1) + \beta\mathcal{G}(f_2)$
- 线性滤波 = 卷积:$h[n] = (f * g)[n]$
- 卷积定理:$\mathcal{F}(f * g) = \mathcal{F}(f)\mathcal{F}(g)$
- 矩形窗(移动平均)→ $\mathcal{F}$ 在 0 附近集中 → 低通滤波器 → 平滑效果
2.3 高斯滤波器
1D: $g(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{x^2}{2\sigma^2})$,其傅里叶变换仍为高斯 → 低通滤波器。
- $\sigma$ 越大,$\mathcal{F}(g)$ 越尖锐 → 更强平滑 → 更多高频被滤除
- $\sigma \to 0$,$\mathcal{F}(g)=1$ → 无滤波
2.4 Canny 边缘检测全流程
边缘的成因
- 深度不连续 (depth discontinuity):物体边界处深度突变
- 表面朝向不连续 (surface orientation discontinuity):法向量突变
- 表面颜色不连续 (surface color discontinuity):纹理/材质边界
- 光照不连续 (illumination discontinuity):阴影边界
最优边缘检测的四项准则
高召回 (High Recall):$\frac{TP}{TP+FN}$,最小化假阴性,确保所有真实边缘都被检测到。
良好定位 (Good Localization):检测边缘与真实边缘的位置偏差最小。
单一响应 (Single Response):每条真实边缘只产生一个检测响应,最小化冗余。
Canny 五步法:
- 高斯平滑:用高斯滤波器卷积,去噪。利用卷积的导数定理:$\frac{\partial}{\partial x}(f * g) = f * \frac{\partial g}{\partial x}$,可一步完成平滑+求导。
- 计算梯度幅值和方向:幅值 $|\nabla f|$,方向 $\theta = \arctan(f_y/f_x)$
- 非极大值抑制 (NMS):沿梯度方向比较相邻像素,只保留局部最大值,将多像素宽的"脊"细化为单像素宽。
- 滞后阈值化 (Hysteresis Thresholding):高阈值 $T_{\text{high}}$ 启动边缘,低阈值 $T_{\text{low}}$ 延续边缘。$|g| > T_{\text{high}}$ 保留;$|g| < T_{\text{low}}$ 丢弃。
- 边缘连接 (Edge Linking):沿边缘方向检查相邻像素,若梯度方向在同一 bin 且幅值 > $T_{\text{low}}$ 且通过 NMS,则标记为边缘。
2.5 平滑与定位的权衡
更大的 $\sigma$ 带来更强的去噪能力,但同时模糊边缘 → 定位精度下降。需要在不同尺度上检测边缘。
第 3 章 · 经典视觉 II — 直线拟合与角点检测(Lect03)
3.1 卷积 vs 相关
| 卷积 (Convolution) | 互相关 (Cross-Correlation) | |
|---|---|---|
| 核心思想 | 核翻转后再滑动 | 核直接滑动 |
| 1D 公式 | $(f * g)[n] = \sum_k f[k]g[n-k]$ | $(f \star g)[n] = \sum_k f[k]g[n+k]$ |
| 应用 | 信号处理、滤波 | 模板匹配 (template matching) |
3.2 Padding
- 目的:防止空间尺寸缩小;保留边缘像素信息。
- Zero padding:边界外填 0。
- Replicate padding:复制最近的边界像素。
3.3 im2col + GEMM
实践中卷积通过矩阵乘法高效实现:
- Kernel flattening:卷积核展平为行向量 ($1 \times K^2$)
- im2col:将输入的每个滑动窗口展平为列向量 ($K^2 \times N_{\text{out}}$)
- GEMM:矩阵乘法 $(1 \times K^2) \times (K^2 \times N_{\text{out}}) \to 1 \times N_{\text{out}}$
- Reshape:恢复为输出特征图尺寸
3.4 直线拟合:最小二乘法与 SVD
直线一般方程 $ax + by + d = 0$,对 $n$ 个点构造矩阵 $A_{n\times 3}$,求解 $\min_{\|h\|=1} \|Ah\|^2$,其中 $h = [a, b, d]^T$。
原因:$\|Ah\|^2 = (\lambda_1\alpha_1)^2 + (\lambda_2\alpha_2)^2 + (\lambda_3\alpha_3)^2 \ge \lambda_3^2$,取 $\alpha_1=\alpha_2=0, \alpha_3=1$ 时达到下界。
3.5 RANSAC(随机采样一致性)
核心思想:找到拥有最多内点 (inliers) 的模型。
$N$ 的计算:$N = \frac{\log(1-p)}{\log(1-(1-e)^s)}$,其中 $e$ = 外点比例,$s$ = 拟合模型所需最少点数,$p$ = 至少一次全内点采样的概率(通常取 0.99)。
3.6 Harris 角点检测
角点的关键性质:在角点周围区域,图像梯度有两个或更多主导方向。
核心思想:滑动窗口,观察窗口内亮度变化。
关键点 (Keypoint) 的四项要求
- 显著性 (Saliency):该点在图像中具有独特、有趣的结构
- 可重复性 (Repeatability):同一场景的不同图像中,同一点应被独立检测到
- 精确定位 (Accurate Localization):检测位置与真实位置偏差小
- 数量充足 (Sufficient Quantity):一张图中能检测到足够多的关键点以支撑后续任务
- Flat 区域:所有方向无变化
- Edge 区域:沿边缘方向无变化
- Corner 区域:所有方向都有显著变化
能量函数
移动 $(u,v)$ 后窗口内平方差之和:
$E(u,v) = \sum_{(x,y)\in N} [I(x+u, y+v) - I(x,y)]^2$
利用一阶泰勒展开 $I(x+u,y+v) - I(x,y) \approx I_x u + I_y v$:
$E(u,v) \approx [u, v] \; M \; \begin{bmatrix}u\\v\end{bmatrix}$
其中 $M = \begin{bmatrix} \sum I_x^2 & \sum I_x I_y \\ \sum I_x I_y & \sum I_y^2 \end{bmatrix}$(或使用高斯加权:$M = \begin{bmatrix} g(I_x^2) & g(I_x I_y) \\ g(I_x I_y) & g(I_y^2) \end{bmatrix}$)
角点响应函数
$= (g(I_x^2)g(I_y^2) - [g(I_x I_y)]^2) - \alpha[g(I_x^2) + g(I_y^2)]^2 - t$
其中 $\alpha \approx 0.04 \sim 0.06$,$t$ 为阈值。$\theta > 0$ 判定为角点。
物理意义:$\det(M) = \lambda_1\lambda_2$ 衡量两个方向变化都大;$\text{tr}(M)^2 = (\lambda_1+\lambda_2)^2$ 惩罚只有一个方向变化大的情况。
等变性
- Harris 角点响应 $\theta$ 对平移和旋转具有等变性 (equivariance)。
- 平移等变性来源:卷积本身是平移等变的。
- 旋转等变性来源:高斯核 $g_\sigma$ 是各向同性的(旋转不变),从而使卷积旋转等变。
- 不具有尺度不变性:放大后角点可能变成边缘。
Hough 变换:可处理多模态(多条线)和高比例离群点,但在参数空间投票,可能出现伪峰 (spurious peak),鲁棒性不如 RANSAC。
第 4 章 · 深度学习 I — MLP 基础(Lect04)
4.0 等变性与不变性(续 Lect03)
等变性 (Equivariance):$T[f(X)] = f(T(X))$ — 先变换再运算 = 先运算再变换
不变性 (Invariance):$f(X) = f(T(X))$ — 变换后输出不变
例:Harris 角点响应 $\theta$ 对平移和旋转是等变的(平移/旋转输入,$\theta$ 值也对应平移/旋转),但对缩放既不等变也不不变。CNN 中的 Max Pooling 引入的是对小幅度平移/旋转的不变性。
4.1 经典 CV 流水线及其局限
- SIFT:将每个关键点周围的 $16\times 16$ 区域划分为 $4\times 4$ 网格,每格统计 8 方向梯度直方图 → 128 维向量。
- Bag of Visual Words:对大量描述子聚类得到 K 个"视觉词",每张图像统计词频直方图 → 固定长度表示 $\mathbf{z} \in \mathbb{R}^K$。
① 严重依赖手工特征,需大量领域专家知识
② 多阶段错误累积(早期错误传播到后期)
③ 难以捕捉高层语义概念
④ 难以随数据扩展(更多数据 ≠ 更好性能)
⑤ 泛化性差,换任务需重新设计特征
4.2 逻辑回归 → MLP
- Sigmoid:$g(z) = \frac{1}{1+e^{-z}}$,将 $(-\infty, \infty)$ 映射到 $(0,1)$。
- MLE(最大似然估计):找到使观测数据最可能出现的参数。
- NLL 损失(二分类):$\mathcal{L}(\theta) = -\sum_{i=1}^n [y^{(i)}\log h_\theta(x^{(i)}) + (1-y^{(i)})\log(1-h_\theta(x^{(i)}))]$
4.3 优化方法
| 方法 | 更新规则 | 特点 |
|---|---|---|
| Full-Batch GD | $\theta := \theta - \alpha \nabla_\theta \mathcal{L}(\theta)$ | 全部数据算梯度,精确但慢 |
| SGD | $\theta := \theta - \alpha \nabla_\theta \ell_i(\theta)$ | 单样本更新,噪声大但可逃离鞍点 |
| Mini-Batch GD | $\theta := \theta - \alpha \frac{1}{B}\sum_{i\in\mathcal{B}_t} \nabla_\theta \ell_i(\theta)$ | 平衡效率与稳定性,适合 GPU |
神经网络训练是非凸问题。梯度下降会在鞍点 (saddle point) 和平坦区域 (plateau) 停滞。高维空间中鞍点远比真正的局部极小值常见(混合曲率)。SGD 的噪声可帮助逃离这些区域。
4.4 反向传播与链式法则
计算图中每个节点保存局部梯度,从输出端反向传播上游梯度:
下游梯度 = 上游梯度 × 局部梯度
4.5 激活函数
| 函数 | 公式 | 特点 |
|---|---|---|
| Sigmoid | $\sigma(z) = \frac{1}{1+e^{-z}}$ | 输出 (0,1),有梯度消失问题 |
| tanh | $\tanh(z)$ | 输出 (-1,1),零中心,仍有梯度消失 |
| ReLU | $\max(0, z)$ | 正区间梯度恒为 1(缓解梯度消失),计算简单,稀疏激活 |
ReLU 优势:计算简单(仅阈值操作)、缓解梯度消失(正区间梯度=1)、收敛更快、稀疏激活(负输入映射为 0)。
第 5 章 · 深度学习 II — CNN(Lect05)
5.1 为什么需要 CNN?
- MLP 将图像展平为向量 → 对高分辨率图像极其昂贵(参数爆炸)
- 展平操作破坏了图像的局部结构
5.2 卷积层核心特性
| 特性 | 含义 | 效果 |
|---|---|---|
| 稀疏连接 | 每个输出只与输入的局部区域连接(核大小 $F \times F$) | 大幅减少参数 |
| 参数共享 | 同一卷积核在整张图上滑动使用 | 检测同一特征 wherever it appears |
| 平移等变性 | 忽略边界效应,2D Conv 对平移等变 | 平移输入 → 输出同样平移 |
5.3 FC vs Conv 参数对比
Conv 层:$F^2 C K$ 个参数
例:$W=H=100, F=C=K=3$ → FC ~900M vs Conv ~81,差距约 1000 万倍!
5.4 Pooling 层
- Max Pooling:取局部最大值。引入对小幅度平移和旋转的不变性。
- Average / Sum Pooling
- $2 \times 2$ pooling: $W_2 = \lceil W_1/2 \rceil$, $H_2 = \lceil H_1/2 \rceil$,参数数 = 0
5.5 CNN 归纳偏置 (Inductive Bias)
稀疏连接 + 参数共享 + 平移等变性 + Pooling 不变性 → CNN 对视觉任务参数效率高、数据效率高。
5.6 数据预处理
- 零中心化:$X = X - \text{mean}$(常用 ImageNet 均值)
- 归一化:$X = X / \text{std}$
- 目的:使不同特征的尺度一致,有助于优化
5.7 权重初始化
| 方法 | 适用激活 | 分布 |
|---|---|---|
| Xavier | tanh, sigmoid | $W \sim \mathcal{N}(0, \frac{2}{n_{\text{in}}+n_{\text{out}}})$ |
| He (Kaiming) | ReLU 系列 | $W \sim \mathcal{N}(0, \frac{2}{n_{\text{in}}})$ |
Xavier 假设激活函数线性且关于 0 对称;He 考虑了 ReLU 将一半输出置零的效应。
5.8 优化器
| 方法 | 特点 |
|---|---|
| SGD | 基本方法。问题:锯齿状路径、鞍点停滞、对所有参数使用同一学习率 |
| SGD + Momentum | 积累历史梯度方向,加速收敛,减少震荡 |
| Adam | 自适应学习率 + 动量。默认好选择,对超参数不敏感 |
第 6 章 · 深度学习 III — 训练技巧与 BN(Lect06)
6.1 学习率与批量大小
- Iteration:一个 batch 的梯度下降步骤。
- Epoch:完整遍历一次训练数据的若干 iteration。
- 经验法则:批量大小增加 $N$ 倍,初始学习率也应大致增加 $N$ 倍。
- 学习率调度:Step decay、Cosine schedule、Linear warmup
- 分类任务学习率通常在 $10^{-6} \sim 10^{-3}$
6.2 SoftMax 分类器与交叉熵损失
SoftMax 函数:$\sigma(\mathbf{z})_i = \frac{\exp(z_i)}{\sum_{j=1}^K \exp(z_j)}$,将 logits 映射到 $(0,1)^K$ 且和为 1。
- 当 $K=2$ 时退化为 Sigmoid。
- 当 $\beta \to \infty$ 时趋近 argmax。
从 KL 散度到交叉熵:
$D_{KL}(P\|Q) = \underbrace{-\sum P(x)\log Q(x)}_{H(P,Q)} - \underbrace{(-\sum P(x)\log P(x))}_{H(P)}$
$P$ 为真实分布时 $H(P)$ 为常数 → 最小化 $D_{KL} \Leftrightarrow$ 最小化交叉熵 $H(P,Q)$。
6.3 Batch Normalization
评估模式:使用训练期间的运行均值/方差 $\mu_{\text{rms}}, \sigma_{\text{rms}}^2$(通过动量 $\rho$ 更新)。
BN 为何有效?
- 原始假设:减少 Internal Covariate Shift(层输入分布在训练中不断变化)
- 现代理解:平滑损失景观 (smooths loss landscape) → 梯度更具预测性 → 允许更大学习率 → 更快收敛
- 此外:稳定梯度尺度、引入 batch 噪声(轻微正则化效果)
CNN 中的 BN:Conv-BN-ReLU 块
$[(\text{Conv-BN-ReLU})^*N - \text{POOL?}]^*m - (\text{FC-BN-ReLU})^*K - \text{FC-SoftMax}$
注意:最后一层不使用 BN,因为输出层是任务相关的,不应被归一化到单峰高斯分布。
BN 的问题
训练 batch 太小 → $\mu_B, \sigma_B$ 随机性大 → 训练/测试模式偏差大 → 测试性能可能骤降(非常常见的 bug 来源)。
6.4 不同归一化方法对比
| 方法 | 归一化维度 | 适用场景 | CNN 中为何(不)用? |
|---|---|---|---|
| BatchNorm | Batch × Spatial | CNN 分类(大 batch) | 保留通道独立性,匹配 Conv 结构 ✓ |
| LayerNorm | Channel × Spatial | Transformer | 通道间互相干扰,破坏特征检测器独立性 ✗ |
| InstanceNorm | Spatial(逐通道逐样本) | 风格迁移 | 移除实例特有统计量(对比度/亮度),不利于分类 ✗ |
| GroupNorm | Channel 组内 | 小 batch / 检测 | 不依赖 batch 统计,batch 小或样本相关时优于 BN ✓ |
A 错:最后一层不使用 BN,因为输出分布应匹配任务语义。
B 对:小 batch 导致 $\mu_B,\sigma_B$ 随机性大,与 running mean/var 偏差大。
C 对:这是 2018 年论文的发现,比"减少 ICS"更准确。
D 错:LayerNorm 跨通道归一化会破坏 CNN 中通道作为独立特征检测器的语义,通常不如 BN。
第 7 章 · 2D 视觉 I — ResNet 与分割(Lect07)
7.1 深度网络的退化问题
网络过深时,训练误差和测试误差都更高 → 不是过拟合,是优化困难。
7.2 ResNet:残差连接
学习残差映射 $\mathcal{F}(x)$ 而非直接学习 $H(x)$。若恒等映射是最优的,只需将 $\mathcal{F}(x)$ 推到 0。
为什么有效?
- 梯度旁路:skip link 为梯度反向传播提供直接路径,缓解梯度消失。
- 平滑损失景观:残差连接阻止损失景观从近凸变为混沌,促进平坦极小值。
7.3 泛化差距与过拟合
过拟合的本质:模型参数量超过数据所能支撑的量,模型"记住"了训练数据的噪声和残差变化,而非学到可泛化的模式。
缓解策略:
| 策略 | 视角 | 方法 |
|---|---|---|
| 数据增强 | 数据端 | 水平翻转、随机裁剪、颜色抖动、旋转、缩放 |
| BatchNorm | 数据端(隐层) | 限制激活分布 + batch 噪声 = 正则化 |
| Dropout | 模型端 | 训练时随机丢弃神经元,测试时缩放。仅用于大 FC 层 |
| 正则化 | 模型端 | $\mathcal{L} = \mathcal{L}_{\text{main}} + \lambda R(W)$,偏好简单模型 |
| Early Stopping | 训练策略 | 验证集 loss 不再下降时停止 |
数据增强原则:变换不能太强(丢失核心信息)也不能太弱(无效果)。标签应在变换下保持不变。
7.4 经典分类骨架
| 网络 | 核心创新 |
|---|---|
| AlexNet | 首个在 ImageNet 上成功的深度 CNN |
| VGGNet | 全部使用 $3\times 3$ 小卷积核,更深更规整。两个 $3\times 3$ = 一个 $5\times 5$ 的感受野 |
| ResNet | 残差连接,可训练 152 层 |
| DenseNet | 每层与所有后续层直接连接(密集连接) |
| MobileNet | 深度可分离卷积,高效轻量 |
7.5 感受野 (Receptive Field)
堆叠 $3\times 3$ 卷积:1 层 → $3\times 3$;2 层 → $5\times 5$;3 层 → $7\times 7$。小卷积核堆叠可获得大感受野,且参数更少。
7.6 语义分割
定义:逐像素分类问题 (dense labeling / per-pixel classification)。
损失:$\mathcal{L}_{CE} = \text{mean}(-\sum_{x\in\mathcal{X}} P(x)\log Q(x))$,对每个像素求交叉熵后取平均。
预备概念:自编码器 (Auto-Encoder, AE)
信息瓶颈 (Information Bottleneck):隐空间维度远小于输入维度,迫使网络学习数据中最本质的特征。这一编码器-解码器架构是 FCN/UNet 等语义分割网络的基础——压缩 → 保留核心信息 → 恢复分辨率。
FCN(全卷积网络)
编码器-解码器结构:
- 下采样(编码器):降低分辨率,增大感受野,提取全局上下文
- 瓶颈 (Bottleneck):需要保存全局上下文和边界空间信息
- 上采样(解码器):恢复分辨率
上采样方法
- Unpooling / Max Unpooling:记录 pooling 时的位置,反向填充
- 转置卷积 (Transposed Convolution):可学习的上采样,本质是卷积的逆向操作(矩阵乘法视角)
UNet
效果:瓶颈层不再需要记忆整张图,只需提供全局上下文;skip link 直接传递空间细节到输出端。
7.7 评估指标
- Pixel Accuracy:正确分类像素占比。类别不平衡时有偏。
- IoU:$\frac{\text{Intersection}}{\text{Union}}$,对每类计算。
- mIoU:所有类 IoU 的平均值。
第 8 章 · 2D 视觉 II — 检测与实例分割(Lect08)
8.1 目标检测:单目标
任务:定位 + 分类。输出 2D 边界框 $(x, y, h, w)$,4 自由度。
回归损失:
- L1 loss:$\sum |\Delta|$,鲁棒但对收敛不友好。
- L2 loss:$\sum \Delta^2$,对大误差敏感但收敛好。
- Smooth L1 loss(Fast R-CNN 提出):结合两者优势,类似 Huber loss。
8.2 多目标检测的演进
滑动窗口法 (Sliding Window)
问题:计算量巨大(窗口数量随图像尺寸和尺度爆炸),且难以覆盖所有可能的目标形状和位置。Selective Search 和 RPN 正是为了解决这一问题而提出的。
R-CNN 系列演进
| 方法 | 核心思想 | 问题 |
|---|---|---|
| R-CNN | Selective Search 生成候选区域 → 每个区域独立过 CNN → SVM 分类 + 回归 | 慢(每个区域独立前向)、裁剪区域信息不足 |
| Fast R-CNN | 整图一次过 CNN → RoI Pool 裁剪特征 → FC 分类 + 回归 | 仍依赖外部 Selective Search |
| Faster R-CNN | 引入 RPN (Region Proposal Network),端到端训练 | 两阶段,推理较慢 |
Faster R-CNN 推理流程
- Backbone 提取特征
- RPN 生成 ~300 个 proposals
- 对每个 proposal:RoI Pool → FC → 分类 + bbox 精修
- 置信度阈值过滤 → NMS 去重
NMS(非极大值抑制)
8.3 两阶段 vs 单阶段检测器
- 两阶段(Faster R-CNN):RPN + 分类/回归,精度高,速度慢。
- 单阶段(YOLO, SSD, RetinaNet):直接回归边界框和类别,速度快。
8.4 检测评估指标
- AP (Average Precision):按置信度降序排列,计算不同召回率下的精度,取 Precision-Recall 曲线下面积。
- mAP:所有类别 AP 的平均(有时还跨 IoU 阈值平均)。
- MS COCO 常用:AP (IoU=0.50:0.95)、AP50 (IoU=0.50)、AP75 (IoU=0.75)。
8.5 实例分割:Mask R-CNN
在 Faster R-CNN 基础上增加一个 mask 分支(FCN),对每个 RoI 预测二值掩码。
RoI Align vs RoI Pool
| RoI Pool | RoI Align | |
|---|---|---|
| 量化 | 有两次量化(坐标取整) | 无量化,使用双线性插值 |
| 精度 | 粗糙,不适合像素级任务 | 精确,保持空间对应关系 |
| 适用 | 检测(Fast/Faster R-CNN) | 实例分割(Mask R-CNN) |
设计选择
- Class-agnostic mask:每 RoI 预测一个 mask(与 class-specific 效果接近)。
- 解耦 mask 和类别预测:per-pixel sigmoid + binary loss,各类别间无竞争。
Bottom-up 方法:先聚类再分类
特点:不依赖边界框先验,适合处理形状不规则的目标;但对密集重叠目标的处理较为困难。
第 9 章 · 互动自测(30 题,打分)
计算机视觉期中自测
第 10 章 · 考前速查表
关键公式
Harris 角点响应:$\theta = \det(M) - \alpha \cdot \text{tr}(M)^2 - t$
$M = \begin{bmatrix} g(I_x^2) & g(I_x I_y) \\ g(I_x I_y) & g(I_y^2) \end{bmatrix}$,$\det(M) = \lambda_1\lambda_2$,$\text{tr}(M) = \lambda_1+\lambda_2$
Sigmoid:$\sigma(z) = \frac{1}{1+e^{-z}}$,$\sigma'(z) = \sigma(z)(1-\sigma(z))$
SoftMax:$\sigma(\mathbf{z})_i = \frac{\exp(z_i)}{\sum_j \exp(z_j)}$
交叉熵损失:$\mathcal{L}_{CE} = -\sum_x P(x)\log Q(x)$
RANSAC 迭代次数:$N = \frac{\log(1-p)}{\log(1-(1-e)^s)}$
SVD 直线拟合:$A = UDV^T$,$h = c_3$(最小奇异值的右奇异向量)
IoU:$\frac{\text{Intersection}}{\text{Union}}$
卷积参数计算
FC 层参数:$W_1 W_2 H_1 H_2 C K$
Conv 层参数:$F^2 C K$
Pooling 层参数:$0$
输出尺寸:$W_2 = \lfloor\frac{W_1 - F + 2P}{S}\rfloor + 1$
归一化方法速记
| 方法 | 归一化轴 | 最佳场景 |
|---|---|---|
| BatchNorm | N, H, W | CNN 分类(大 batch) |
| LayerNorm | C, H, W | Transformer |
| InstanceNorm | H, W | 风格迁移 |
| GroupNorm | 部分 C, H, W | 小 batch / 检测 |
检测模型速记
| 模型 | 核心 | 速度 |
|---|---|---|
| R-CNN | Selective Search + 逐区域 CNN | 极慢 |
| Fast R-CNN | 共享 CNN + RoI Pool | 中等 |
| Faster R-CNN | RPN 端到端 | 较快 |
| Mask R-CNN | Faster R-CNN + mask 分支 + RoI Align | 较快 |
| YOLO/SSD | 单阶段,直接回归 | 最快 |
计算机视觉导论
期末一站式复习
覆盖 Lect09-15:3D 视觉与相机模型、3D 深度学习(PointNet++ / 稀疏卷积)、序列模型(RNN/LSTM)、Attention & Transformer、生成模型(VAE/GAN/扩散)与多模态(CLIP)。期末范围 Lect 9–15,但可能涉及期中之前的技术。
📌 期末考试形式(来自 Lect15 通知)
- 时间地点:6/24(周三)14:00–16:00,第二教学楼 105。占总成绩 30%。
- Cheat sheet:允许一页 A4 双面(手写或打印均可,不超过一页)。
- 范围:Lecture 9 – Lecture 15,可能涉及期中之前学过的技术。
- 题型(全英文出题,讲义涵盖的术语不再额外解释,不允许字典与计算器):
- 多选题 (Multiple-select questions)
- 简答题 (Short answer):解释 why / how,部分需数学推导
- 计算题 (Calculation questions)
- 简答与简单计算题可用中文作答,但专业术语建议用英文,否则无法理解时按错处理。
考点权重(基于课件结构推断)非课件内容
Transformer & Attention
缩放点积注意力、多头、masked、位置编码、复杂度 $O(N^2)$、ViT
生成模型
VAE 的 ELBO 与重参数化、GAN 对抗博弈、扩散 DDPM 前向/反向与噪声预测
3D 视觉
针孔/透视相机、内外参、投影、深度反投影、PointNet++、稀疏卷积
序列模型 & 多模态 & 简答
RNN/LSTM 梯度、beam search、CLIP 对比学习、概念辨析与推导
期末考点路线图 整理导图
相机模型与 3D (Lect09)
针孔相机 → 内参 $K$ / 外参 $[R\mid T]$ → 投影变换 → 弱透视/正交 → 深度图与反投影
3D 深度学习 (Lect11)
PointNet++(FPS+ball query+PointNet)· 体素 / 稀疏卷积 · SDF / Mesh
序列模型 (Lect11)
RNN → BPTT/梯度消失 → LSTM 门控与 cell state → GRU · beam search
Attention & Transformer (Lect12)
seq2seq+attention → 自注意力 → 缩放点积 → 多头 / masked → 位置编码 → ViT
生成模型 I (Lect13)
Autoencoder → 概率 AE 的 intractability → VAE (ELBO+重参数化) → GAN 对抗
多模态与视频 (Lect14)
CLIP 图文对比学习与 zero-shot · LM+CLIP · 视频 Transformer · VidIL
生成模型 II (Lect15)
层次化 VAE → 扩散为其特例 → 前向加噪 / 反向去噪 → DDPM 噪声预测 → score / SDE
第 9 章 · 3D 视觉 I — 相机模型(Lect09)
9.1 从 2D 到 3D
- 2D 图像表示为 $H\times W\times 3$,但我们生活在 3D 世界,需要从局部观测聚合出完整 3D 场景(如 "Building Rome in a day")。
- 视觉数据采集:RGB 相机 → RGB 图像;深度相机 → 深度图;LiDAR → 点云;立体/多视角 → 由视差恢复 3D。
- 准确鲁棒的 3D 距离信息对工业机器人、自动驾驶等具身智能体至关重要。
9.2 针孔相机与透镜
- 针孔相机 (pinhole):光线穿过一个小孔在像平面成倒立的像,是最简单的成像模型。
- 真实相机用透镜聚光(近轴折射模型),换来更多进光量,但引入径向畸变 (radial distortion) 等问题。
9.3 相机参数:内参与外参
外参 (Extrinsics):相机在世界参考系中的位姿(旋转 + 平移)。
投影完整链路:世界坐标 → (外参 $[R\mid T]$)→ 相机坐标 → (投影)→ 像平面 → (内参 $K$)→ 像素坐标。
内参矩阵 $K$
$K = \begin{bmatrix} \alpha & -\alpha\cot\theta & c_x \\ 0 & \beta/\sin\theta & c_y \\ 0 & 0 & 1\end{bmatrix}$,其中 $\alpha=f\cdot k$、$\beta=f\cdot l$ 为像素单位下的焦距,$(c_x, c_y)$ 为主点,$\theta$ 为倾斜角 (skewness)。
外参 $[R\mid T]$ 的含义
- 世界点 $P_w$ 变换到相机系:$P = RP_w + T$。
- 世界系原点 $P_w=[0,0,0,1]^\top$ 在相机系中为 $T=[t_x,t_y,t_z]^\top$;世界系坐标轴在相机系中的方向即 $R$ 的列。
- 因此 $R, T$ 表示世界参考系在相机参考系中的朝向与原点位置。
- 相机在世界系中的位姿:朝向 $R^{-1}=R^{\top}$,位置(光心)$-R^{-1}T = -R^{\top}T$。
9.4 投影变换与齐次坐标
- 用齐次坐标把透视投影写成线性矩阵乘法:$\tilde{p} = K\,[R\mid T]\,\tilde{P}_w = M\tilde{P}_w$,$M$ 即 $3\times 4$ 相机矩阵。
- 透视除法:$(x,y,z)\to (x/z, y/z)$ 引入了深度依赖的缩放(近大远小)。
9.5 相机模型对比
| 模型 | 投影 | 适用条件 |
|---|---|---|
| 透视 (Perspective) | $x'=fx/z$(除以深度) | 一般情形,最精确 |
| 弱透视 (Weak Perspective) | 用平均深度 $z_0$ 代替:$x'=fx/z_0$ | 物体深度变化 ≪ 到相机距离 |
| 正交 (Orthographic) | $x'=x$(忽略深度) | 远距离 / 远心镜头 |
9.6 深度图与反投影
- 深度图:单通道图像,每个像素存深度值。是 2.5D 表示。
- 记录的是沿光轴 z 方向的距离(不是光心到点的射线长度)。
- 深度反投影 (backprojection):已知 $K$,对像素 $(u,v,z)$ 可解出相机系 3D 坐标 $$x = z(u-c_x)/\alpha,\quad y = z(v-c_y)/\beta$$ 把深度图转成深度点云(Assignment 3 会练习)。
- 为何只是 2.5D:单凭深度无法测量任意两点间距离,还需 $K$ 才能恢复真正的 $(x,y,z)$。
第 11a 章 · 3D 深度学习(Lect11)
11.1 点云网络:PointNet++
核心思想:在局部区域递归地应用 PointNet,实现层次化特征学习。
- 三大不变性:层次化特征学习 ✓ 局部平移不变 ✓ 置换不变 (permutation invariance) ✓
- Set Abstraction 层 = 最远点采样 (FPS) + 分组 (ball query) + PointNet:
- FPS:从 $N$ 个点中采样出 $N_1$ 个分布均匀的中心点。
- Ball query:以中心点为球心、半径为超参,最多取 $k$ 个邻点(多则随机取 $k$,少则复制凑数,不影响 max pooling)。
- 邻域点转相对坐标 $u=x-x_c,\ v=y-y_c$,再过 PointNet → 提取平移不变的局部几何特征。
- 分割任务需上采样:通过 3D 插值(基于 3 近邻的反距离加权)+ skip link 拼接(把编码器同层特征接回来)逐步恢复到原始点数。
11.2 体素网络与稀疏卷积
- 体素化 (voxelization):用规则 3D 网格表示占用情况,可直接套 3D CNN(4D 卷积核)。
- 复杂度问题:分辨率立方增长($30^3=27000$ 已很大),且体素化有信息损失。
- 稀疏性洞察:3D 形状的占用率随分辨率立方下降(表面是 2D 流形),大量体素是空的。
- 稀疏卷积 (sparse conv):只存储/计算占用的体素,约束计算在表面附近。实现:MinkowskiEngine、TorchSparse、SparseConvNet。
| 稀疏卷积 | 点云网络 | |
|---|---|---|
| 优点 | 核空间各向异性;索引/邻域查询高效;适合大场景 | 高分辨率;易用,适合快速试验 |
| 缺点 | 分辨率受限;离散化误差 | 性能略低;FPS/ball query 较慢 |
第 11b 章 · 序列模型 RNN / LSTM(Lect11)
11.3 循环神经网络 (RNN)
- 处理序列数据,隐藏状态递归更新:$h_t = f_W(x_t, h_{t-1})$,所有时间步共享同一组权重 $W$。
- vanilla RNN:$h_t = \tanh(W_{hh}h_{t-1} + W_{xh}x_t)$,输出 $y_t = W_{hy}h_t$。
- 结构灵活:one-to-many(图像描述)、many-to-one(分类)、many-to-many(翻译/逐帧标注)。
- 训练用通过时间的反向传播 (BPTT);序列太长时用截断 BPTT (truncated BPTT),只在窗口内传播梯度——窗口外的长程依赖学不到。
11.4 梯度消失/爆炸
11.5 长短期记忆 (LSTM)
- 除隐藏状态 $h_t$ 外,引入单元状态 (cell state) $c_t$ 作为长期记忆,类似计算机的 RAM。
- 三个门(值在 0~1 之间,由当前上下文动态计算)控制信息:
- 遗忘门 $f$:决定从 cell 擦除哪些信息
- 输入门 $i$ + 候选 $g$:决定写入哪些新信息
- 输出门 $o$:决定从 cell 读出哪些信息到 $h_t$
- 更新:$c_t = f\odot c_{t-1} + i\odot g$,$h_t = o\odot\tanh(c_t)$。
- 缓解梯度消失:cell state 通过加法更新,提供一条梯度的"高速公路"(gradient highway),使梯度沿 $c_t$ 几乎无衰减地流动。
- GRU:LSTM 的简化变体(合并门、无单独 cell state),参数更少。
11.6 序列生成与解码
| 策略 | 做法 | 特点 |
|---|---|---|
| 贪心采样 | 每步取概率最高的 token | 确定性,只能生成一条序列 |
| 加权采样 | 按预测分布采样 | 多样,但可能采到错误 token 跑偏 |
| 穷举搜索 | 枚举所有序列取最优 | $O(V^T)$ 太贵 |
| Beam search | 每步保留 $k$ 个最优部分序列 | 效率与质量折中,不保证全局最优 |
第 12 章 · 大模型 I — Attention & Transformer(Lect12)
12.1 从 RNN+Attention 到自注意力
- seq2seq+attention:decoder 每个时间步用不同的上下文向量 $c_t$,按注意力权重对 encoder 所有隐藏状态加权求和——"看"输入的不同部分。
- Attention 是一种新的基本算子:根据 query 与一组 (key, value) 的相似度做加权聚合,本身与序列、与位置无关。
12.2 缩放点积注意力 (Scaled Dot-Product Attention)
$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\dfrac{QK^{\top}}{\sqrt{d_k}}\right)V$
- Query / Key / Value:由输入线性投影得到。用 $Q$ 与 $K$ 算相似度(点积),softmax 归一化为权重,对 $V$ 加权求和。
- 为何除以 $\sqrt{d_k}$:维度大时点积方差随 $d_k$ 增大,过大 logits 使 softmax 饱和、梯度极小。除以 $\sqrt{d_k}$ 归一化方差,稳定训练。
12.3 自注意力 (Self-Attention)
- $Q, K, V$ 都来自同一输入序列,让每个 token 与序列中所有 token 交互。
- 置换等变 (permutation equivariant):打乱输入顺序,输出同样被打乱——自注意力本身不感知位置。
- 因此需要位置编码 (positional encoding) 注入顺序信息(正弦/可学习)。
12.4 Masked & Multi-head
- Masked self-attention:自回归生成时,把未来位置的注意力 logits 置 $-\infty$(softmax 后为 0),保证位置 $i$ 只看 $\le i$,维持因果性。
- 多头注意力:把 $Q/K/V$ 投影到 $h$ 个低维子空间分别做注意力,再拼接投影回去。让模型在不同子空间并行关注不同类型的关系。
12.5 复杂度
12.6 Transformer 块与 ViT
- Transformer block:(多头自注意力 → 残差 + LayerNorm) → (前馈 MLP → 残差 + LayerNorm)。
- 残差连接缓解深层梯度问题;LayerNorm 跨特征维归一化(适合变长序列)。
- Vision Transformer (ViT):把图像切成不重叠 patch(如 $16\times16$),每个 patch 展平 + 线性投影成 token,加位置编码与 [CLS] token,送入标准 Transformer encoder 做分类。
第 13 章 · 生成模型 I — AE / VAE / GAN(Lect13)
13.1 自编码器与概率自编码器
- Autoencoder:encoder 把 $x$ 压缩到低维潜码 $z$,decoder 重构 $\hat{x}$,用重构误差训练。潜码可捕捉姿态、笑容程度等潜在属性。
- 概率自编码器:希望建模 $p(x)=\int p(x|z)p(z)\,dz$ 以便生成新样本。
- 难点 (intractability):高维潜空间下该积分解析不可解;朴素蒙特卡洛采样因绝大多数 $z$ 对应的 $p(x|z)$ 极小而方差巨大。
13.2 变分自编码器 (VAE)
- 引入变分后验 $q_\phi(z|x)$ 近似真实后验 $p(z|x)$。
- 用 Jensen 不等式($f$ 为凹函数时 $f(\mathbb{E}[X])\ge\mathbb{E}[f(X)]$)推出对数似然的下界 ELBO:
$\log p(x) \ge \underbrace{\mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)]}_{\text{重构项}} - \underbrace{D_{KL}\big(q_\phi(z|x)\,\|\,p(z)\big)}_{\text{正则项}} = \text{ELBO}$
- 重构项:让解码器从 $z$ 重建出 $x$;KL 项:让后验 $q_\phi(z|x)$ 贴近先验 $p(z)=\mathcal{N}(0,I)$。
- 重参数化技巧:直接采样 $z\sim\mathcal{N}(\mu,\sigma^2)$ 不可导;改写为 $z=\mu+\sigma\odot\varepsilon,\ \varepsilon\sim\mathcal{N}(0,I)$,把随机性移到外部噪声,使梯度可经 $\mu,\sigma$ 回传。
13.3 生成对抗网络 (GAN)
- 生成器 $G$:把噪声 $z$ 映射成假样本;判别器 $D$:区分真/假。
- minimax 对抗博弈:$\min_G\max_D\ \mathbb{E}_{x\sim p_{data}}[\log D(x)] + \mathbb{E}_{z}[\log(1-D(G(z)))]$。
- 理想平衡时 $G$ 生成的分布与真实数据分布一致,$D$ 无法区分(输出 0.5)。
- 对比:VAE 显式建模似然(有 ELBO),生成偏模糊;GAN 隐式建模、样本更锐利但训练不稳定(模式崩溃)。
第 14 章 · 大模型 II — 多模态与视频(Lect14)
14.1 CLIP:图文对比学习
- 用大规模图文对训练图像编码器 + 文本编码器,把两者映射到同一嵌入空间。
- 对比训练目标:一个 batch 内,匹配的图文对相似度最大化,不匹配的最小化(对称 InfoNCE / 交叉熵)。
- Zero-shot 分类:把类别名写成文本提示("a photo of a {class}")编码为文本嵌入,与图像嵌入算相似度,取最高者——无需该数据集的任何训练样本。
- 学到的表示泛化强(linear probe 在多数据集上表现优异)。
14.2 LM + CLIP / 基础模型
- 把 CLIP 的视觉表示接入语言模型,构成多模态基础模型,支持图文问答、描述生成等。
- VidIL(few-shot video-language learner):用图像/语言模型组合处理视频任务的代表性方法。
14.3 视频 Transformer
第 15 章 · 生成模型 II — 扩散模型(Lect15)
15.1 从层次化 VAE 到扩散
- 单层 VAE 的单一潜码要同时编码类别、形状、姿态、纹理、细节,负担过重。
- 层次化 VAE:多个潜变量构成马尔可夫链,每个变量只依赖相邻变量。
- 扩散模型可看作层次化 VAE 的特例:潜变量是逐步加噪的序列 $x_{1:T}$,推断(前向加噪)过程固定、无可学习参数,且构造使最终 $x_T$ 收敛到标准高斯。
15.2 前向扩散过程 (Forward Process)
- 逐步加高斯噪声:$q(x_t|x_{t-1}) = \mathcal{N}(x_t;\sqrt{1-\beta_t}\,x_{t-1},\ \beta_t I)$。
- 扩散核(任意步一步采样):令 $\alpha_t=1-\beta_t,\ \bar\alpha_t=\prod_{s\le t}\alpha_s$,则 $$q(x_t|x_0) = \mathcal{N}(x_t;\sqrt{\bar\alpha_t}\,x_0,\ (1-\bar\alpha_t)I)$$ 即 $x_t = \sqrt{\bar\alpha_t}\,x_0 + \sqrt{1-\bar\alpha_t}\,\varepsilon,\ \varepsilon\sim\mathcal{N}(0,I)$。
- $T$ 足够大时分布趋于标准高斯。
15.3 反向去噪过程 (Reverse Process)
- 训练一个网络 $p_\theta(x_{t-1}|x_t)$ 近似反向过程;最大化似然 → 优化变分下界(与 VAE 同源)。
- 真实反向后验 $q(x_{t-1}|x_t,x_0)$ 是高斯,均值 $\mu_t$、方差 $\beta_t$ 可解析推出。
- 重参数化为预测噪声:与其预测均值,不如让网络 $\varepsilon_\theta(x_t,t)$ 直接预测所加的噪声。
15.4 DDPM 简化训练目标
$\mathcal{L}_{\text{simple}} = \mathbb{E}_{x_0,\,t,\,\varepsilon}\Big[\big\|\varepsilon - \varepsilon_\theta(\sqrt{\bar\alpha_t}\,x_0 + \sqrt{1-\bar\alpha_t}\,\varepsilon,\ t)\big\|^2\Big]$
- 训练:随机取 $t$、噪声 $\varepsilon$,构造 $x_t$,最小化 $\|\varepsilon-\varepsilon_\theta(x_t,t)\|^2$。
- 采样/生成:从纯高斯 $x_T\sim\mathcal{N}(0,I)$ 出发,用去噪网络逐步迭代 $x_{T-1},\dots,x_0$($T$ 步)。
- 网络结构常用 U-Net。
15.5 进阶视角(了解)
- Score 视角:score 函数 $s(x)=\nabla_x\log p(x)$ 是指向高密度区域的向量场;预测噪声等价于估计 score。
- SDE 视角:连续加噪可写成随机微分方程 $d\boldsymbol{x}=f(\boldsymbol{x},t)dt+g(t)d\boldsymbol{w}$,扩散学网络近似求解。
互动自测(期末 · 打分)
计算机视觉期末自测
期末考前速查表
相机模型(Lect09)
投影链路:$\tilde{p} = K\,[R\mid T]\,\tilde{P}_w$(世界 → 像素)
相机系变换:$P = RP_w + T$;世界系下光心:$-R^{-1}T=-R^{\top}T$,朝向 $R^{\top}$
深度反投影:$x=z(u-c_x)/\alpha,\ y=z(v-c_y)/\beta$
透视性质:保直线,不保平行/长度/角度/比例
Transformer(Lect12)
缩放点积注意力:$\text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$
复杂度:$O(N^2)$(FlashAttention 显存 $O(N)$)
自注意力置换等变 → 需位置编码;masked → 因果;多头 → 多子空间
ViT:图像切 patch → 线性嵌入 + 位置编码 + [CLS]
VAE / GAN(Lect13)
ELBO:$\log p(x)\ge\mathbb{E}_q[\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x)\|p(z))$
重参数化:$z=\mu+\sigma\odot\varepsilon,\ \varepsilon\sim\mathcal{N}(0,I)$
GAN:$\min_G\max_D\ \mathbb{E}[\log D(x)]+\mathbb{E}[\log(1-D(G(z)))]$
扩散 DDPM(Lect15)
扩散核:$x_t=\sqrt{\bar\alpha_t}\,x_0+\sqrt{1-\bar\alpha_t}\,\varepsilon$,$\bar\alpha_t=\prod_s\alpha_s$
训练目标:$\|\varepsilon-\varepsilon_\theta(x_t,t)\|^2$(预测噪声)
采样:$x_T\sim\mathcal{N}(0,I)$ 逐步去噪 $\to x_0$
score:$s(x)=\nabla_x\log p(x)$;扩散是层次化 VAE 特例
序列模型 & 3D(Lect11)
| 概念 | 要点 |
|---|---|
| RNN | $h_t=f_W(x_t,h_{t-1})$,共享权重,梯度消失/爆炸 |
| LSTM | cell state 加性更新(梯度高速公路)+ 三门控 |
| Beam search | 每步保留 $k$ 个最优部分序列 |
| PointNet++ | FPS + ball query + PointNet;置换/平移不变 |
| 稀疏卷积 | 利用 3D 稀疏性,只算占用体素 |