2026 春 · 期中考试

计算机视觉导论
期中一站式复习

覆盖 Lect01-08 全部考点，涵盖经典视觉方法（边缘/角点/RANSAC）与深度学习（MLP/CNN/ResNet/检测/分割），结合 2022 年期中真题与自编练习。

8讲课件

50+知识点

8章节练习

30自测题

考点权重（基于课件结构与 2022 真题推断）非课件内容

~25%

CNN 与训练技巧

Conv 层参数共享/稀疏连接、BatchNorm、ResNet 残差连接、优化器选择

~20%

经典视觉方法

Canny 边缘检测全流程、Harris 角点检测 $\theta$ 公式推导、RANSAC 直线拟合

~20%

2D 视觉任务

语义分割（FCN/UNet）、目标检测（R-CNN 系列）、实例分割（Mask R-CNN）

~35%

选择 & 简答

概念辨析、梯度回传、损失函数选择、归一化对比、评估指标

推荐学习路径：按左侧导航顺序学习；每章末做对应自测题，全部完成后做真题。期中允许带一页 A4 双面 cheat sheet。

考点路线图整理导图

CV 概述 (Lect01)

人类视觉系统 / CV 任务层次 / 数据类型 / 视觉与图形学关系

边缘检测 (Lect02)

图像梯度 → 高斯平滑 → Canny：NMS + 滞后阈值 + 边缘连接

直线拟合 & 角点 (Lect03)

最小二乘/SVD → RANSAC → Hough 变换 · Harris $\theta = \det(M) - \alpha\text{tr}(M)^2 - t$

MLP 基础 (Lect04)

逻辑回归 → MLE/NLL → GD/SGD → MLP → 反向传播 · ReLU 优势

CNN (Lect05)

Conv 层/Pooling 层 · 参数共享 & 稀疏连接 · 平移等变性 · Xavier/He 初始化

训练技巧 (Lect06)

SoftMax/交叉熵 · BatchNorm (Conv-BN-ReLU) · LayerNorm/GroupNorm 对比

ResNet & 分割 (Lect07)

残差连接/梯度旁路 · 数据增强 · 语义分割 FCN/UNet · 转置卷积

检测 & 实例分割 (Lect08)

R-CNN→Fast→Faster R-CNN · RPN · NMS · mAP · Mask R-CNN / RoI Align

第 1 章 · 计算机视觉概述（Lect01）

1.1 人类视觉系统

视觉通路：visual field → retina → optic nerve → optic tract → visual cortex
83% 的信息来自视觉（11% 听觉，其余嗅觉/触觉/味觉）
视觉任务分三层：视觉感知 (sensation) → 视觉知觉 (perception) → 视觉运动协调 (visuomotor coordination)
视觉知觉是认知活动，与纯光学过程（如摄影）有本质区别。相机没有知觉能力。

感知-行动循环 (Perception-Action Loop)：大脑通过不断形成假设并行动检验来理解世界——感知 (perceive) → 形成假设 (form hypotheses) → 采取行动 (take action) → 再次感知。视觉运动协调（如眼手配合、运动平衡）是这一循环的典型体现。

1.2 计算机视觉定义

Computer vision deals with: acquiring, processing & analyzing, understanding, generating or imagining visual data — and providing visual feedback for embodied agents.

1.3 视觉数据获取

传感器	数据类型
RGB camera	RGB image
Depth camera	Depth image
LiDAR	LiDAR point cloud
Stereo / Multi-view	3D from disparity

还包括 RGB video、RGBD video、全景图像等。

1.4 CV 三层次任务

层次	内容	示例
Low-Level	图像处理、特征提取	去噪/去模糊、边缘/角点检测、光流
Mid-Level	局部结构分析、3D 重建	分割、运动分析、SLAM、NeRF
High-Level	语义理解	目标识别/检测、场景理解、活动理解

1.5 视觉与图形学

Graphics：从参数空间到图像空间（rendering / 正向）
Vision：逆图形学 (inverse graphics)，更病态 (ill-posed)，理论上更难。
可利用图形学生成合成数据（自带免费标签）辅助视觉任务训练。

课件 · Lect01

以下关于计算机视觉与人类视觉的说法，错误的是？

A. 人类约 83% 的信息来自视觉

B. 视觉知觉是纯粹的物理光学过程

C. CV 比图形学更病态 (ill-posed)

D. CV 包括视觉数据的获取、处理、理解和生成

答案：B（视觉知觉是认知活动，不是纯物理光学过程。相机没有知觉能力——这是课件中反复强调的核心区分点）

第 2 章 · 经典视觉 I — 边缘检测（Lect02）

2.1 图像作为函数

图像 $f = f(x, y)$：将像素坐标映射到亮度值。
图像梯度：$\nabla f = (\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})$，指向亮度变化最剧烈的方向。
实践中用有限差分近似梯度：$\frac{\partial f}{\partial x} \approx f(x+1, y) - f(x, y)$

2.2 滤波器与卷积

线性滤波器 $\mathcal{G}$ 满足叠加性：$\mathcal{G}(\alpha f_1 + \beta f_2) = \alpha\mathcal{G}(f_1) + \beta\mathcal{G}(f_2)$
线性滤波 = 卷积：$h[n] = (f * g)[n]$
卷积定理：$\mathcal{F}(f * g) = \mathcal{F}(f)\mathcal{F}(g)$
矩形窗（移动平均）→ $\mathcal{F}$ 在 0 附近集中 → 低通滤波器 → 平滑效果

2.3 高斯滤波器

1D: $g(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{x^2}{2\sigma^2})$，其傅里叶变换仍为高斯 → 低通滤波器。

$\sigma$ 越大，$\mathcal{F}(g)$ 越尖锐 → 更强平滑 → 更多高频被滤除
$\sigma \to 0$，$\mathcal{F}(g)=1$ → 无滤波

2.4 Canny 边缘检测全流程

边缘定义：图像中沿某一方向像素亮度发生"显著"变化、沿正交方向几乎无变化的区域。

边缘的成因

深度不连续 (depth discontinuity)：物体边界处深度突变
表面朝向不连续 (surface orientation discontinuity)：法向量突变
表面颜色不连续 (surface color discontinuity)：纹理/材质边界
光照不连续 (illumination discontinuity)：阴影边界

最优边缘检测的四项准则

高精度 (High Precision)：$\frac{TP}{TP+FP}$，最小化假阳性，确保所有检测到的边缘都是真实边缘。
高召回 (High Recall)：$\frac{TP}{TP+FN}$，最小化假阴性，确保所有真实边缘都被检测到。
良好定位 (Good Localization)：检测边缘与真实边缘的位置偏差最小。
单一响应 (Single Response)：每条真实边缘只产生一个检测响应，最小化冗余。

Canny 五步法：

高斯平滑：用高斯滤波器卷积，去噪。利用卷积的导数定理：$\frac{\partial}{\partial x}(f * g) = f * \frac{\partial g}{\partial x}$，可一步完成平滑+求导。
计算梯度幅值和方向：幅值 $|\nabla f|$，方向 $\theta = \arctan(f_y/f_x)$
非极大值抑制 (NMS)：沿梯度方向比较相邻像素，只保留局部最大值，将多像素宽的"脊"细化为单像素宽。
滞后阈值化 (Hysteresis Thresholding)：高阈值 $T_{\text{high}}$ 启动边缘，低阈值 $T_{\text{low}}$ 延续边缘。$|g| > T_{\text{high}}$ 保留；$|g| < T_{\text{low}}$ 丢弃。
边缘连接 (Edge Linking)：沿边缘方向检查相邻像素，若梯度方向在同一 bin 且幅值 > $T_{\text{low}}$ 且通过 NMS，则标记为边缘。

NMS 简化版：梯度方向量化到 4 个 bin（0°, 45°, 90°, 135°），每个像素只与沿该方向的两个相邻像素比较幅值。

2.5 平滑与定位的权衡

更大的 $\sigma$ 带来更强的去噪能力，但同时模糊边缘 → 定位精度下降。需要在不同尺度上检测边缘。

课件 · Lect02

关于 Canny 边缘检测，以下说法正确的是？

A. NMS 的目的是增加边缘宽度

B. 滞后阈值化中，低阈值用于启动边缘

C. 利用卷积的导数定理可以同时完成高斯平滑和梯度计算

D. $\sigma$ 越小，平滑效果越强

答案：C（$\frac{\partial}{\partial x}(f * g) = f * \frac{\partial g}{\partial x}$，可省去一步操作。A 错：NMS 是将边缘细化为单像素宽。B 错：高阈值启动，低阈值延续。D 错：$\sigma$ 越小平滑越弱。）

第 3 章 · 经典视觉 II — 直线拟合与角点检测（Lect03）

3.1 卷积 vs 相关

	卷积 (Convolution)	互相关 (Cross-Correlation)
核心思想	核翻转后再滑动	核直接滑动
1D 公式	$(f * g)[n] = \sum_k f[k]g[n-k]$	$(f \star g)[n] = \sum_k f[k]g[n+k]$
应用	信号处理、滤波	模板匹配 (template matching)

3.2 Padding

目的：防止空间尺寸缩小；保留边缘像素信息。
Zero padding：边界外填 0。
Replicate padding：复制最近的边界像素。

3.3 im2col + GEMM

实践中卷积通过矩阵乘法高效实现：

Kernel flattening：卷积核展平为行向量 ($1 \times K^2$)
im2col：将输入的每个滑动窗口展平为列向量 ($K^2 \times N_{\text{out}}$)
GEMM：矩阵乘法 $(1 \times K^2) \times (K^2 \times N_{\text{out}}) \to 1 \times N_{\text{out}}$
Reshape：恢复为输出特征图尺寸

3.4 直线拟合：最小二乘法与 SVD

直线一般方程 $ax + by + d = 0$，对 $n$ 个点构造矩阵 $A_{n\times 3}$，求解 $\min_{\|h\|=1} \|Ah\|^2$，其中 $h = [a, b, d]^T$。

对 $A$ 做 SVD：$A = UDV^T$，最优解 $h$ = 最小奇异值对应的右奇异向量（$V$ 的最后一列 $c_3$）。
原因：$\|Ah\|^2 = (\lambda_1\alpha_1)^2 + (\lambda_2\alpha_2)^2 + (\lambda_3\alpha_3)^2 \ge \lambda_3^2$，取 $\alpha_1=\alpha_2=0, \alpha_3=1$ 时达到下界。

3.5 RANSAC（随机采样一致性）

核心思想：找到拥有最多内点 (inliers) 的模型。

算法：① 随机选 $s$ 个点拟合模型 → ② 计算全体点到模型的距离，统计内点数 → ③ 重复 $N$ 次，选内点最多的模型。
$N$ 的计算：$N = \frac{\log(1-p)}{\log(1-(1-e)^s)}$，其中 $e$ = 外点比例，$s$ = 拟合模型所需最少点数，$p$ = 至少一次全内点采样的概率（通常取 0.99）。

3.6 Harris 角点检测

角点的关键性质：在角点周围区域，图像梯度有两个或更多主导方向。

核心思想：滑动窗口，观察窗口内亮度变化。

关键点 (Keypoint) 的四项要求

显著性 (Saliency)：该点在图像中具有独特、有趣的结构
可重复性 (Repeatability)：同一场景的不同图像中，同一点应被独立检测到
精确定位 (Accurate Localization)：检测位置与真实位置偏差小
数量充足 (Sufficient Quantity)：一张图中能检测到足够多的关键点以支撑后续任务

角点恰好满足以上四项要求：角点显著、在不同视角下可重复、通常数量充足、且易于精确定位。这也是 Harris 角点检测被广泛应用的原因。

Flat 区域：所有方向无变化
Edge 区域：沿边缘方向无变化
Corner 区域：所有方向都有显著变化

能量函数

移动 $(u,v)$ 后窗口内平方差之和：

$E(u,v) = \sum_{(x,y)\in N} [I(x+u, y+v) - I(x,y)]^2$

利用一阶泰勒展开 $I(x+u,y+v) - I(x,y) \approx I_x u + I_y v$：

$E(u,v) \approx [u, v] \; M \; \begin{bmatrix}u\\v\end{bmatrix}$

其中 $M = \begin{bmatrix} \sum I_x^2 & \sum I_x I_y \\ \sum I_x I_y & \sum I_y^2 \end{bmatrix}$（或使用高斯加权：$M = \begin{bmatrix} g(I_x^2) & g(I_x I_y) \\ g(I_x I_y) & g(I_y^2) \end{bmatrix}$）

角点响应函数

$\theta = \det(M) - \alpha \cdot \text{tr}(M)^2 - t$
$= (g(I_x^2)g(I_y^2) - [g(I_x I_y)]^2) - \alpha[g(I_x^2) + g(I_y^2)]^2 - t$
其中 $\alpha \approx 0.04 \sim 0.06$，$t$ 为阈值。$\theta > 0$ 判定为角点。

物理意义：$\det(M) = \lambda_1\lambda_2$ 衡量两个方向变化都大；$\text{tr}(M)^2 = (\lambda_1+\lambda_2)^2$ 惩罚只有一个方向变化大的情况。

等变性

Harris 角点响应 $\theta$ 对平移和旋转具有等变性 (equivariance)。
平移等变性来源：卷积本身是平移等变的。
旋转等变性来源：高斯核 $g_\sigma$ 是各向同性的（旋转不变），从而使卷积旋转等变。
不具有尺度不变性：放大后角点可能变成边缘。

课件 · Lect03

关于 Harris 角点检测，以下说法错误的是？

A. $M$ 矩阵的两个特征值 $\lambda_1, \lambda_2$ 可以区分 flat/edge/corner

B. $\theta = \det(M) - \alpha \cdot \text{tr}(M)^2$ 中 $\det(M)$ 为 0 时一定不是角点

C. Harris 角点响应对平移和旋转具有等变性

D. Harris 角点响应对缩放变换具有不变性

答案：D（Harris 角点响应 $\theta$ 对平移和旋转具有等变性，但不具有尺度/缩放不变性——放大后角点可能变成边缘。A 对：$\lambda_1,\lambda_2$ 都小→flat，一大一小→edge，都大→corner。B 对：$\det(M)=\lambda_1\lambda_2=0$ 说明至少一个特征值为 0，非角点。C 对：卷积是平移等变的，高斯核是旋转不变的，因此 $\theta$ 对两者等变。）

课件 · Lect03

RANSAC 与 Hough 变换在鲁棒拟合上的主要区别是什么？

RANSAC：单模态，对离群点鲁棒。在原始空间投票。
Hough 变换：可处理多模态（多条线）和高比例离群点，但在参数空间投票，可能出现伪峰 (spurious peak)，鲁棒性不如 RANSAC。

第 4 章 · 深度学习 I — MLP 基础（Lect04）

4.0 等变性与不变性（续 Lect03）

设 $f: V \to V$ 是一个函数，$T: V \to V$ 是对输入 $X$ 的变换（如平移、旋转）：

等变性 (Equivariance)：$T[f(X)] = f(T(X))$ — 先变换再运算 = 先运算再变换
不变性 (Invariance)：$f(X) = f(T(X))$ — 变换后输出不变

例：Harris 角点响应 $\theta$ 对平移和旋转是等变的（平移/旋转输入，$\theta$ 值也对应平移/旋转），但对缩放既不等变也不不变。CNN 中的 Max Pooling 引入的是对小幅度平移/旋转的不变性。

4.1 经典 CV 流水线及其局限

Keypoint Detector (Harris)

→

Descriptor (SIFT)

→

Aggregation (BoVW)

→

Classifier (SVM)

SIFT：将每个关键点周围的 $16\times 16$ 区域划分为 $4\times 4$ 网格，每格统计 8 方向梯度直方图 → 128 维向量。
Bag of Visual Words：对大量描述子聚类得到 K 个"视觉词"，每张图像统计词频直方图 → 固定长度表示 $\mathbf{z} \in \mathbb{R}^K$。

经典流水线为何衰落？
① 严重依赖手工特征，需大量领域专家知识
② 多阶段错误累积（早期错误传播到后期）
③ 难以捕捉高层语义概念
④ 难以随数据扩展（更多数据 ≠ 更好性能）
⑤ 泛化性差，换任务需重新设计特征

4.2 逻辑回归 → MLP

Sigmoid：$g(z) = \frac{1}{1+e^{-z}}$，将 $(-\infty, \infty)$ 映射到 $(0,1)$。
MLE（最大似然估计）：找到使观测数据最可能出现的参数。
NLL 损失（二分类）：$\mathcal{L}(\theta) = -\sum_{i=1}^n [y^{(i)}\log h_\theta(x^{(i)}) + (1-y^{(i)})\log(1-h_\theta(x^{(i)}))]$

4.3 优化方法

方法	更新规则	特点
Full-Batch GD	$\theta := \theta - \alpha \nabla_\theta \mathcal{L}(\theta)$	全部数据算梯度，精确但慢
SGD	$\theta := \theta - \alpha \nabla_\theta \ell_i(\theta)$	单样本更新，噪声大但可逃离鞍点
Mini-Batch GD	$\theta := \theta - \alpha \frac{1}{B}\sum_{i\in\mathcal{B}_t} \nabla_\theta \ell_i(\theta)$	平衡效率与稳定性，适合 GPU

为什么 Full-Batch GD 在深度学习中受限？
神经网络训练是非凸问题。梯度下降会在鞍点 (saddle point) 和平坦区域 (plateau) 停滞。高维空间中鞍点远比真正的局部极小值常见（混合曲率）。SGD 的噪声可帮助逃离这些区域。

4.4 反向传播与链式法则

计算图中每个节点保存局部梯度，从输出端反向传播上游梯度：

下游梯度 = 上游梯度 × 局部梯度

4.5 激活函数

函数	公式	特点
Sigmoid	$\sigma(z) = \frac{1}{1+e^{-z}}$	输出 (0,1)，有梯度消失问题
tanh	$\tanh(z)$	输出 (-1,1)，零中心，仍有梯度消失
ReLU	$\max(0, z)$	正区间梯度恒为 1（缓解梯度消失），计算简单，稀疏激活

ReLU 优势：计算简单（仅阈值操作）、缓解梯度消失（正区间梯度=1）、收敛更快、稀疏激活（负输入映射为 0）。

课件 · Lect04

关于 ReLU 激活函数，以下说法错误的是？

A. ReLU 在整个定义域上梯度恒为 1

B. ReLU 比 Sigmoid 计算更简单

C. ReLU 的稀疏激活可以提高效率

D. ReLU 有助于缓解梯度消失问题

答案：A（ReLU 只在正区间 ($z > 0$) 梯度为 1；负区间 ($z < 0$) 梯度为 0。因此不是"整个定义域上梯度恒为 1"。）

第 5 章 · 深度学习 II — CNN（Lect05）

5.1 为什么需要 CNN？

MLP 将图像展平为向量 → 对高分辨率图像极其昂贵（参数爆炸）
展平操作破坏了图像的局部结构

5.2 卷积层核心特性

特性	含义	效果
稀疏连接	每个输出只与输入的局部区域连接（核大小 $F \times F$）	大幅减少参数
参数共享	同一卷积核在整张图上滑动使用	检测同一特征 wherever it appears
平移等变性	忽略边界效应，2D Conv 对平移等变	平移输入 → 输出同样平移

5.3 FC vs Conv 参数对比

FC 层：$W_1 W_2 H_1 H_2 C K$ 个参数
Conv 层：$F^2 C K$ 个参数
例：$W=H=100, F=C=K=3$ → FC ~900M vs Conv ~81，差距约 1000 万倍！

5.4 Pooling 层

Max Pooling：取局部最大值。引入对小幅度平移和旋转的不变性。
Average / Sum Pooling
$2 \times 2$ pooling: $W_2 = \lceil W_1/2 \rceil$, $H_2 = \lceil H_1/2 \rceil$，参数数 = 0

5.5 CNN 归纳偏置 (Inductive Bias)

稀疏连接 + 参数共享 + 平移等变性 + Pooling 不变性 → CNN 对视觉任务参数效率高、数据效率高。

5.6 数据预处理

零中心化：$X = X - \text{mean}$（常用 ImageNet 均值）
归一化：$X = X / \text{std}$
目的：使不同特征的尺度一致，有助于优化

5.7 权重初始化

方法	适用激活	分布
Xavier	tanh, sigmoid	$W \sim \mathcal{N}(0, \frac{2}{n_{\text{in}}+n_{\text{out}}})$
He (Kaiming)	ReLU 系列	$W \sim \mathcal{N}(0, \frac{2}{n_{\text{in}}})$

Xavier 假设激活函数线性且关于 0 对称；He 考虑了 ReLU 将一半输出置零的效应。

5.8 优化器

方法	特点
SGD	基本方法。问题：锯齿状路径、鞍点停滞、对所有参数使用同一学习率
SGD + Momentum	积累历史梯度方向，加速收敛，减少震荡
Adam	自适应学习率 + 动量。默认好选择，对超参数不敏感

课件 · Lect05

关于 CNN 的特性，以下说法正确的是？

A. 卷积层的表达能力比全连接层更强

B. FC 是 Conv 的超集（没有稀疏和参数共享约束）

C. Pooling 层有大量可学习参数

D. CNN 对旋转天然具有等变性

答案：B（FC 没有稀疏连接和参数共享的约束，是 Conv 的超集。A 错：FC 理论上表达能力更强（参数更多），但实际中 CNN 的归纳偏置使其在视觉任务上更好。C 错：Pooling 层参数数为 0。D 错：CNN 对平移等变，但对旋转不等变。）

第 6 章 · 深度学习 III — 训练技巧与 BN（Lect06）

6.1 学习率与批量大小

Iteration：一个 batch 的梯度下降步骤。
Epoch：完整遍历一次训练数据的若干 iteration。
经验法则：批量大小增加 $N$ 倍，初始学习率也应大致增加 $N$ 倍。
学习率调度：Step decay、Cosine schedule、Linear warmup
分类任务学习率通常在 $10^{-6} \sim 10^{-3}$

6.2 SoftMax 分类器与交叉熵损失

SoftMax 函数：$\sigma(\mathbf{z})_i = \frac{\exp(z_i)}{\sum_{j=1}^K \exp(z_j)}$，将 logits 映射到 $(0,1)^K$ 且和为 1。

当 $K=2$ 时退化为 Sigmoid。
当 $\beta \to \infty$ 时趋近 argmax。

从 KL 散度到交叉熵：

$D_{KL}(P\|Q) = \underbrace{-\sum P(x)\log Q(x)}_{H(P,Q)} - \underbrace{(-\sum P(x)\log P(x))}_{H(P)}$

$P$ 为真实分布时 $H(P)$ 为常数 → 最小化 $D_{KL} \Leftrightarrow$ 最小化交叉熵 $H(P,Q)$。

随机初始化时 $\mathcal{L}_{CE} \approx \log(K)$。下界为 0，无上界。

6.3 Batch Normalization

训练模式：对每个 mini-batch 计算 $\mu_B, \sigma_B^2$，归一化后做 scale & shift：$\hat{x} = \frac{x-\mu_B}{\sqrt{\sigma_B^2+\epsilon}}$, $y = \gamma\hat{x} + \beta$。
评估模式：使用训练期间的运行均值/方差 $\mu_{\text{rms}}, \sigma_{\text{rms}}^2$（通过动量 $\rho$ 更新）。

BN 为何有效？

原始假设：减少 Internal Covariate Shift（层输入分布在训练中不断变化）
现代理解：平滑损失景观 (smooths loss landscape) → 梯度更具预测性 → 允许更大学习率 → 更快收敛
此外：稳定梯度尺度、引入 batch 噪声（轻微正则化效果）

CNN 中的 BN：Conv-BN-ReLU 块

$[(\text{Conv-BN-ReLU})^*N - \text{POOL?}]^*m - (\text{FC-BN-ReLU})^*K - \text{FC-SoftMax}$

注意：最后一层不使用 BN，因为输出层是任务相关的，不应被归一化到单峰高斯分布。

BN 的问题

训练 batch 太小 → $\mu_B, \sigma_B$ 随机性大 → 训练/测试模式偏差大 → 测试性能可能骤降（非常常见的 bug 来源）。

6.4 不同归一化方法对比

方法	归一化维度	适用场景	CNN 中为何(不)用？
BatchNorm	Batch × Spatial	CNN 分类（大 batch）	保留通道独立性，匹配 Conv 结构 ✓
LayerNorm	Channel × Spatial	Transformer	通道间互相干扰，破坏特征检测器独立性 ✗
InstanceNorm	Spatial（逐通道逐样本）	风格迁移	移除实例特有统计量（对比度/亮度），不利于分类 ✗
GroupNorm	Channel 组内	小 batch / 检测	不依赖 batch 统计，batch 小或样本相关时优于 BN ✓

课件 · Lect06

关于 Batch Normalization，以下说法正确的是？（多选）

A. BN 的最后一层也应该使用 BN 来稳定输出

B. BN 训练时的 batch size 太小会导致训练/测试不一致

C. 现代研究表明 BN 主要通过平滑损失景观来帮助优化

D. LayerNorm 在 CNN 中通常优于 BatchNorm

答案：B, C
A 错：最后一层不使用 BN，因为输出分布应匹配任务语义。
B 对：小 batch 导致 $\mu_B,\sigma_B$ 随机性大，与 running mean/var 偏差大。
C 对：这是 2018 年论文的发现，比"减少 ICS"更准确。
D 错：LayerNorm 跨通道归一化会破坏 CNN 中通道作为独立特征检测器的语义，通常不如 BN。

第 7 章 · 2D 视觉 I — ResNet 与分割（Lect07）

7.1 深度网络的退化问题

网络过深时，训练误差和测试误差都更高 → 不是过拟合，是优化困难。

7.2 ResNet：残差连接

残差块：$y = \mathcal{F}(x, \{W_i\}) + x$
学习残差映射 $\mathcal{F}(x)$ 而非直接学习 $H(x)$。若恒等映射是最优的，只需将 $\mathcal{F}(x)$ 推到 0。

为什么有效？

梯度旁路：skip link 为梯度反向传播提供直接路径，缓解梯度消失。
平滑损失景观：残差连接阻止损失景观从近凸变为混沌，促进平坦极小值。

7.3 泛化差距与过拟合

泛化差距 (Generalization Gap)：模型在训练数据上的性能与在未见数据（同分布）上的性能之间的差距。差距大 → 过拟合；差距小 → 良好泛化。
过拟合的本质：模型参数量超过数据所能支撑的量，模型"记住"了训练数据的噪声和残差变化，而非学到可泛化的模式。

缓解策略：

策略	视角	方法
数据增强	数据端	水平翻转、随机裁剪、颜色抖动、旋转、缩放
BatchNorm	数据端（隐层）	限制激活分布 + batch 噪声 = 正则化
Dropout	模型端	训练时随机丢弃神经元，测试时缩放。仅用于大 FC 层
正则化	模型端	$\mathcal{L} = \mathcal{L}_{\text{main}} + \lambda R(W)$，偏好简单模型
Early Stopping	训练策略	验证集 loss 不再下降时停止

数据增强原则：变换不能太强（丢失核心信息）也不能太弱（无效果）。标签应在变换下保持不变。

7.4 经典分类骨架

网络	核心创新
AlexNet	首个在 ImageNet 上成功的深度 CNN
VGGNet	全部使用 $3\times 3$ 小卷积核，更深更规整。两个 $3\times 3$ = 一个 $5\times 5$ 的感受野
ResNet	残差连接，可训练 152 层
DenseNet	每层与所有后续层直接连接（密集连接）
MobileNet	深度可分离卷积，高效轻量

7.5 感受野 (Receptive Field)

堆叠 $3\times 3$ 卷积：1 层 → $3\times 3$；2 层 → $5\times 5$；3 层 → $7\times 7$。小卷积核堆叠可获得大感受野，且参数更少。

7.6 语义分割

定义：逐像素分类问题 (dense labeling / per-pixel classification)。

损失：$\mathcal{L}_{CE} = \text{mean}(-\sum_{x\in\mathcal{X}} P(x)\log Q(x))$，对每个像素求交叉熵后取平均。

预备概念：自编码器 (Auto-Encoder, AE)

AE 结构：编码器 (Encoder) 将输入 $\mathbf{x} \in \mathbb{R}^N$ 压缩为隐变量 $\mathbf{z} \in \mathbb{R}^L$（$L \ll N$），解码器 (Decoder) 从 $\mathbf{z}$ 重建 $\hat{\mathbf{x}}$。训练目标：$\|\mathbf{x} - \hat{\mathbf{x}}\|^2$。
信息瓶颈 (Information Bottleneck)：隐空间维度远小于输入维度，迫使网络学习数据中最本质的特征。这一编码器-解码器架构是 FCN/UNet 等语义分割网络的基础——压缩 → 保留核心信息 → 恢复分辨率。

FCN（全卷积网络）

编码器-解码器结构：

下采样（编码器）：降低分辨率，增大感受野，提取全局上下文
瓶颈 (Bottleneck)：需要保存全局上下文和边界空间信息
上采样（解码器）：恢复分辨率

上采样方法

Unpooling / Max Unpooling：记录 pooling 时的位置，反向填充
转置卷积 (Transposed Convolution)：可学习的上采样，本质是卷积的逆向操作（矩阵乘法视角）

UNet

核心创新：编码器与解码器同分辨率特征图之间的 skip link。
效果：瓶颈层不再需要记忆整张图，只需提供全局上下文；skip link 直接传递空间细节到输出端。

7.7 评估指标

Pixel Accuracy：正确分类像素占比。类别不平衡时有偏。
IoU：$\frac{\text{Intersection}}{\text{Union}}$，对每类计算。
mIoU：所有类 IoU 的平均值。

课件 · Lect07

关于 ResNet 的残差连接，以下说法错误的是？

A. 残差连接通过增加模型参数来提升表达能力

B. 残差连接为梯度反向传播提供直接路径

C. 残差连接有助于平滑损失景观

D. $y = \mathcal{F}(x) + x$ 中学习的是残差 $\mathcal{F}(x)$

答案：A（残差连接 $y = \mathcal{F}(x) + x$ 不增加额外参数——它只是将输入加到输出上。它的作用是为梯度提供旁路、平滑损失景观，而非增加模型容量。）

第 8 章 · 2D 视觉 II — 检测与实例分割（Lect08）

8.1 目标检测：单目标

任务：定位 + 分类。输出 2D 边界框 $(x, y, h, w)$，4 自由度。

回归损失：

L1 loss：$\sum |\Delta|$，鲁棒但对收敛不友好。
L2 loss：$\sum \Delta^2$，对大误差敏感但收敛好。
Smooth L1 loss（Fast R-CNN 提出）：结合两者优势，类似 Huber loss。

8.2 多目标检测的演进

滑动窗口法 (Sliding Window)

思路：用不同大小、不同长宽比的窗口在图像上滑动，对每个窗口位置运行分类器判断是否包含目标。
问题：计算量巨大（窗口数量随图像尺寸和尺度爆炸），且难以覆盖所有可能的目标形状和位置。Selective Search 和 RPN 正是为了解决这一问题而提出的。

R-CNN 系列演进

方法	核心思想	问题
R-CNN	Selective Search 生成候选区域 → 每个区域独立过 CNN → SVM 分类 + 回归	慢（每个区域独立前向）、裁剪区域信息不足
Fast R-CNN	整图一次过 CNN → RoI Pool 裁剪特征 → FC 分类 + 回归	仍依赖外部 Selective Search
Faster R-CNN	引入 RPN (Region Proposal Network)，端到端训练	两阶段，推理较慢

Faster R-CNN 推理流程

Backbone 提取特征
RPN 生成 ~300 个 proposals
对每个 proposal：RoI Pool → FC → 分类 + bbox 精修
置信度阈值过滤 → NMS 去重

NMS（非极大值抑制）

① 按置信度降序排列 → ② 取最高分框放入结果集 D → ③ 计算该框与其余框的 IoU，超过阈值 $\tau$ 的删除 → ④ 重复②③直到 B 为空。

8.3 两阶段 vs 单阶段检测器

两阶段（Faster R-CNN）：RPN + 分类/回归，精度高，速度慢。
单阶段（YOLO, SSD, RetinaNet）：直接回归边界框和类别，速度快。

8.4 检测评估指标

AP (Average Precision)：按置信度降序排列，计算不同召回率下的精度，取 Precision-Recall 曲线下面积。
mAP：所有类别 AP 的平均（有时还跨 IoU 阈值平均）。
MS COCO 常用：AP (IoU=0.50:0.95)、AP50 (IoU=0.50)、AP75 (IoU=0.75)。

8.5 实例分割：Mask R-CNN

在 Faster R-CNN 基础上增加一个 mask 分支（FCN），对每个 RoI 预测二值掩码。

RoI Align vs RoI Pool

	RoI Pool	RoI Align
量化	有两次量化（坐标取整）	无量化，使用双线性插值
精度	粗糙，不适合像素级任务	精确，保持空间对应关系
适用	检测（Fast/Faster R-CNN）	实例分割（Mask R-CNN）

设计选择

Class-agnostic mask：每 RoI 预测一个 mask（与 class-specific 效果接近）。
解耦 mask 和类别预测：per-pixel sigmoid + binary loss，各类别间无竞争。

Bottom-up 方法：先聚类再分类

思路：先对像素进行分组/聚类 (grouping)，将相似像素聚成超像素或区域，再对每个区域进行分类。与 Mask R-CNN 的 top-down（先检测框再分割内部 mask）形成互补。
特点：不依赖边界框先验，适合处理形状不规则的目标；但对密集重叠目标的处理较为困难。

课件 · Lect08

关于 RoI Align 与 RoI Pool 的区别，以下说法正确的是？

A. RoI Align 比 RoI Pool 更快

B. RoI Pool 不使用任何量化操作

C. RoI Align 使用双线性插值避免量化误差，更适合像素级任务

D. 两者在目标检测任务中精度完全相同

答案：C（RoI Pool 有两次量化：① RoI 坐标取整 ② 划分 bin 时取整。RoI Align 使用双线性插值，保持浮点精度，这对实例分割这种像素级任务至关重要。Mask R-CNN 的消融实验证明 RoI Align 显著优于 RoI Pool。）

第 9 章 · 互动自测（30 题，打分）

计算机视觉期中自测

0 / 0

第 10 章 · 考前速查表

关键公式

Harris 角点响应：$\theta = \det(M) - \alpha \cdot \text{tr}(M)^2 - t$

$M = \begin{bmatrix} g(I_x^2) & g(I_x I_y) \\ g(I_x I_y) & g(I_y^2) \end{bmatrix}$，$\det(M) = \lambda_1\lambda_2$，$\text{tr}(M) = \lambda_1+\lambda_2$

Sigmoid：$\sigma(z) = \frac{1}{1+e^{-z}}$，$\sigma'(z) = \sigma(z)(1-\sigma(z))$

SoftMax：$\sigma(\mathbf{z})_i = \frac{\exp(z_i)}{\sum_j \exp(z_j)}$

交叉熵损失：$\mathcal{L}_{CE} = -\sum_x P(x)\log Q(x)$

RANSAC 迭代次数：$N = \frac{\log(1-p)}{\log(1-(1-e)^s)}$

SVD 直线拟合：$A = UDV^T$，$h = c_3$（最小奇异值的右奇异向量）

IoU：$\frac{\text{Intersection}}{\text{Union}}$

卷积参数计算

FC 层参数：$W_1 W_2 H_1 H_2 C K$

Conv 层参数：$F^2 C K$

Pooling 层参数：$0$

输出尺寸：$W_2 = \lfloor\frac{W_1 - F + 2P}{S}\rfloor + 1$

归一化方法速记

方法	归一化轴	最佳场景
BatchNorm	N, H, W	CNN 分类（大 batch）
LayerNorm	C, H, W	Transformer
InstanceNorm	H, W	风格迁移
GroupNorm	部分 C, H, W	小 batch / 检测

检测模型速记

模型	核心	速度
R-CNN	Selective Search + 逐区域 CNN	极慢
Fast R-CNN	共享 CNN + RoI Pool	中等
Faster R-CNN	RPN 端到端	较快
Mask R-CNN	Faster R-CNN + mask 分支 + RoI Align	较快
YOLO/SSD	单阶段，直接回归	最快

2026 春 · 期末考试 · 6/24 14:00–16:00

计算机视觉导论
期末一站式复习

覆盖 Lect09-15：3D 视觉与相机模型、3D 深度学习（PointNet++ / 稀疏卷积）、序列模型（RNN/LSTM）、Attention & Transformer、生成模型（VAE/GAN/扩散）与多模态（CLIP）。期末范围 Lect 9–15，但可能涉及期中之前的技术。

7讲课件

50+知识点

7章节练习

30自测题

📌 期末考试形式（来自 Lect15 通知）

时间地点：6/24（周三）14:00–16:00，第二教学楼 105。占总成绩 30%。
Cheat sheet：允许一页 A4 双面（手写或打印均可，不超过一页）。
范围：Lecture 9 – Lecture 15，可能涉及期中之前学过的技术。
题型（全英文出题，讲义涵盖的术语不再额外解释，不允许字典与计算器）：
- 多选题 (Multiple-select questions)
- 简答题 (Short answer)：解释 why / how，部分需数学推导
- 计算题 (Calculation questions)
简答与简单计算题可用中文作答，但专业术语建议用英文，否则无法理解时按错处理。

考点权重（基于课件结构推断）非课件内容

~25%

Transformer & Attention

缩放点积注意力、多头、masked、位置编码、复杂度 $O(N^2)$、ViT

~20%

生成模型

VAE 的 ELBO 与重参数化、GAN 对抗博弈、扩散 DDPM 前向/反向与噪声预测

~20%

3D 视觉

针孔/透视相机、内外参、投影、深度反投影、PointNet++、稀疏卷积

~35%

序列模型 & 多模态 & 简答

RNN/LSTM 梯度、beam search、CLIP 对比学习、概念辨析与推导

推荐路径：按左侧导航顺序学习；3D 视觉的相机投影与生成模型的数学推导是重点，建议把关键公式整理进 cheat sheet。每章末做对应自测题。

期末考点路线图整理导图

相机模型与 3D (Lect09)

针孔相机 → 内参 $K$ / 外参 $[R\mid T]$ → 投影变换 → 弱透视/正交 → 深度图与反投影

3D 深度学习 (Lect11)

PointNet++（FPS+ball query+PointNet）· 体素 / 稀疏卷积 · SDF / Mesh

序列模型 (Lect11)

RNN → BPTT/梯度消失 → LSTM 门控与 cell state → GRU · beam search

Attention & Transformer (Lect12)

seq2seq+attention → 自注意力 → 缩放点积 → 多头 / masked → 位置编码 → ViT

生成模型 I (Lect13)

Autoencoder → 概率 AE 的 intractability → VAE (ELBO+重参数化) → GAN 对抗

多模态与视频 (Lect14)

CLIP 图文对比学习与 zero-shot · LM+CLIP · 视频 Transformer · VidIL

生成模型 II (Lect15)

层次化 VAE → 扩散为其特例 → 前向加噪 / 反向去噪 → DDPM 噪声预测 → score / SDE

第 9 章 · 3D 视觉 I — 相机模型（Lect09）

9.1 从 2D 到 3D

2D 图像表示为 $H\times W\times 3$，但我们生活在 3D 世界，需要从局部观测聚合出完整 3D 场景（如 "Building Rome in a day"）。
视觉数据采集：RGB 相机 → RGB 图像；深度相机 → 深度图；LiDAR → 点云；立体/多视角 → 由视差恢复 3D。
准确鲁棒的 3D 距离信息对工业机器人、自动驾驶等具身智能体至关重要。

9.2 针孔相机与透镜

针孔相机 (pinhole)：光线穿过一个小孔在像平面成倒立的像，是最简单的成像模型。
真实相机用透镜聚光（近轴折射模型），换来更多进光量，但引入径向畸变 (radial distortion) 等问题。

9.3 相机参数：内参与外参

内参 (Intrinsics)：相机自身的成像性质（与场景无关）。
外参 (Extrinsics)：相机在世界参考系中的位姿（旋转 + 平移）。

投影完整链路：世界坐标 → （外参 $[R\mid T]$）→ 相机坐标 → （投影）→ 像平面 → （内参 $K$）→ 像素坐标。

内参矩阵 $K$

$K = \begin{bmatrix} \alpha & -\alpha\cot\theta & c_x \\ 0 & \beta/\sin\theta & c_y \\ 0 & 0 & 1\end{bmatrix}$，其中 $\alpha=f\cdot k$、$\beta=f\cdot l$ 为像素单位下的焦距，$(c_x, c_y)$ 为主点，$\theta$ 为倾斜角 (skewness)。

倾斜角 $\theta$ 来自制造误差/镜头安装误差；对大多数工业级相机 $\theta=\pi/2$，可忽略（此时 $\cot\theta=0$，$\sin\theta=1$）。

外参 $[R\mid T]$ 的含义

世界点 $P_w$ 变换到相机系：$P = RP_w + T$。
世界系原点 $P_w=[0,0,0,1]^\top$ 在相机系中为 $T=[t_x,t_y,t_z]^\top$；世界系坐标轴在相机系中的方向即 $R$ 的列。
因此 $R, T$ 表示世界参考系在相机参考系中的朝向与原点位置。
相机在世界系中的位姿：朝向 $R^{-1}=R^{\top}$，位置（光心）$-R^{-1}T = -R^{\top}T$。

9.4 投影变换与齐次坐标

用齐次坐标把透视投影写成线性矩阵乘法：$\tilde{p} = K\,[R\mid T]\,\tilde{P}_w = M\tilde{P}_w$，$M$ 即 $3\times 4$ 相机矩阵。
透视除法：$(x,y,z)\to (x/z, y/z)$ 引入了深度依赖的缩放（近大远小）。

透视投影的性质：① 保直线（直线→直线）；② 不保平行（平行线交于消失点）；③ 不保长度/角度/比例。

9.5 相机模型对比

模型	投影	适用条件
透视 (Perspective)	$x'=fx/z$（除以深度）	一般情形，最精确
弱透视 (Weak Perspective)	用平均深度 $z_0$ 代替：$x'=fx/z_0$	物体深度变化 ≪ 到相机距离
正交 (Orthographic)	$x'=x$（忽略深度）	远距离 / 远心镜头

9.6 深度图与反投影

深度图：单通道图像，每个像素存深度值。是 2.5D 表示。
记录的是沿光轴 z 方向的距离（不是光心到点的射线长度）。
深度反投影 (backprojection)：已知 $K$，对像素 $(u,v,z)$ 可解出相机系 3D 坐标 $$x = z(u-c_x)/\alpha,\quad y = z(v-c_y)/\beta$$ 把深度图转成深度点云（Assignment 3 会练习）。
为何只是 2.5D：单凭深度无法测量任意两点间距离，还需 $K$ 才能恢复真正的 $(x,y,z)$。

课件 · Lect09

已知外参 $[R\mid T]$（世界点 → 相机系），相机光心在世界坐标系中的位置是？

A. $T$

B. $-R^{-1}T$

C. $R^{-1}T$

D. $RT$

答案：B。由 $P=RP_w+T$，光心在相机系为原点，反解得世界系下位置 $-R^{-1}T=-R^{\top}T$。

简答 · Lect09

为什么深度图只是 2.5D 而非真正的 3D 表示？

深度图只记录每像素沿光轴方向的 $z$ 值，本身不含 $x,y$ 物理坐标。真正的 3D 表示应能直接测量任意两点间的距离，而要从 $(u,v,z)$ 恢复相机系真实坐标 $(x,y,z)$ 必须借助相机内参 $K$（$x=z(u-c_x)/\alpha,\ y=z(v-c_y)/\beta$）。因为缺少这一步，深度图被称为 2.5D。

第 11a 章 · 3D 深度学习（Lect11）

11.1 点云网络：PointNet++

核心思想：在局部区域递归地应用 PointNet，实现层次化特征学习。

三大不变性：层次化特征学习 ✓ 局部平移不变 ✓ 置换不变 (permutation invariance) ✓
Set Abstraction 层 = 最远点采样 (FPS) + 分组 (ball query) + PointNet：
- FPS：从 $N$ 个点中采样出 $N_1$ 个分布均匀的中心点。
- Ball query：以中心点为球心、半径为超参，最多取 $k$ 个邻点（多则随机取 $k$，少则复制凑数，不影响 max pooling）。
- 邻域点转相对坐标 $u=x-x_c,\ v=y-y_c$，再过 PointNet → 提取平移不变的局部几何特征。
分割任务需上采样：通过 3D 插值（基于 3 近邻的反距离加权）+ skip link 拼接（把编码器同层特征接回来）逐步恢复到原始点数。

11.2 体素网络与稀疏卷积

体素化 (voxelization)：用规则 3D 网格表示占用情况，可直接套 3D CNN（4D 卷积核）。
复杂度问题：分辨率立方增长（$30^3=27000$ 已很大），且体素化有信息损失。
稀疏性洞察：3D 形状的占用率随分辨率立方下降（表面是 2D 流形），大量体素是空的。
稀疏卷积 (sparse conv)：只存储/计算占用的体素，约束计算在表面附近。实现：MinkowskiEngine、TorchSparse、SparseConvNet。

	稀疏卷积	点云网络
优点	核空间各向异性；索引/邻域查询高效；适合大场景	高分辨率；易用，适合快速试验
缺点	分辨率受限；离散化误差	性能略低；FPS/ball query 较慢

课件 · Lect11

PointNet++ 的 Set Abstraction 层包含哪些操作？（多选）

A. 最远点采样 (FPS)

B. Ball query 分组

C. 对每个局部区域应用 PointNet

D. 对全图做一次全局稠密卷积

答案：A、B、C。Set Abstraction = FPS + grouping(ball query) + PointNet，实现层次化局部特征提取。D 是稠密体素方法的做法。

第 11b 章 · 序列模型 RNN / LSTM（Lect11）

11.3 循环神经网络 (RNN)

处理序列数据，隐藏状态递归更新：$h_t = f_W(x_t, h_{t-1})$，所有时间步共享同一组权重 $W$。
vanilla RNN：$h_t = \tanh(W_{hh}h_{t-1} + W_{xh}x_t)$，输出 $y_t = W_{hy}h_t$。
结构灵活：one-to-many（图像描述）、many-to-one（分类）、many-to-many（翻译/逐帧标注）。
训练用通过时间的反向传播 (BPTT)；序列太长时用截断 BPTT (truncated BPTT)，只在窗口内传播梯度——窗口外的长程依赖学不到。

11.4 梯度消失/爆炸

BPTT 中梯度反复乘以 $W_{hh}$：奇异值 <1 → 梯度消失（远处信号被淹没，只能学到近期依赖）；>1 → 梯度爆炸（可用梯度裁剪缓解）。梯度消失使模型无法捕捉长程依赖（如开头的 "tickets" 影响末尾预测）。

11.5 长短期记忆 (LSTM)

除隐藏状态 $h_t$ 外，引入单元状态 (cell state) $c_t$ 作为长期记忆，类似计算机的 RAM。
三个门（值在 0~1 之间，由当前上下文动态计算）控制信息：
- 遗忘门 $f$：决定从 cell 擦除哪些信息
- 输入门 $i$ + 候选 $g$：决定写入哪些新信息
- 输出门 $o$：决定从 cell 读出哪些信息到 $h_t$
更新：$c_t = f\odot c_{t-1} + i\odot g$，$h_t = o\odot\tanh(c_t)$。
缓解梯度消失：cell state 通过加法更新，提供一条梯度的"高速公路"（gradient highway），使梯度沿 $c_t$ 几乎无衰减地流动。
GRU：LSTM 的简化变体（合并门、无单独 cell state），参数更少。

11.6 序列生成与解码

策略	做法	特点
贪心采样	每步取概率最高的 token	确定性，只能生成一条序列
加权采样	按预测分布采样	多样，但可能采到错误 token 跑偏
穷举搜索	枚举所有序列取最优	$O(V^T)$ 太贵
Beam search	每步保留 $k$ 个最优部分序列	效率与质量折中，不保证全局最优

课件 · Lect11

LSTM 通过哪些机制缓解 RNN 的梯度消失问题？（多选）

A. 引入 cell state $c_t$ 作为长期记忆

B. cell state 加性更新，提供梯度高速公路

C. 用输入/遗忘/输出门动态控制读写

D. 完全去掉非线性激活

答案：A、B、C。LSTM 的核心是加性更新的 cell state 与门控机制。D 错误，LSTM 仍用 sigmoid/tanh 非线性。

第 12 章 · 大模型 I — Attention & Transformer（Lect12）

12.1 从 RNN+Attention 到自注意力

seq2seq+attention：decoder 每个时间步用不同的上下文向量 $c_t$，按注意力权重对 encoder 所有隐藏状态加权求和——"看"输入的不同部分。
Attention 是一种新的基本算子：根据 query 与一组 (key, value) 的相似度做加权聚合，本身与序列、与位置无关。

12.2 缩放点积注意力 (Scaled Dot-Product Attention)

$\text{Attention}(Q,K,V) = \text{softmax}\!\left(\dfrac{QK^{\top}}{\sqrt{d_k}}\right)V$

Query / Key / Value：由输入线性投影得到。用 $Q$ 与 $K$ 算相似度（点积），softmax 归一化为权重，对 $V$ 加权求和。
为何除以 $\sqrt{d_k}$：维度大时点积方差随 $d_k$ 增大，过大 logits 使 softmax 饱和、梯度极小。除以 $\sqrt{d_k}$ 归一化方差，稳定训练。

12.3 自注意力 (Self-Attention)

$Q, K, V$ 都来自同一输入序列，让每个 token 与序列中所有 token 交互。
置换等变 (permutation equivariant)：打乱输入顺序，输出同样被打乱——自注意力本身不感知位置。
因此需要位置编码 (positional encoding) 注入顺序信息（正弦/可学习）。

12.4 Masked & Multi-head

Masked self-attention：自回归生成时，把未来位置的注意力 logits 置 $-\infty$（softmax 后为 0），保证位置 $i$ 只看 $\le i$，维持因果性。
多头注意力：把 $Q/K/V$ 投影到 $h$ 个低维子空间分别做注意力，再拼接投影回去。让模型在不同子空间并行关注不同类型的关系。

12.5 复杂度

标准自注意力关于序列长度 $N$ 的计算与（朴素）显存复杂度均为 $O(N^2)$（注意力矩阵 $QK^{\top}$ 是 $N\times N$）。这是长序列的主要瓶颈；FlashAttention 可把显存降到 $O(N)$（计算仍 $O(N^2)$）。

12.6 Transformer 块与 ViT

Transformer block：(多头自注意力 → 残差 + LayerNorm) → (前馈 MLP → 残差 + LayerNorm)。
残差连接缓解深层梯度问题；LayerNorm 跨特征维归一化（适合变长序列）。
Vision Transformer (ViT)：把图像切成不重叠 patch（如 $16\times16$），每个 patch 展平 + 线性投影成 token，加位置编码与 [CLS] token，送入标准 Transformer encoder 做分类。

课件 · Lect12

缩放点积注意力中除以 $\sqrt{d_k}$ 的主要目的是？

A. 加快矩阵乘法

B. 使 Q 和 K 维度一致

C. 归一化点积方差，防止 softmax 饱和、梯度消失

D. 保证权重为整数

答案：C。$d_k$ 大时点积方差随之增大，过大 logits 使 softmax 进入饱和区导致梯度极小，除以 $\sqrt{d_k}$ 稳定训练。

简答 · Lect12

为什么 Transformer 需要位置编码，而 RNN 不需要？

RNN 按时间步顺序处理序列，顺序信息天然蕴含在递归计算中。而自注意力对输入 token 是置换等变的——它并行地让每个 token 与所有 token 交互，本身完全不感知位置；若不加位置信息，打乱输入顺序输出只会被同样打乱，模型无法区分 "猫追狗" 与 "狗追猫"。因此 Transformer 必须显式加入位置编码（正弦或可学习）来注入顺序。

第 13 章 · 生成模型 I — AE / VAE / GAN（Lect13）

13.1 自编码器与概率自编码器

Autoencoder：encoder 把 $x$ 压缩到低维潜码 $z$，decoder 重构 $\hat{x}$，用重构误差训练。潜码可捕捉姿态、笑容程度等潜在属性。
概率自编码器：希望建模 $p(x)=\int p(x|z)p(z)\,dz$ 以便生成新样本。
难点 (intractability)：高维潜空间下该积分解析不可解；朴素蒙特卡洛采样因绝大多数 $z$ 对应的 $p(x|z)$ 极小而方差巨大。

13.2 变分自编码器 (VAE)

引入变分后验 $q_\phi(z|x)$ 近似真实后验 $p(z|x)$。
用 Jensen 不等式（$f$ 为凹函数时 $f(\mathbb{E}[X])\ge\mathbb{E}[f(X)]$）推出对数似然的下界 ELBO：

$\log p(x) \ge \underbrace{\mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)]}_{\text{重构项}} - \underbrace{D_{KL}\big(q_\phi(z|x)\,\|\,p(z)\big)}_{\text{正则项}} = \text{ELBO}$

重构项：让解码器从 $z$ 重建出 $x$；KL 项：让后验 $q_\phi(z|x)$ 贴近先验 $p(z)=\mathcal{N}(0,I)$。
重参数化技巧：直接采样 $z\sim\mathcal{N}(\mu,\sigma^2)$ 不可导；改写为 $z=\mu+\sigma\odot\varepsilon,\ \varepsilon\sim\mathcal{N}(0,I)$，把随机性移到外部噪声，使梯度可经 $\mu,\sigma$ 回传。

13.3 生成对抗网络 (GAN)

生成器 $G$：把噪声 $z$ 映射成假样本；判别器 $D$：区分真/假。
minimax 对抗博弈：$\min_G\max_D\ \mathbb{E}_{x\sim p_{data}}[\log D(x)] + \mathbb{E}_{z}[\log(1-D(G(z)))]$。
理想平衡时 $G$ 生成的分布与真实数据分布一致，$D$ 无法区分（输出 0.5）。
对比：VAE 显式建模似然（有 ELBO），生成偏模糊；GAN 隐式建模、样本更锐利但训练不稳定（模式崩溃）。

课件 · Lect13

VAE 中重参数化技巧 $z=\mu+\sigma\odot\varepsilon$ 的作用是？

A. 消除 KL 散度项

B. 把随机采样改写为可导形式，使梯度能回传到 $\mu,\sigma$

C. 加快采样速度

D. 替代解码器

答案：B。直接从 $q_\phi$ 采样不可导，重参数化把随机性移到外部噪声 $\varepsilon$，使梯度可经 $\mu,\sigma$ 反向传播。

第 14 章 · 大模型 II — 多模态与视频（Lect14）

14.1 CLIP：图文对比学习

用大规模图文对训练图像编码器 + 文本编码器，把两者映射到同一嵌入空间。
对比训练目标：一个 batch 内，匹配的图文对相似度最大化，不匹配的最小化（对称 InfoNCE / 交叉熵）。
Zero-shot 分类：把类别名写成文本提示（"a photo of a {class}"）编码为文本嵌入，与图像嵌入算相似度，取最高者——无需该数据集的任何训练样本。
学到的表示泛化强（linear probe 在多数据集上表现优异）。

14.2 LM + CLIP / 基础模型

把 CLIP 的视觉表示接入语言模型，构成多模态基础模型，支持图文问答、描述生成等。
VidIL（few-shot video-language learner）：用图像/语言模型组合处理视频任务的代表性方法。

14.3 视频 Transformer

视频在空间 patch 之外还有时间维度，时空 token 数随帧数增长，使全时空自注意力的 $O(N^2)$ 开销迅速膨胀。常用分解注意力（先空间后时间）或局部窗口来降低开销。

课件 · Lect14

CLIP 实现 zero-shot 图像分类的方式是？

A. 对每个新数据集重新微调分类头

B. 把类别名构造成文本提示，比较图像嵌入与各文本嵌入的相似度

C. 每类需要大量标注样本

D. 只能做图文检索，不能分类

答案：B。CLIP 将候选类别写成文本提示编码为文本嵌入，与图像嵌入算相似度取最高者，无需任何针对该数据集的训练。

第 15 章 · 生成模型 II — 扩散模型（Lect15）

15.1 从层次化 VAE 到扩散

单层 VAE 的单一潜码要同时编码类别、形状、姿态、纹理、细节，负担过重。
层次化 VAE：多个潜变量构成马尔可夫链，每个变量只依赖相邻变量。
扩散模型可看作层次化 VAE 的特例：潜变量是逐步加噪的序列 $x_{1:T}$，推断（前向加噪）过程固定、无可学习参数，且构造使最终 $x_T$ 收敛到标准高斯。

15.2 前向扩散过程 (Forward Process)

逐步加高斯噪声：$q(x_t|x_{t-1}) = \mathcal{N}(x_t;\sqrt{1-\beta_t}\,x_{t-1},\ \beta_t I)$。
扩散核（任意步一步采样）：令 $\alpha_t=1-\beta_t,\ \bar\alpha_t=\prod_{s\le t}\alpha_s$，则 $$q(x_t|x_0) = \mathcal{N}(x_t;\sqrt{\bar\alpha_t}\,x_0,\ (1-\bar\alpha_t)I)$$ 即 $x_t = \sqrt{\bar\alpha_t}\,x_0 + \sqrt{1-\bar\alpha_t}\,\varepsilon,\ \varepsilon\sim\mathcal{N}(0,I)$。
$T$ 足够大时分布趋于标准高斯。

15.3 反向去噪过程 (Reverse Process)

训练一个网络 $p_\theta(x_{t-1}|x_t)$ 近似反向过程；最大化似然 → 优化变分下界（与 VAE 同源）。
真实反向后验 $q(x_{t-1}|x_t,x_0)$ 是高斯，均值 $\mu_t$、方差 $\beta_t$ 可解析推出。
重参数化为预测噪声：与其预测均值，不如让网络 $\varepsilon_\theta(x_t,t)$ 直接预测所加的噪声。

15.4 DDPM 简化训练目标

$\mathcal{L}_{\text{simple}} = \mathbb{E}_{x_0,\,t,\,\varepsilon}\Big[\big\|\varepsilon - \varepsilon_\theta(\sqrt{\bar\alpha_t}\,x_0 + \sqrt{1-\bar\alpha_t}\,\varepsilon,\ t)\big\|^2\Big]$

一句话记忆：训练扩散 = 给 $x_0$ 加已知噪声得到 $x_t$，让网络预测这个噪声。

训练：随机取 $t$、噪声 $\varepsilon$，构造 $x_t$，最小化 $\|\varepsilon-\varepsilon_\theta(x_t,t)\|^2$。
采样/生成：从纯高斯 $x_T\sim\mathcal{N}(0,I)$ 出发，用去噪网络逐步迭代 $x_{T-1},\dots,x_0$（$T$ 步）。
网络结构常用 U-Net。

15.5 进阶视角（了解）

Score 视角：score 函数 $s(x)=\nabla_x\log p(x)$ 是指向高密度区域的向量场；预测噪声等价于估计 score。
SDE 视角：连续加噪可写成随机微分方程 $d\boldsymbol{x}=f(\boldsymbol{x},t)dt+g(t)d\boldsymbol{w}$，扩散学网络近似求解。

课件 · Lect15

DDPM 简化后的训练目标实际上让网络预测什么？

A. 原始图像 $x_0$

B. 所加入的噪声 $\varepsilon$

C. 类别标签

D. 下一时间步的方差

答案：B。经重参数化，DDPM 训练让网络 $\varepsilon_\theta(x_t,t)$ 预测构造 $x_t$ 时所加的噪声 $\varepsilon$，损失为 $\|\varepsilon-\varepsilon_\theta(x_t,t)\|^2$。

简答 · Lect15

简述扩散模型与 VAE 的关系。

扩散模型可视为层次化 VAE 的特例。其潜变量是对数据逐步加噪得到的序列 $x_{1:T}$；与一般 VAE 不同的是，扩散的推断（前向加噪）过程是固定的、无可学习参数，且被构造成使最终 $x_T$ 收敛到标准高斯。训练时同样最大化变分下界 (ELBO)，反向去噪网络对应 VAE 的解码器。

互动自测（期末 · 打分）

计算机视觉期末自测

0 / 0

期末考前速查表

相机模型（Lect09）

投影链路：$\tilde{p} = K\,[R\mid T]\,\tilde{P}_w$（世界 → 像素）

相机系变换：$P = RP_w + T$；世界系下光心：$-R^{-1}T=-R^{\top}T$，朝向 $R^{\top}$

深度反投影：$x=z(u-c_x)/\alpha,\ y=z(v-c_y)/\beta$

透视性质：保直线，不保平行/长度/角度/比例

Transformer（Lect12）

缩放点积注意力：$\text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$

复杂度：$O(N^2)$（FlashAttention 显存 $O(N)$）

自注意力置换等变 → 需位置编码；masked → 因果；多头 → 多子空间

ViT：图像切 patch → 线性嵌入 + 位置编码 + [CLS]

VAE / GAN（Lect13）

ELBO：$\log p(x)\ge\mathbb{E}_q[\log p_\theta(x|z)] - D_{KL}(q_\phi(z|x)\|p(z))$

重参数化：$z=\mu+\sigma\odot\varepsilon,\ \varepsilon\sim\mathcal{N}(0,I)$

GAN：$\min_G\max_D\ \mathbb{E}[\log D(x)]+\mathbb{E}[\log(1-D(G(z)))]$

扩散 DDPM（Lect15）

扩散核：$x_t=\sqrt{\bar\alpha_t}\,x_0+\sqrt{1-\bar\alpha_t}\,\varepsilon$，$\bar\alpha_t=\prod_s\alpha_s$

训练目标：$\|\varepsilon-\varepsilon_\theta(x_t,t)\|^2$（预测噪声）

采样：$x_T\sim\mathcal{N}(0,I)$ 逐步去噪 $\to x_0$

score：$s(x)=\nabla_x\log p(x)$；扩散是层次化 VAE 特例

序列模型 & 3D（Lect11）

概念	要点
RNN	$h_t=f_W(x_t,h_{t-1})$，共享权重，梯度消失/爆炸
LSTM	cell state 加性更新（梯度高速公路）+ 三门控
Beam search	每步保留 $k$ 个最优部分序列
PointNet++	FPS + ball query + PointNet；置换/平移不变
稀疏卷积	利用 3D 稀疏性，只算占用体素

计算机视觉导论期中一站式复习

考点权重（基于课件结构与 2022 真题推断）非课件内容

CNN 与训练技巧

经典视觉方法

2D 视觉任务

选择 & 简答

考点路线图 整理导图

CV 概述 (Lect01)

边缘检测 (Lect02)

直线拟合 & 角点 (Lect03)

MLP 基础 (Lect04)

CNN (Lect05)

训练技巧 (Lect06)

ResNet & 分割 (Lect07)

检测 & 实例分割 (Lect08)

第 1 章 · 计算机视觉概述（Lect01）

1.1 人类视觉系统

1.2 计算机视觉定义

1.3 视觉数据获取

1.4 CV 三层次任务

1.5 视觉与图形学

第 2 章 · 经典视觉 I — 边缘检测（Lect02）

2.1 图像作为函数

2.2 滤波器与卷积

2.3 高斯滤波器

2.4 Canny 边缘检测全流程

边缘的成因

最优边缘检测的四项准则

2.5 平滑与定位的权衡

第 3 章 · 经典视觉 II — 直线拟合与角点检测（Lect03）

3.1 卷积 vs 相关

3.2 Padding

3.3 im2col + GEMM

3.4 直线拟合：最小二乘法与 SVD

3.5 RANSAC（随机采样一致性）

3.6 Harris 角点检测

关键点 (Keypoint) 的四项要求

能量函数

角点响应函数

等变性

第 4 章 · 深度学习 I — MLP 基础（Lect04）

4.0 等变性与不变性（续 Lect03）

4.1 经典 CV 流水线及其局限

4.2 逻辑回归 → MLP

4.3 优化方法

4.4 反向传播与链式法则

4.5 激活函数

第 5 章 · 深度学习 II — CNN（Lect05）

5.1 为什么需要 CNN？

5.2 卷积层核心特性

5.3 FC vs Conv 参数对比

5.4 Pooling 层

5.5 CNN 归纳偏置 (Inductive Bias)

5.6 数据预处理

5.7 权重初始化

5.8 优化器

第 6 章 · 深度学习 III — 训练技巧与 BN（Lect06）

6.1 学习率与批量大小

6.2 SoftMax 分类器与交叉熵损失

6.3 Batch Normalization

BN 为何有效？

CNN 中的 BN：Conv-BN-ReLU 块

BN 的问题

6.4 不同归一化方法对比

第 7 章 · 2D 视觉 I — ResNet 与分割（Lect07）

7.1 深度网络的退化问题

7.2 ResNet：残差连接

7.3 泛化差距与过拟合

7.4 经典分类骨架

7.5 感受野 (Receptive Field)

7.6 语义分割

预备概念：自编码器 (Auto-Encoder, AE)

FCN（全卷积网络）

上采样方法

UNet

7.7 评估指标

第 8 章 · 2D 视觉 II — 检测与实例分割（Lect08）

8.1 目标检测：单目标

8.2 多目标检测的演进

滑动窗口法 (Sliding Window)

计算机视觉导论
期中一站式复习

考点路线图整理导图

计算机视觉导论
期末一站式复习

期末考点路线图整理导图