实时多目标跟踪：从 SORT 到 ByteTrack 及其演进

室内环境中的多目标跟踪（MOT）面临独特挑战：频繁遮挡、外观相似、运动不可预测，以及需要在较长时间内保持身份一致性。本文研究跟踪算法的演进，以及我们在天花板鱼眼摄像头部署中经过生产验证的改进方案。

跟踪问题的形式化定义

给定跨帧的检测序列，MOT 旨在分配一致的身份标签。形式化表述：

设 $\mathcal{D}_t = \{d_1^t, d_2^t, ..., d_n^t\}$ 为第 $t$ 帧的检测， $\mathcal{T}_{t-1} = \{T_1, T_2, ..., T_m\}$ 为现有轨迹。关联问题是找到最优分配矩阵 $A$ ：

$A^* = \argmin_{A} \sum_{i,j} C_{ij} \cdot A_{ij}$

满足约束：每个检测最多映射到一个轨迹，反之亦然。

简单在线实时跟踪（SORT）建立了检测跟踪范式：

状态向量： $\mathbf{x} = [u, v, s, r, \dot{u}, \dot{v}, \dot{s}]^T$

其中：

状态转移：

$\mathbf{x}_t = F \mathbf{x}_{t-1} + w$

其中 $F$ 是恒速运动模型：