论文阅读笔记:“From Goals, Waypoints & Paths To Long Term Human Trajectory Forecasting(ICCV 2021)”
Notes of Reading “From Goals, Waypoints & Paths To Long Term Human Trajectory Forecasting”(ICCV 2021)
原理
行人轨迹预测是一个内在的多模态问题,因为行人轨迹存在很多不确定性,论文将这种不确定性分解为认知不确定性(对于模型未知)和偶然不确定性(不可避免的随机性)。这篇文章利用了分解的思想,分别对认知不确定性(行人的目标)和偶然不确定性(路径)进行建模,从而能够预测更长时间且多样的轨迹。这篇文章极大的参考了U-net这个网络,并基于这个网络进行了一系列改进。
模型网络
Y-NET
Y-NET模型包含了3个子网络(Ue,Ug,Ut),并将整个随机性分解为两种模式。首先,对认知不确定性建模的模块A会预测多个目标(即行人轨迹的最终目的地坐标,共预测Ke个);之后对随即不确定性建模的模块会根据从模块A得到的估计目标位置来预测多条路径(Ka个)。
- 场景轨迹热图表示
为了正确引入场景信息,在满足像素对齐的情况下,作者使用了场景轨迹热图表示的方法,即在和图片相同的空间内去表示轨迹信息。如图所示,RGB图像首先经过语义分割网络处理得到了语义分割图S(包含C个类别),在下方平行的路径中,作者将历史轨迹序列转化为了轨迹热图H,其空间大小和场景图像相同,通道数即为历史轨迹采样点数。作者将分割图和轨迹热图在通道维度进行连接,得到了轨迹场景热图张量$Hs(HW(C+np))$,并将其作为输入传递到编码网络Ue中。
- 场景轨迹热图编码器(Ue)
在编码器Ue中,它包含了M个block,在每个block后使用最大池化来进行降采样,最终空间紧凑的输出张量shape为($H_MW_MC_M$)。网络将该张量与中间M-1个block的输出张量合并起来作为输入传给目标位置解码器和轨迹解码器
- 场景轨迹热图解码器(Ug)
非参数化采样过程
损失函数
- Post title:论文阅读笔记:“From Goals, Waypoints & Paths To Long Term Human Trajectory Forecasting(ICCV 2021)”
- Post author:sixwalter
- Create time:2023-08-05 11:14:26
- Post link:https://coelien.github.io/2023/08/05/paper-reading/paper_reading_006/
- Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
Comments