Skip to content

适配方法

InvPT

介绍

InvPT在一个统一的框架下对多个视觉任务进行同步建模,它主要由三个核心部分组成,分别为任务共享的InvPT Transformer编码器、特定任务的初步解码器和InvPT Transformer解码器。编码器从所有任务的输入图像中学习通用的视觉表示。然后,初步解码器产生特定任务的特征和初步预测,这些特征由真实标签监督。每个任务的特征和初步预测相结合,作为一个序列输入InvPT Transformer解码器。InvPT Transformer解码器采用倒置金字塔结构,在逐渐提高特征图分辨率的同时学习多任务特征交互,还结合编码器提取的多尺度特征来产生细化的特定任务表示并生成最终的预测结果。

论文引用

@inproceedings{ye2022inverted,
  title={Inverted pyramid multi-task transformer for dense scene understanding},
  author={Ye, Hanrong and Xu, Dan},
  booktitle={European Conference on Computer Vision},
  pages={514--530},
  year={2022},
  organization={Springer}
}