Skip to content

适配方法

InvPT

介绍

InvPT在一个统一的框架下对多个视觉任务进行同步建模,它主要由三个核心部分组成,分别为任务共享的InvPT Transformer编码器、特定任务的初步解码器和InvPT Transformer解码器。编码器从所有任务的输入图像中学习通用的视觉表示。然后,初步解码器产生特定任务的特征和初步预测,这些特征由真实标签监督。每个任务的特征和初步预测相结合,作为一个序列输入InvPT Transformer解码器。InvPT Transformer解码器采用倒置金字塔结构,在逐渐提高特征图分辨率的同时学习多任务特征交互,还结合编码器提取的多尺度特征来产生细化的特定任务表示并生成最终的预测结果。

论文引用

@inproceedings{ye2022inverted,
  title={Inverted pyramid multi-task transformer for dense scene understanding},
  author={Ye, Hanrong and Xu, Dan},
  booktitle={European Conference on Computer Vision},
  pages={514--530},
  year={2022},
  organization={Springer}
}

MoGE

介绍

MoGE 是一种基于 MLoRE(Mixture of Low-Rank Experts)框架改进的多任务密集预测方法。MLoRE 采用解码器为中心的设计,在标准 MoE(Mixture of Experts)结构中引入一个任务共享的通用卷积路径,以显式建模任务间的全局关系,同时其专家网络采用低秩卷积形式降低参数量和计算开销,支持扩展专家数量,从而增强模型表征能力。在此基础上,MoGE 进一步引入基于组稀疏约束的正则化项,对专家进行结构化分组,鼓励相关任务共享部分专家,同时也能根据任务特性激活专属的专家子集,从而在提升任务协同效率的同时增强任务特异性建模能力。

论文引用

bibtex
@inproceedings{kang2025mixture,
  title={Mixture of Group Experts for Multi-task Dense Prediction},
  author={Kang, Lei and Li, Jia and Huang, Hua},
  booktitle={Chinese Conference on Pattern Recognition and Computer Vision (PRCV)},
  year={2025},
  organization={Springer}
}

@inproceedings{yang2024multi,
  title={Multi-task dense prediction via mixture of low-rank experts},
  author={Yang, Yuqi and Jiang, Peng-Tao and Hou, Qibin and Zhang, Hao and Chen, Jinwei and Li, Bo},
  booktitle={Proceedings of the IEEE/CVF conference on computer vision and pattern recognition},
  pages={27927--27937},
  year={2024}
}