国科大视觉实验室

Vision Group一篇论文被CVPR2024录用

中国科学院大学视觉实验室硕士研究生魏兆洋同学在计算机视觉领域取得了令人瞩目的成果！他的论文《SAPNet: Semantic-aware SAM for Point-Prompted Instance Segmentation》被计算机视觉顶级会议CVPR2024录用。该研究为点监督实例分割技术的发展带来了新的启示，展示了将语义信息与视觉基础模型结合的巨大潜力。
实例分割作为计算机视觉领域的重要研究方向，一直在不断探索与发展。然而，点提示实例分割方法由于没有精确的位置信息进行引导，长期存在着目标分割不完整，边界分割不清晰的问题。为解决这些具有挑战性的问题，魏兆洋同学对视觉基础模型和点监督分割网络进行结合，从视觉基础模型语义歧义性入手提出了一个新颖的端到端实例分割框架SAPNet。
在论文中，魏兆洋同学首先利用视觉基础模型（SAM）产生初始提案，随后通过点距离引导的多实例学习（MIL）方法来解决相邻同类目标的分割难题（'group issues'）。同时，他提出了一种正负样本生成策略（Positive and Negative Proposals Generator, PNPG），以提高提案质量并增加负样本提案以作为正则化。此外，借助提案细化模块（Proposals Refinement Module, PRM）并引入框挖掘策略（Box Mining Strategy, BMS），进一步解决了目标分割不完整问题（'local issuses')。该模型在Pascal VOC和COCO数据集上实现了SOTA性能，弥补了强监督和弱监督的性能Gap。
Vision Group@UCAS成立于2019年，是一支专注于机器学习、图像和视频处理及计算机视觉等领域的研究团队，尤其专注于基于点标注与多源信息融合的弱小目标感知。实验室承担了多个重要项目，包括国家自然科学基金项目、航天科工及华为公司等单位课题，致力于推动计算机视觉技术的创新与发展。