国科大视觉实验室

Vision Group一篇论文被TPAMI录用

中国科学院大学视觉实验室博士研究生余学辉同学在计算机视觉领域取得了令人瞩目的成果！他的论文《CPR++: Object Localization via Single Coarse
Point Supervision》被计算机视觉领域最高期刊、IEEE旗舰期刊TPAMI（IF=23.6）接收。该研究开拓了利用算法研究代替注释规则解决语义方差的先河，为点监督的发展方向带来新的启示，为解决点标注引起的语义方差问题提供了新思路，是点监督目标定位领域的开创之作。

弱监督学习作为计算机视觉领域的重要研究方向，一直在不断探索与发展。虽然基于框监督的目标感知方法已经在性能上取得了较大的胜利，但其仍存在标注成本高、速度慢，难以获取精确标注等问题，同时对标注依赖较低的图像级监督学习和无监督学习的性能表现差强人意。为解决弱监督学习领域的困境，余学辉博士开创新的提出基于单点监督（任意点）的目标感知方法，不仅实现和图像级监督相同的速度和成本，且解决了点标注模式下引入语义方差的问题。

在该研究中，余学辉博士提出了一种粗点细化方法（CPR），据我们所知，这是计算机视觉领域第一次尝试从算法的角度来缓解语义方差（ semantic variance）。CPR通过在邻域区域中选择一个语义中心点来替换初始注释点来减少语义方差。此外，他设计了一个采样区域估计模块（ Sampling Region Estimation）来动态计算每个对象的采样区域，并使用一个级联结构来实现端到端优化。我们进一步将方差正则化（Variance Regularization）整合到结构中，以集中预测的分数，产生CPR++。我们观察到，CPR++可以获得尺度信息，并进一步减少了全局区域内的语义方差，从而保证了高性能的目标定位。该方法在四个具有挑战性的数据集上进行的广泛实验并验证了CPR和CPR++的有效性。该方法将为更多采用算法设计研究代替注释规则解决POL中的语义方差问题带来启发。

Vision Group@UCAS成立于2019年，是一支专注于机器学习、图像和视频处理及计算机视觉等领域的研究团队，尤其专注于基于点标注与多源信息融合的弱小目标感知。实验室承担了多个重要项目，包括国家自然科学基金项目、航天科工及华为公司等单位课题，致力于推动计算机视觉技术的创新与发展。