VideoChat-r1.5: visual test-time scaling to reinforce multimodal reasoning by iterative perception 2025年10月11日· Ziang Yan , Xinhao Li , Yinan He , Zhengrong Yue , Xiangyu Zeng , Yali Wang , Yu Qiao Limin Wang , Yi Wang · 0 分钟阅读时长 引用 URL 类型 会议文章 出版物 Proceedings of the Neural Information Processing Systems 最近更新于 2025年10月11日 Authors Limin Wang 南京大学 ← StreamForest: efficient online video understanding with persistent event memory 2025年10月11日 Correspondence as video: test-time adaption on SAM2 for reference segmentation in the wild 2025年8月12日 →