LongVPO: from anchored cues to self-reasoning for long-form video preference optimization 2025年10月11日· Zhenpeng Huang , Jiaqi Li , Zihan Jia , Xinhao Li , Desen Meng , Lingxue Song , Xi Chen , Liang Li Limin Wang · 0 分钟阅读时长 引用 URL 类型 会议文章 出版物 Proceedings of the Neural Information Processing Systems 最近更新于 2025年10月11日 Authors Limin Wang 太阳成集团 ← Gated integration of low-rank adaptation for continual learning of language models 2025年10月11日 Loquetier: a virtualized multi-LoRA framework for unified LLM fine-tuning and serving 2025年10月11日 →