ntu专题

CVPR2024 | 改善多模态大模型底层视觉能力，NTU与商汤联合提出Q-Instruct，已开源

https://arxiv.org/pdf/2311.06783.pdf https://github.com/Q-Future/Q-Instruct 以 GPT-4V 为代表的多模态大语言模型（MLLM）为视觉感知和理解任务引入了范式转变，即可以在一个基础模型中实现多种能力。虽然当前的 MLLM 表现出了从低级视觉属性（例如清晰度、亮度）识别到图像质量评估的初级低级视觉能力，但仍

NTU S-Lab等提出基于GPT的3D舞蹈生成新框架（CVPR 2022 Oral）

关注公众号，发现CV技术之美本篇文章分享 CVPR 2022 Oral 论文『Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic Memory』，由 NTU S-Lab 等提出基于 GPT 的 3D 舞蹈生成新框架。详细信息如下：论文链接：https://arxiv.org/abs/2203.13055