首页
Python
Java
前端
数据库
Linux
Chatgpt专题
开发者工具箱
ntu专题
CVPR2024 | 改善多模态大模型底层视觉能力,NTU与商汤联合提出Q-Instruct,已开源
https://arxiv.org/pdf/2311.06783.pdf https://github.com/Q-Future/Q-Instruct 以 GPT-4V 为代表的多模态大语言模型(MLLM)为视觉感知和理解任务引入了范式转变,即可以在一个基础模型中实现多种能力。虽然当前的 MLLM 表现出了从低级视觉属性(例如清晰度、亮度)识别到图像质量评估的初级低级视觉能力,但仍
阅读更多...
NTU S-Lab等提出基于GPT的3D舞蹈生成新框架(CVPR 2022 Oral)
关注公众号,发现CV技术之美 本篇文章分享 CVPR 2022 Oral 论文『Bailando: 3D Dance Generation by Actor-Critic GPT with Choreographic Memory』,由 NTU S-Lab 等提出基于 GPT 的 3D 舞蹈生成新框架。 详细信息如下: 论文链接:https://arxiv.org/abs/2203.13055
阅读更多...