屠榜专题

20 项任务全面碾压 BERT，CMU 全新 XLNet 模型屠榜，代码已开源！

BERT 带来的影响还未平复，CMU 与谷歌大脑提出的 XLNet 在 20 个任务上超过了 BERT 的表现，并在 18 个任务上取得了当前最佳效果。令人激动的是，目前 XLNet 已经开放了训练代码和大型预训练模型，这又可以玩一阵了～转载来源公众号：机器之心 “ 阅读本文大概需要 5 分钟。 ” 2018 年，谷歌发布了基于双向 Transformer 的大规模预训练语言模型 B

屠榜多目标跟踪！BoT-SORT：稳健的关联多行人跟踪

点击下方卡片，关注“CVer”公众号 AI/CV重磅干货，第一时间送达点击进入—> CV 微信技术交流群转载自：集智书童 BoT-SORT: Robust Associations Multi-Pedestrian Tracking 论文：https://arxiv.org/abs/2206.14651 代码：https://github.com/NirAharon/BOT-SORT 多

新王加冕，GPT-4V 屠榜视觉问答

当前，多模态大型模型（Multi-modal Large Language Model, MLLM）在视觉问答（VQA）领域展现了卓越的能力。然而，真正的挑战在于知识密集型 VQA 任务，这要求不仅要识别视觉元素，还需要结合知识库来深入理解视觉信息。本文对 MLLM，尤其是近期提出的 GPT-4V，从理解、推理和解释等方面进行了综合评估。结果表明，当前开源 MLLM 的视觉理解能力在很大程度上