• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架

OmniDrive: 一个关于大模型与3D驾驶任务对齐的框架
AITOP100
2024-05-06 11:53:43

本文经自动驾驶之心公众号授权转载,转载请联系出处。

从一个新颖的3D MLLM架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3D,然后将其输入LLM。

题目:OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception Reasoning and Planning

作者单位:北京理工大学,NVIDIA,华中科技大学

开源地址:GitHub - NVlabs/OmniDrive

多模态大语言模型(MLLMs)的进展导致了对基于LLM的自动驾驶的兴趣不断增长,以利用它们强大的推理能力。然而,利用MLLMs强大的推理能力来改进规划行为是具有挑战性的,因为它需要超越2D推理的完整3D情境意识。为了解决这一挑战,本工作提出了OmniDrive,这是一个关于智能体模型与3D驾驶任务之间强大对齐的全面框架。框架从一个新颖的3D MLLM架构开始,该架构使用稀疏查询将视觉表示提升和压缩到3D,然后将其输入LLM。这种基于查询的表示允许我们联合编码动态对象和静态地图元素(例如,交通车道),为3D中的感知-行动对齐提供了一个简洁的世界模型。进一步提出了一个新的基准,其中包括全面的视觉问答(VQA)任务,包括场景描述、交通规则、3D基础、反事实推理、决策制定和规划。广泛的研究表明,OmniDrive在复杂的3D场景中具有出色的推理和规划能力。

网络结构

实验结果

0
0
原文链接:https://www.51cto.com/article/787688.html
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关AI工具
  • 测试面板
  • 123
  • Udio | Make your music
  • 即梦ai
  • 免费ChatGPT中文版
  • 通义灵码
  • 可灵AI(国内版)
相关资讯
  • 用户发的文章

  • 测试文章显示1111111

  • 测试文章

  • 1

  • 每日AI资讯-2025年08月07日

热点资讯

Higgsfield AI消散特效制作完整教程:一键打造电影级Disintegration视觉效果

8天前
Higgsfield AI消散特效制作完整教程:一键打造电影级Disintegration视觉效果

测试文章

7天前
测试文章

FlowSpeech:全球首个“书面语变口语”的TTS,让AI语音更懂人情味

7天前
FlowSpeech:全球首个“书面语变口语”的TTS,让AI语音更懂人情味

测试文章显示1111111

7天前
测试文章显示1111111

每日AI资讯-2025年08月07日

7天前
每日AI资讯-2025年08月07日
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有