标签:多模态大模型

Llama也能做图像生成?文生图模型已开源

极市导读:最近,香港大学和字节跳动共同提出了一种名为LlamaGen的图像生成模型,该模型基于自回归模型LLama,首次在ImageNet benchmark上超越了LDM、DiT等扩...

视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击

在2024年的IEEE国际计算机视觉与模式识别会议(CVPR)上,视觉Foundation Model成为了核心议题之一,与自动驾驶、3D视觉等传统研究课题并列。AIGC(人工智能...

赋予机器人思考能力!SC-MLLM: 构建自我纠正多模态大模型赋能端到端机器人操作

摘要机器人操作策略在面对新的任务或对象时,表现出不理想的动作表现。因此,具备自动检测和自我纠正失败动作的能力对于一个实用的机器人系统至关重要。最近...

大模型时代的计算机视觉!CVPR 2024线上分享会全日程公布

随着OpenAI发布ChatGPT,大模型和AIGC在技术社区中受到越来越多的关注。为了帮助CV领域从业者快速了解AI的最新科研成果和发展趋势,机器之心计划于2024年6月1...

中国首个Sora级大模型:文本生成16秒,1080p高清视频

在2024年的中关村论坛上,清华大学联合生数科技发布了中国首个长时间、高一致性、高动态性的视频大模型——Vidu。Vidu采用了原创的Diffusion与Transformer融合...

颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑

摘要:颜水成教授团队联合新加坡国立、南洋理工大学共同开源了Vitron模型,这是一个通用视觉多模态大语言模型,支持从视觉理解到视觉生成、从低层次到高层次...

当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律

步骤2:撰写详细摘要生数科技联合清华大学发布了一款名为「Vidu」的视频大模型,它在视频生成领域取得了显著的进展。该模型能够生成长达16秒的视频片段,并且...

初创团队Reka推出多模态大模型Reka Core,性能比肩GPT4-V

步骤2:撰写详细摘要近日,Reka发布了一款名为Reka Core的前沿多模态大模型,该模型在数千个GPU上经过数月的从头训练而成。Reka Core在关键的行业评估指标上...

抱抱脸团队(HF)发布多模态大模型Idefics2,8B参数

抱抱脸团队(HF)发布了一款名为Idefics2的通用多模态大模型,它能够处理任意文本和图像序列的输入,并生成文本响应。Idefics2在多个领域表现出色,包括回答...

看视频、画CAD、运动想像识别!75B的多模态工业大模型太能干了

创新奇智发布奇智孔明工业大模型2.0版本创新奇智发布了奇智孔明工业大模型2.0版本(AInno-75B),在规模和性能方面取得了显著增长。新版本引入了多模态大模型...
12