标签：多模态大模型

Llama也能做图像生成？文生图模型已开源

极市导读：最近，香港大学和字节跳动共同提出了一种名为LlamaGen的图像生成模型，该模型基于自回归模型LLama，首次在ImageNet benchmark上超越了LDM、DiT等扩...

4周前

在2024年的IEEE国际计算机视觉与模式识别会议（CVPR）上，视觉Foundation Model成为了核心议题之一，与自动驾驶、3D视觉等传统研究课题并列。AIGC（人工智能...

1个月前

摘要机器人操作策略在面对新的任务或对象时，表现出不理想的动作表现。因此，具备自动检测和自我纠正失败动作的能力对于一个实用的机器人系统至关重要。最近...

2个月前

随着OpenAI发布ChatGPT，大模型和AIGC在技术社区中受到越来越多的关注。为了帮助CV领域从业者快速了解AI的最新科研成果和发展趋势，机器之心计划于2024年6月1...

2个月前

在2024年的中关村论坛上，清华大学联合生数科技发布了中国首个长时间、高一致性、高动态性的视频大模型——Vidu。Vidu采用了原创的Diffusion与Transformer融合...

3个月前

摘要：颜水成教授团队联合新加坡国立、南洋理工大学共同开源了Vitron模型，这是一个通用视觉多模态大语言模型，支持从视觉理解到视觉生成、从低层次到高层次...

3个月前

步骤2：撰写详细摘要生数科技联合清华大学发布了一款名为「Vidu」的视频大模型，它在视频生成领域取得了显著的进展。该模型能够生成长达16秒的视频片段，并且...

3个月前

步骤2：撰写详细摘要近日，Reka发布了一款名为Reka Core的前沿多模态大模型，该模型在数千个GPU上经过数月的从头训练而成。Reka Core在关键的行业评估指标上...

3个月前

抱抱脸团队（HF）发布了一款名为Idefics2的通用多模态大模型，它能够处理任意文本和图像序列的输入，并生成文本响应。Idefics2在多个领域表现出色，包括回答...

3个月前

创新奇智发布奇智孔明工业大模型2.0版本创新奇智发布了奇智孔明工业大模型2.0版本（AInno-75B），在规模和性能方面取得了显著增长。新版本引入了多模态大模型...

4个月前