标签:tag5
速览多模态模型 Transfusion 和 Show-o:用 Transformer + 扩散模型同时处理文本和图像
极市导读:本文介绍了两个大型多模态模型:Transfusion和Show-o,它们结合了Transformer和扩散模型来处理文本和图像。Transfusion在图像生成上表现更佳,而Sh...
ACM MM 2024|基于二维先验学习的三维人物交互重建
极市导读:本文提出了一种二维监督方法,从野外的二维图像中学习三维人体-物体空间关系的先验知识。摘要:本文介绍了一种从大规模二维图片中学习三维环境中人...
原生集成GitHub,让AI成为协作者,Claude企业版馋哭个人开发者
Anthropic公司最近推出了Claude聊天机器人的企业版——Claude Enterprise,这一版本在原有基础上增加了一些显著优势。其中最引人注目的特点是原生集成GitHub和...
全球3.5亿下载量破纪录! Llama家族暴涨10倍,开源帝国掀AI革命
Llama模型自诞生一年半以来,已经成为开源界的领军者,全球下载量接近3.5亿,是去年同期的10倍。这一成就得益于其在Hugging Face平台的广泛传播。Groq公司创...
IJCAI 2024|首个视频人脸修复技术!让人脸细节更清晰!
极市导读:PGTFormer是首个专门为视频人脸恢复设计的方法,采用端到端的设计,摒弃了传统方法中的复杂对齐步骤,实现了更加高效和连贯的视频人脸恢复。方法介...
谷歌2小时疯狂复仇,终极杀器硬刚GPT-4o!Gemini颠覆搜索,视频AI震破Sora
摘要:谷歌在I/O 2024大会上发布了多项更新,包括Gemini 1.5 Pro、Project Astra和文生视频模型Veo等。Gemini 1.5 Pro的上下文长度达到200万token,远超其他...
快速提升性能,如何更好地使用GPU(下)
摘要:本文主要探讨了在GPU成本上升和供应短缺的背景下,如何提升GPU性能的方法。文章首先提到,可以通过将所有任务提交给GPU的异步工作队列(stream)来提升...
OpenAI联合创始人兼首席科学家,官宣离职
摘要:OpenAI的联合创始人兼首席科学家Ilya Sutskever宣布辞职,由Jakub Pachocki接替其职位。Ilya表示将开发新项目,可能与生成式AI相关,而Sam Altman发表...
快速提升性能,如何更好地使用GPU(上)
摘要:本文主要探讨了在GPU成本上升和供应短缺的背景下,如何更有效地使用GPU以提升其性能。文章提出了三个关键点:让GPU保持忙碌、充分利用GPU中的所有资源...
CLIP-Mamba:首次提出用CLIP训练Mamba,仅用1/5参数就达到ViT天花板性能
摘要:本文介绍了利用对比语言-图像预训练(CLIP)训练的Mamba模型,并在26个零样本分类数据集和16个分布外(OOD)数据集上进行了评估。研究发现,6700万参数...