互联网资讯

350亿参数、开放权重,Transformer作者创业后推出新大模型

Command-R 采用了优化后的 transformer 架构,通过监督微调和偏好训练,与人类偏好保持一致,实现有用性和安全性。模型具有以下特点:高准确性、低延迟、高吞...

注册通道开启!首届中国具身智能大会引爆科技盛宴(CEAI 2024)

中国具身智能大会(CEAI 2024)将于2024年3月29日至31日在上海西岸智塔举行。本次大会由中国人工智能学会(CAAI)主办,旨在为具身智能领域的学术与产业界搭...

王室修图何必用PS?Midjourney上新「换脸魔法」,奥特曼一秒COS罗马将军

Midjourney的这项新功能旨在解决在新生成图像中保持角色一致性的难题。通过在提示词后添加“-cref URL”,用户可以让模型从URL中匹配角色的特征。这项技术虽然...

被误解的「中文版Sora」背后,字节跳动有哪些技术?

文章总结了字节跳动在视频生成领域的最新研究成果,特别是在生成式AI技术方面。文章首先介绍了OpenAI发布的Sora,一个在视频生成领域树立新标准的模型。随后...

15个目标检测开源数据集汇总

摘要总结:本文为深度学习者和计算机视觉研究者提供了15个目标检测相关的开源数据集,旨在帮助他们在该领域的学习和研究。这些数据集涵盖了从火焰和烟雾检测...

CVPR 2024|字节&南开提出CAMixerSR:2K/8K/轻量级/全景图像超分

摘要:本文介绍了一种名为CAMixer的内容感知混合器,它结合了模型加速和token混合设计策略,以改善图像超分辨率(SR)任务的性能。CAMixer通过根据内容复杂度...

不是Nvidia买不起,只是国产更有性价比!使用全国产CPU和GPU项目开发记录-训练篇

本文详细介绍了将客流统计算法从Nvidia环境迁移到国产海光CPU+DCU的过程。文章首先讨论了AI领域面临的挑战,包括算力困境和硬件限制。作者提出了使用国产AI软...

如何看待第三代神经网络SNN?详解脉冲神经网络的架构原理、数据集和训练方法

摘要:本文深入探讨了脉冲神经网络(SNN)的原理、训练方法和评价指标。SNN作为第三代神经网络模型,旨在模拟大脑神经元动力学,与生物神经元机制更为接近。...

AI项目中GPU 利用率低,常见原因分析及优化

摘要:本文探讨了在训练模型时遇到的GPU利用率低的问题,并提供了详细的解决办法。首先,作者解释了GPU利用率的定义,即GPU在时间片上的利用率。接着,文章分...

离职创业一年,才发现大模型训练有这么多坑!

本文总结了在大模型时代,企业在开发和训练大型语言模型(LLM)时遇到的挑战。Yi Tay,一位曾在谷歌工作并参与多个知名大型语言模型项目的科学家,分享了他在...
1234