机器之心报道
编辑:泽南、小舟
大模型开源的口号,不是随便说说的。

可访问用于训练 AI 的数据的详细信息,以便其他人可以理解和重新创建;
用于构建和运行 AI 的完整代码;
训练中的设置和权重,帮助 AI 产生相应的结果。

可将系统用于任何目的,无需征得许可;
允许人们研究系统的工作原理并检查其组件;
允许人们为任何目的修改该系统,包括更改其输出;
人们可以出于任何目的,将系统共享给他人,无论是否经过修改。
数据信息:用于训练系统的数据的足够详细的信息,以便技术人员可以构建基本等效的系统。数据信息应根据 OSI 批准的条款提供。特别是,必须包括:
用于训练的所有数据的完整描述,包括(如果使用)不可共享的数据,披露数据的来源、其范围和特征、数据的获取和选择方式,标签程序、数据处理和过滤方法;
所有公开可用的训练数据的清单以及获取这些数据的方式;
可从第三方获得的所有训练数据的列表以及从何处获取(包括付费)。
代码:用于训练和运行系统的完整源代码。该代码应展示出如何处理和过滤数据以及如何进行训练的完整规范。代码应在 OSI 批准许可下提供。
例如,如果使用,则必须包括用于处理和过滤数据的代码、用于训练的代码(包括使用的参数和设置)、验证和测试、支持库(如分词器和超参数搜索代码)、推理代码和模型架构。
参数:模型参数,例如权重或其他配置。参数应根据 OSI 批准条款提供。
例如,训练中间阶段的检查点以及优化器状态。
AI 模型由模型架构、模型参数(包括权重)和运行模型的推理代码组成。
AI 权重是一组学习参数,以根据给定输入生成输出。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...