Llama3背后的秘密:HuggingFace发布万亿级数据集Fineweb

AI最新资讯1个月前发布 tree
39 0 0

今日应用


今日话题


Llama3背后的秘密:HuggingFace发布万亿级数据集Fineweb
Llama3背后的秘密:HuggingFace发布万亿级数据集Fineweb
 

重点标签 tag1HuggingFaceFineweb数据集开源训练模型

文章摘要


摘要总结:

HuggingFace最近发布了一个名为Fineweb的大规模筛选网络数据集,该数据集在15万亿个公共数据标记上进行训练,旨在优化大型语言模型(LLM)的性能。Fineweb数据集由超过15T的英文网络数据组成,这些数据经过清洗和去重处理,来源于CommonCrawl。HuggingFace对2013年至2024年间的所有CommonCrawl数据进行了筛选和去重,使得在FineWeb上训练的模型在基准任务组上优于其他常用高质量网络数据集,如RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama。

Fineweb项目的所有处理方法、数据、消融模型和超参数都是开源的,HuggingFace计划持续改进Fineweb。Fineweb最初旨在成为RefinedWeb的完全开放复制品,全套数据集将根据ODC-By 1.0许可证发布。通过谨慎添加额外的过滤步骤,研究人员成功将Fineweb的性能推高到原始RefinedWeb的水平之上。

HuggingFace还提供了自2013年以来的所有CommonCrawl转储数据,以及使用datatrove库完全重现处理设置所需的所有代码。此外,HuggingFace发布了使用nanotron训练的小型消融模型,以验证数据集并与其他参考数据集进行比较。

如何下载和使用FineWeb:

1. 方法1:使用datasets库加载Fineweb数据集。
“`python
from datasets import load_dataset
fw = load_dataset(“HuggingFaceFW/fineweb”, name=”CC-MAIN-2024-10″, split=”train”, streaming=True)
“`

2. 方法2:使用huggingface_hub库下载Fineweb数据集。
“`python
from huggingface_hub import snapshot_download
folder = snapshot_download(
“HuggingFaceFW/fineweb”,
repo_type=”dataset”,
local_dir=”./fineweb/”,
allow_patterns=”data/CC-MAIN-2023-50/*”
)
“`

原文链接: [HuggingFace Fineweb Dataset](https://huggingface.co/datasets/HuggingFaceFW/fineweb)

文章来源


原文地址: 点我阅读全文
原文作者: AIGC最前线

© 版权声明

相关文章

暂无评论

暂无评论...