今日应用
今日话题
Llama3背后的秘密:HuggingFace发布万亿级数据集Fineweb
重点标签 tag1、HuggingFace、Fineweb、数据集、开源、训练模型
文章摘要
摘要总结:
HuggingFace最近发布了一个名为Fineweb的大规模筛选网络数据集,该数据集在15万亿个公共数据标记上进行训练,旨在优化大型语言模型(LLM)的性能。Fineweb数据集由超过15T的英文网络数据组成,这些数据经过清洗和去重处理,来源于CommonCrawl。HuggingFace对2013年至2024年间的所有CommonCrawl数据进行了筛选和去重,使得在FineWeb上训练的模型在基准任务组上优于其他常用高质量网络数据集,如RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama。
Fineweb项目的所有处理方法、数据、消融模型和超参数都是开源的,HuggingFace计划持续改进Fineweb。Fineweb最初旨在成为RefinedWeb的完全开放复制品,全套数据集将根据ODC-By 1.0许可证发布。通过谨慎添加额外的过滤步骤,研究人员成功将Fineweb的性能推高到原始RefinedWeb的水平之上。
HuggingFace还提供了自2013年以来的所有CommonCrawl转储数据,以及使用datatrove库完全重现处理设置所需的所有代码。此外,HuggingFace发布了使用nanotron训练的小型消融模型,以验证数据集并与其他参考数据集进行比较。
如何下载和使用FineWeb:
1. 方法1:使用datasets库加载Fineweb数据集。
“`python
from datasets import load_dataset
fw = load_dataset(“HuggingFaceFW/fineweb”, name=”CC-MAIN-2024-10″, split=”train”, streaming=True)
“`
2. 方法2:使用huggingface_hub库下载Fineweb数据集。
“`python
from huggingface_hub import snapshot_download
folder = snapshot_download(
“HuggingFaceFW/fineweb”,
repo_type=”dataset”,
local_dir=”./fineweb/”,
allow_patterns=”data/CC-MAIN-2023-50/*”
)
“`
原文链接: [HuggingFace Fineweb Dataset](https://huggingface.co/datasets/HuggingFaceFW/fineweb)
文章来源
原文地址: 点我阅读全文
原文作者: AIGC最前线