Llama3背后的秘密：HuggingFace发布万亿级数据集Fineweb

AI最新资讯3个月前发布 tree

75 0 0

今日应用

精校全本

精校全本网站，提供海量优质图书资源，内容详尽精准，排版清晰美观。致力于为读者带来最佳阅读体验，是书友们的首选阅读平台。

今日话题

Llama3背后的秘密：HuggingFace发布万亿级数据集 Fineweb

重点标签 tag1、HuggingFace、Fineweb、数据集、开源、训练模型

文章摘要

摘要总结：

HuggingFace最近发布了一个名为Fineweb的大规模筛选网络数据集，该数据集在15万亿个公共数据标记上进行训练，旨在优化大型语言模型（LLM）的性能。Fineweb数据集由超过15T的英文网络数据组成，这些数据经过清洗和去重处理，来源于CommonCrawl。HuggingFace对2013年至2024年间的所有CommonCrawl数据进行了筛选和去重，使得在FineWeb上训练的模型在基准任务组上优于其他常用高质量网络数据集，如RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama。

Fineweb项目的所有处理方法、数据、消融模型和超参数都是开源的，HuggingFace计划持续改进Fineweb。Fineweb最初旨在成为RefinedWeb的完全开放复制品，全套数据集将根据ODC-By 1.0许可证发布。通过谨慎添加额外的过滤步骤，研究人员成功将Fineweb的性能推高到原始RefinedWeb的水平之上。

HuggingFace还提供了自2013年以来的所有CommonCrawl转储数据，以及使用datatrove库完全重现处理设置所需的所有代码。此外，HuggingFace发布了使用nanotron训练的小型消融模型，以验证数据集并与其他参考数据集进行比较。

如何下载和使用FineWeb：

1. 方法1：使用datasets库加载Fineweb数据集。
“`python
from datasets import load_dataset
fw = load_dataset(“HuggingFaceFW/fineweb”, name=”CC-MAIN-2024-10″, split=”train”, streaming=True)
“`

2. 方法2：使用huggingface_hub库下载Fineweb数据集。
“`python
from huggingface_hub import snapshot_download
folder = snapshot_download(
“HuggingFaceFW/fineweb”,
repo_type=”dataset”,
local_dir=”./fineweb/”,
allow_patterns=”data/CC-MAIN-2023-50/*”
)
“`

原文链接： [HuggingFace Fineweb Dataset](https://huggingface.co/datasets/HuggingFaceFW/fineweb)

文章来源

原文地址: 点我阅读全文
原文作者: AIGC最前线

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Llama3背后的秘密：HuggingFace发布万亿级数据集Fineweb

今日应用

今日话题

文章摘要

文章来源

小扎自曝愿开源100亿美元模型！2025年AGI没戏，能源短缺成最大瓶颈

FABLES：超长文本自动摘要评估

相关文章

暂无评论

热门网址

热门标签