Date

1 年前

Size

34.77 GB

Organization

Publish URL

source.plus

Paper URL

arxiv.org

Tags

图像分类

Public Domain 12M（简称 PD12M）是由 Spawning 于 2024 年创建的一个大规模图像-文本数据集，它包含了 1240 万张高质量的公共领域及 CC0 许可图片，这些图片搭配了合成字幕，主要用于训练文本到图像的模型。 PD12M 是目前最大的公共领域图像-文本数据集，以其庞大的规模和明确的版权声明，为 AI 模型的训练提供了坚实的基础，同时最小化了版权担忧。相关论文成果为「Public Domain 12M: A Highly Aesthetic Image-Text Dataset with Novel Governance Mechanisms」。

PD12M 的数据来源包括画廊、图书馆、档案馆、博物馆 (GLAM) 以及 Wikimedia Commons 等，通过精心筛选和治理，确保了数据的质量和安全性。数据集的构建过程涵盖了从图像收集、版权验证、图像下载、内容过滤到字幕生成等多个步骤。 PD12M 还通过 Source.Plus 平台引入了社区驱动的数据治理机制，以支持数据集的持续改进和维护。

此外，PD12M 的应用领域广泛，主要用于训练和评估文本到图像生成模型，旨在推动计算机视觉和自然语言处理领域的发展。该数据集不仅为 AI 领域提供了丰富的训练资源，也为负责任的 AI 实践提供了范例，促进了公共 AI 资源的保护和利用