HyperAIHyperAI

Command Palette

Search for a command to run...

PD12M 大规模图像-文本数据集

Date

1 年前

Size

34.77 GB

Organization

Publish URL

source.plus

Paper URL

arxiv.org

Public Domain 12M(简称 PD12M)是由 Spawning 于 2024 年创建的一个大规模图像-文本数据集,它包含了 1240 万张高质量的公共领域及 CC0 许可图片,这些图片搭配了合成字幕,主要用于训练文本到图像的模型。 PD12M 是目前最大的公共领域图像-文本数据集,以其庞大的规模和明确的版权声明,为 AI 模型的训练提供了坚实的基础,同时最小化了版权担忧。相关论文成果为「Public Domain 12M: A Highly Aesthetic Image-Text Dataset with Novel Governance Mechanisms」。

PD12M 的数据来源包括画廊、图书馆、档案馆、博物馆 (GLAM) 以及 Wikimedia Commons 等,通过精心筛选和治理,确保了数据的质量和安全性。数据集的构建过程涵盖了从图像收集、版权验证、图像下载、内容过滤到字幕生成等多个步骤。 PD12M 还通过 Source.Plus 平台引入了社区驱动的数据治理机制,以支持数据集的持续改进和维护。

此外,PD12M 的应用领域广泛,主要用于训练和评估文本到图像生成模型,旨在推动计算机视觉和自然语言处理领域的发展。该数据集不仅为 AI 领域提供了丰富的训练资源,也为负责任的 AI 实践提供了范例,促进了公共 AI 资源的保护和利用

PD12M.torrent
Seeding 1Downloading 0Completed 162Total Downloads 241
  • PD12M/
    • README.md
      2.02 KB
    • README.txt
      4.05 KB
      • data/
        • PD12M.zip
          34.77 GB

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供