跳到主要内容

数据集卡片

什么是数据集卡片

数据集卡片(Dataset Card)是数据集的附带文件,是一个带有元数据的Markdown文件,该文件头部的YAML部分包含数据集元数据。数据集卡片涵盖了关键的数据集信息,主要通过渲染数据集仓库中的README.md获得。其有助于帮助用户理解和正确使用数据集,建议您根据规范撰写数据集卡片。

数据集卡片应涵盖哪些信息

数据集卡片应包含如下内容:

  • 数据集名称
  • 数据集概述: 包括数据集的格式和结构、数据来源、数据标注方式等
  • 使用方式: 尽可能提供详细范例和代码说明数据集的使用方式,对数据集运行环境、使用框架等做出介绍和解释
  • 适用场景: 介绍数据集的使用场景、预期用途和潜在的限制
  • 支持的模型: 说明数据集所支持的模型信息

数据集卡片元数据

数据集卡片是由YAML元数据和Markdown文本内容组成。您可以通过编辑README.md文件的头部YAML信息来添加元数据,用“---”进行分隔。Markdown文本展示了数据集信息和相关说明。

您可以参考以下模版撰写您的数据集卡片。

---
# 许可证
license: apache-2.0

# 用户自定义标签
tags:
- image-classification
- customize tags
---

<!--- 以上为YAML格式,提供许可证和任务描述--->

<!--- 以下为markdown格式的数据集描述--->

# 数据集名称

介绍数据集的概要信息

## 数据集详情

### 数据集描述

对数据集进行描述,包括开发者,数据集的语言,许可证说明等内容。

## 用途

### 使用方法

介绍数据集的使用方法

## 数据集结构

介绍数据集的结构信息

## 数据集创建

### 源数据

#### 数据收集和处理

介绍数据收集的过程和处理方法

#### 源数据创建者

介绍源数据的创建者相关的信息

## 风险和局限性

介绍数据集的风险或者限制

### 建议
给用户的建议

已支持的数据集标签

任务(英文)任务(中文)
text-classification文本分类
relation-extraction关系抽取
zero-shot零样本学习
translation机器翻译
token-classification词分类
conversational智能对话
text-generation文本生成
table-question-answering表格问答
sentence-similarity句子相似度
fill-mask完形填空
summarization摘要总结
question-answering问答
image-to-text文字识别
image-classification图像分类
object-detection通用检测
image-segmentation图像分割
image-editing图像编辑
image-generation图像生成
auto-speech-recognition语音识别
text-to-speech语音合成
speech-signal-process语音信号处理
keyword-spotting语音唤醒
audio-classification音频分类
voice-activity-detection语音端点检测
object-tracking目标追踪
autonomous-driving自动驾驶
video-generation视频生成
video-super-resolution视频超分辨率
video-segmentation视频分割
image-captioning图像描述
visual-grounding视觉定位
text-to-image文本生成图片
feature-extraction特征抽取
biomedicine生物医学
protein-structure蛋白质结构生成