数据集卡片

什么是数据集卡片

数据集卡片（Dataset Card）是数据集的附带文件，是一个带有元数据的Markdown文件，该文件头部的YAML部分包含数据集元数据。数据集卡片涵盖了关键的数据集信息，主要通过渲染数据集仓库中的README.md获得。其有助于帮助用户理解和正确使用数据集，建议您根据规范撰写数据集卡片。

数据集卡片应涵盖哪些信息

数据集卡片应包含如下内容：

数据集名称
数据集概述： 包括数据集的格式和结构、数据来源、数据标注方式等
使用方式： 尽可能提供详细范例和代码说明数据集的使用方式，对数据集运行环境、使用框架等做出介绍和解释
适用场景： 介绍数据集的使用场景、预期用途和潜在的限制
支持的模型： 说明数据集所支持的模型信息

数据集卡片元数据

数据集卡片是由YAML元数据和Markdown文本内容组成。您可以通过编辑README.md文件的头部YAML信息来添加元数据，用“---”进行分隔。Markdown文本展示了数据集信息和相关说明。

您可以参考以下模版撰写您的数据集卡片。

---
# 许可证
license: apache-2.0

# 用户自定义标签
tags:
- image-classification
- customize tags
---

<!--- 以上为YAML格式，提供许可证和任务描述--->

<!--- 以下为markdown格式的数据集描述--->

# 数据集名称

介绍数据集的概要信息

## 数据集详情

### 数据集描述

对数据集进行描述，包括开发者，数据集的语言，许可证说明等内容。

## 用途

### 使用方法

介绍数据集的使用方法

## 数据集结构

介绍数据集的结构信息

## 数据集创建

### 源数据

#### 数据收集和处理

介绍数据收集的过程和处理方法

#### 源数据创建者

介绍源数据的创建者相关的信息

## 风险和局限性

介绍数据集的风险或者限制

### 建议
给用户的建议

已支持的数据集标签

任务（英文）	任务（中文）
text-classification	文本分类
relation-extraction	关系抽取
zero-shot	零样本学习
translation	机器翻译
token-classification	词分类
conversational	智能对话
text-generation	文本生成
table-question-answering	表格问答
sentence-similarity	句子相似度
fill-mask	完形填空
summarization	摘要总结
question-answering	问答
image-to-text	文字识别
image-classification	图像分类
object-detection	通用检测
image-segmentation	图像分割
image-editing	图像编辑
image-generation	图像生成
auto-speech-recognition	语音识别
text-to-speech	语音合成
speech-signal-process	语音信号处理
keyword-spotting	语音唤醒
audio-classification	音频分类
voice-activity-detection	语音端点检测
object-tracking	目标追踪
autonomous-driving	自动驾驶
video-generation	视频生成
video-super-resolution	视频超分辨率
video-segmentation	视频分割
image-captioning	图像描述
visual-grounding	视觉定位
text-to-image	文本生成图片
feature-extraction	特征抽取
biomedicine	生物医学
protein-structure	蛋白质结构生成

数据集卡片

什么是数据集卡片​

数据集卡片应涵盖哪些信息​

数据集卡片元数据​

已支持的数据集标签​

什么是数据集卡片

数据集卡片应涵盖哪些信息

数据集卡片元数据

已支持的数据集标签