dataset-sources-and-licensing.md
3.16 KB
Dataset Sources and Licensing
更新:2026-06-02
一页结论
- 当前优先目标改为:个人使用下充分利用开源数据集
- 外部数据集接入现在不仅要能 bootstrap,还要能真实切成 train/eval manifests
- 当前建议优先级:
- FMA
- MTG-Jamendo
- CCMusic(审批/核验后)
- ModelScope music datasets(白名单后)
- ModelScope 与 CCMusic 当前都不能默认直接进入商用训练
对个人使用的直接建议:
- FMA / MTG-Jamendo:优先转成训练与评估资产
- CCMusic / ModelScope:优先当补充评估或探索来源
- 保留 license 注记,但不再把“商用阻塞”作为个人实验主阻塞
推荐先读:
建议接入顺序:
- 下载/准备 FMA 或 MTG-Jamendo 的本地音频目录
- 运行 acr-engine/src/data/external_adapters.py
inspect-local或inspect-batch - 再运行 acr-engine/src/data/external_adapters.py
prepare-local - 生成 catalog.json / train.json / test.json / val.json
- 将 train.json 用于训练,将 test.json 用于固定评估
1. 来源分层图
flowchart TD
A[Candidate Datasets] --> B[Open / MIR Baselines]
A --> C[Chinese / Regional Sources]
A --> D[Discovery Surfaces]
B --> B1[FMA]
B --> B2[MTG-Jamendo]
C --> C1[CCMusic]
D --> D1[ModelScope music datasets]
2. 数据源表
| 数据源 | 角色 | 风险 | 当前策略 |
|---|---|---|---|
| FMA | 首批真实 baseline | track license 需核验 | review_required |
| MTG-Jamendo | retrieval/tagging corpus | CC 细则需核验 | review_required |
| CCMusic | 中文 MIR 资源 | 可能需申请/存在限制 | review_required |
| ModelScope music | 数据发现入口 | license 分散 | deny_until_whitelisted |
3. 白名单流程图
flowchart LR
A[发现数据集] --> B[收集 license / terms]
B --> C[法律/合规审查]
C --> D{可商用?}
D -- 是 --> E[加入 whitelist]
D -- 否 --> F[禁止进入训练]
4. 文字说明
4.1 为什么 ModelScope 只能先当 discovery surface
因为不同数据集来源和条款差异很大,不能因为“在 ModelScope 上”就默认可商用。
4.2 为什么 CCMusic 要单独看
它对中文音乐任务很有价值,但部分子集可能涉及申请、协议或非标准商业许可边界。
4.3 为什么 license registry 要和模型版本绑定
这样才能在未来追踪:
- 某个模型到底用了哪些数据
- 这些数据是否允许对应商用场景
5. 细节附录
入口链接:
- FMA: https://github.com/mdeff/fma
- MTG-Jamendo: https://github.com/MTG/mtg-jamendo-dataset
- CCMusic: https://ccmusic-database.github.io/en/database/ccm.html
- ModelScope search: https://modelscope.cn/search?page=1&search=music&type=dataset
Sources
- See references-and-sources.md for the current source map.