dataset-sources-and-licensing.md 3.16 KB

Raw Blame History Permalink



Dataset Sources and Licensing


更新：2026-06-02


一页结论


当前优先目标改为：个人使用下充分利用开源数据集

外部数据集接入现在不仅要能 bootstrap，还要能真实切成 train/eval manifests
当前建议优先级：


FMA
MTG-Jamendo
CCMusic（审批/核验后）
ModelScope music datasets（白名单后）


ModelScope 与 CCMusic 当前都不能默认直接进入商用训练


对个人使用的直接建议：


FMA / MTG-Jamendo：优先转成训练与评估资产
CCMusic / ModelScope：优先当补充评估或探索来源
保留 license 注记，但不再把“商用阻塞”作为个人实验主阻塞


推荐先读：


开放数据工作流


建议接入顺序：


下载/准备 FMA 或 MTG-Jamendo 的本地音频目录
运行 acr-engine/src/data/external_adapters.py inspect-local 或 inspect-batch

再运行 acr-engine/src/data/external_adapters.py prepare-local

生成 catalog.json / train.json / test.json / val.json

将 train.json 用于训练，将 test.json 用于固定评估


1. 来源分层图

flowchart TD
    A[Candidate Datasets] --> B[Open / MIR Baselines]
    A --> C[Chinese / Regional Sources]
    A --> D[Discovery Surfaces]

    B --> B1[FMA]
    B --> B2[MTG-Jamendo]
    C --> C1[CCMusic]
    D --> D1[ModelScope music datasets]


2. 数据源表


数据源
角色
风险
当前策略


FMA
首批真实 baseline
track license 需核验
review_required


MTG-Jamendo
retrieval/tagging corpus
CC 细则需核验
review_required


CCMusic
中文 MIR 资源
可能需申请/存在限制
review_required


ModelScope music
数据发现入口
license 分散
deny_until_whitelisted


3. 白名单流程图

flowchart LR
    A[发现数据集] --> B[收集 license / terms]
    B --> C[法律/合规审查]
    C --> D{可商用?}
    D -- 是 --> E[加入 whitelist]
    D -- 否 --> F[禁止进入训练]


4. 文字说明


4.1 为什么 ModelScope 只能先当 discovery surface

因为不同数据集来源和条款差异很大，不能因为“在 ModelScope 上”就默认可商用。


4.2 为什么 CCMusic 要单独看

它对中文音乐任务很有价值，但部分子集可能涉及申请、协议或非标准商业许可边界。


4.3 为什么 license registry 要和模型版本绑定

这样才能在未来追踪：


某个模型到底用了哪些数据
这些数据是否允许对应商用场景


5. 细节附录

入口链接：


FMA: https://github.com/mdeff/fma

MTG-Jamendo: https://github.com/MTG/mtg-jamendo-dataset

CCMusic: https://ccmusic-database.github.io/en/database/ccm.html

ModelScope search: https://modelscope.cn/search?page=1&search=music&type=dataset


Sources


See references-and-sources.md for the current source map.