dataset-sources-and-licensing.md 3.16 KB

Dataset Sources and Licensing

更新:2026-06-02

一页结论

  • 当前优先目标改为:个人使用下充分利用开源数据集
  • 外部数据集接入现在不仅要能 bootstrap,还要能真实切成 train/eval manifests
  • 当前建议优先级:
    1. FMA
    2. MTG-Jamendo
    3. CCMusic(审批/核验后)
    4. ModelScope music datasets(白名单后)
  • ModelScope 与 CCMusic 当前都不能默认直接进入商用训练

对个人使用的直接建议:

  • FMA / MTG-Jamendo:优先转成训练与评估资产
  • CCMusic / ModelScope:优先当补充评估或探索来源
  • 保留 license 注记,但不再把“商用阻塞”作为个人实验主阻塞

推荐先读:

建议接入顺序:

  1. 下载/准备 FMA 或 MTG-Jamendo 的本地音频目录
  2. 运行 acr-engine/src/data/external_adapters.py inspect-localinspect-batch
  3. 再运行 acr-engine/src/data/external_adapters.py prepare-local
  4. 生成 catalog.json / train.json / test.json / val.json
  5. train.json 用于训练,将 test.json 用于固定评估

1. 来源分层图

flowchart TD
    A[Candidate Datasets] --> B[Open / MIR Baselines]
    A --> C[Chinese / Regional Sources]
    A --> D[Discovery Surfaces]

    B --> B1[FMA]
    B --> B2[MTG-Jamendo]
    C --> C1[CCMusic]
    D --> D1[ModelScope music datasets]

2. 数据源表

数据源 角色 风险 当前策略
FMA 首批真实 baseline track license 需核验 review_required
MTG-Jamendo retrieval/tagging corpus CC 细则需核验 review_required
CCMusic 中文 MIR 资源 可能需申请/存在限制 review_required
ModelScope music 数据发现入口 license 分散 deny_until_whitelisted

3. 白名单流程图

flowchart LR
    A[发现数据集] --> B[收集 license / terms]
    B --> C[法律/合规审查]
    C --> D{可商用?}
    D -- 是 --> E[加入 whitelist]
    D -- 否 --> F[禁止进入训练]

4. 文字说明

4.1 为什么 ModelScope 只能先当 discovery surface

因为不同数据集来源和条款差异很大,不能因为“在 ModelScope 上”就默认可商用。

4.2 为什么 CCMusic 要单独看

它对中文音乐任务很有价值,但部分子集可能涉及申请、协议或非标准商业许可边界。

4.3 为什么 license registry 要和模型版本绑定

这样才能在未来追踪:

  • 某个模型到底用了哪些数据
  • 这些数据是否允许对应商用场景

5. 细节附录

入口链接:

Sources