dataset-sources-and-licensing.md
1.39 KB
Dataset Sources and Licensing Notes
更新:2026-06-02
注意
以下仅为工程接入与研究规划说明,不等于法律意见。实际商用前需要逐条复核原始 license、dataset terms 和再训练约束。
候选数据源
1. FMA
- URL: https://github.com/mdeff/fma
- 特点: 开放、MIR 常用、适合 retrieval baseline
- 风险: 音频 license 按 artist/track 可能不同,需逐条核验
2. MTG-Jamendo
- URL: https://github.com/MTG/mtg-jamendo-dataset
- 特点: Creative Commons 来源,适合音乐检索/标签任务
- 风险: 仍需按具体曲目用途与商业场景做 license 审查
3. CCMusic
- 论文/介绍: https://transactions.ismir.net/articles/10.5334/tismir.194
- 主页: https://ccmusic-database.github.io/en/database/ccm.html
- 特点: 中国音乐 MIR 数据资源丰富
- 风险: 部分数据集可能需要申请或存在使用边界,必须单独核验
4. ModelScope music datasets
- 入口: https://www.modelscope.cn/datasets
- 搜索: https://modelscope.cn/search?page=1&search=music&type=dataset
- 特点: 数据发现方便,可扩充中文生态
- 风险: license 分散,不能默认可商用;接入前必须建立白名单
接入原则
- 只接入 license 明确的数据集
- 默认拒绝“来源不明 / 不允许商业使用 / 禁止训练衍生模型”的数据
- 训练前把数据集及许可信息落盘到 registry