industrialization-roadmap.md 1.79 KB

ACR 工业级可商用演进路线

更新:2026-06-02

1. 目标定义

把当前原型升级为一个可商用的工业级 ACR 系统,满足:

  • 可扩展曲库管理
  • 可重复训练 / 评测 / 部署
  • 多数据源接入(synthetic / FMA / Jamendo / CCMusic / ModelScope)
  • 更强鲁棒性(噪声、失真、哼唱、混淆)
  • 检索服务化
  • 商用合规与授权边界可审计

2. 工业级分层

2.1 数据层

  • catalog.json / query manifests
  • 外部 dataset adapters
  • license / usage tracking
  • 数据版本与快照

2.2 训练层

  • baseline encoder
  • foundation-model encoder
  • retrieval-first losses
  • hard negative mining
  • 数据平衡与生成增强

2.3 索引层

  • window-level embeddings
  • ANN index (Faiss/HNSW)
  • 指纹索引与向量索引双路
  • 增量入库

2.4 服务层

  • FastAPI / gRPC
  • batch ingest
  • recognize API
  • top-k candidate + rejection
  • metadata lookup

2.5 质量层

  • regression benchmark
  • hard-case benchmark
  • online shadow evaluation
  • 数据/模型回滚机制

3. 数据集策略

第一梯队(优先)

  • FMA small / medium
  • MTG-Jamendo
  • CCMusic(需核验申请/授权方式)
  • ModelScope music datasets(按 license 白名单接入)

第二梯队

  • humming / QBSH 数据集
  • instrument / structure / singing datasets 作为辅助监督

4. 商用必做项

  • 每个 dataset 记录:
    • 来源 URL
    • license
    • 是否允许商业使用
    • 再分发限制
    • 模型训练用途限制
  • 每个模型版本记录训练数据组成
  • 每次上线保留评测报告与可追溯哈希

5. 当前到工业化的缺口

  • 缺 dataset adapter 层
  • 缺 ANN 检索
  • 缺 API 服务
  • 缺 license registry
  • 缺 foundation-model baseline
  • 缺真正的 hard-negative mining
  • 缺真实开源数据 benchmark