sota-evolution-guide.md 6.19 KB

SOTA 演进方案说明 / SOTA Evolution Guide

更新:2026-06-04
目标:给出一个“先不上微调、先用开源 encoder”的 Phase-1 路线,并明确后续如何演进到更强的版权保护 / 版本归属系统。

一页结论

如果当前约束是:

  • 先不微调底座
  • 先要落数据规范
  • 先解决 100w 音频 / 30w 歌曲的检索与归属基础问题

那么最合理的 Phase-1 路线不是“重训一套新模型”,而是:

  1. 保留 exact lane:Chromaprint / fingerprint
  2. semantic lane 主底座:MERT-v1-95M
  3. semantic lane challenger:MuQ
  4. 数据库先稳住model_registry + feature_set_registry + audio_embedding + retrieval_index_registry
  5. 结果先按层聚合:window -> recording -> work -> canonical_song

1. 为什么当前要走 encoder-only Phase-1

因为你当前最紧迫的问题不是“模型精度极限”,而是:

  • 曲库很大:100w 音频 / 30w 歌曲
  • 数据关系复杂:同曲可能有多录音、多版本、多来源资产
  • 如果数据规范不稳,未来任何模型升级都会反复返工

所以 Phase-1 目标应该是:

flowchart LR
    A[冻结数据规范] --> B[接入开源 encoder]
    B --> C[建立 semantic baseline]
    C --> D[做大规模索引与聚合验证]
    D --> E[再决定是否进入微调 / version lane]

2. 推荐的阶段划分

Phase-0:当前仓库阶段(已具备)

  • Chromaprint + ECAPA + melody rerank
  • 可跑通训练/建索引/评测/服务闭环
  • 适合作为 baseline,而不是最终生产底座

Phase-1:Encoder-only foundation baseline(当前推荐)

  • exact lane:Chromaprint
  • semantic lane:MERT-v1-95M
  • challenger:MuQ
  • 不微调底座
  • 只做 feature extraction + index + aggregation

Phase-2:Version / Cover lane

  • 在 Phase-1 数据模型稳定后
  • 引入 cover/version 专门分支
  • 强化 work-level 归属

Phase-3:Industrial retrieval stack

  • ANN + reranker
  • online/offline artifact registry
  • 监控、回放、审计、人工复核

3. Phase-1 的推荐模型组合

3.1 Exact lane

选型

  • Chromaprint / landmark hash

作用

  • 原曲片段
  • 平台转码
  • near-duplicate
  • 局部片段强匹配

为什么保留

版权保护不能只靠 semantic embedding。exact lane 在很多真实投诉/取证场景里仍然是最快且证据最强的第一条路径。


3.2 Semantic lane 主模型:MERT-v1-95M

推荐原因

  • 是 music SSL foundation model
  • 已有公开论文与实现
  • 比自训小型 ECAPA 更符合音乐任务底座定位
  • Phase-1 直接做 frozen encoder 成本与风险都更低

Phase-1 中的角色

  • 作为主 encoder 产出 window embedding
  • 负责 noisy/BGM/一般跨域检索 baseline
  • 后面可继续作为 teacher 或兼容旧索引版本

推荐 feature set

  1. mert_v1_95m__window_5s_hop_2.5s__meanpool__l2
  2. mert_v1_95m__window_10s_hop_5s__meanpool__l2

为什么先做两套

  • 5s/2.5s:更利于局部定位
  • 10s/5s:更利于整体语义稳定

3.3 Semantic lane Challenger:MuQ

推荐原因

  • 更新、更接近下一代 music foundation model 路线
  • 值得作为 challenger baseline
  • 即使不开微调,也有希望在部分 MIR 任务上优于较早底座

当前建议

  • Phase-1 先作为对照组,不立即替代 MERT
  • 重点验证:向量分布稳定性、窗口级检索表现、内存/推理成本

3.4 为什么 Phase-1 不直接以 CoverHunter 为主线

因为 CoverHunter 的优势在:

  • cover song identification
  • alignment / refined attention / coarse-to-fine 训练

而你当前约束是:

  • 先不用微调
  • 先用开源 encoder
  • 先把数据和检索规范落稳

所以它更适合作为 Phase-2 的 version/cover lane 方向,而不是 Phase-1 的主 baseline。


4. 角色关注点

4.1 模型底座角色

重点关注:

  • 哪些 encoder 已注册到 model_registry
  • 每个 encoder 的 input SR、window、pooling、embedding dim
  • 哪些 feature set 是线上候选,哪些只是实验候选

4.2 检索角色

重点关注:

  • 指纹 lane 与 semantic lane 如何组合
  • recording/work/song 聚合规则
  • top-k 候选如何稳定输出

4.3 数据角色

重点关注:

  • 资产去重
  • reference 资产选择
  • window manifest
  • 是否支持全量重建特征与索引

4.4 运维 / 平台角色

重点关注:

  • encoder 版本切换是否可灰度
  • 索引重建是否可并行
  • 热/冷索引、历史索引是否可回滚

5. Phase-1 的实施顺序

flowchart TD
    A[冻结 PostgreSQL 数据规范] --> B[导入 canonical/work/recording/asset/window]
    B --> C[注册 model_registry / feature_set_registry]
    C --> D[抽取 MERT 特征]
    C --> E[抽取 MuQ 特征]
    D --> F[构建 semantic index]
    E --> F
    F --> G[与 fingerprint lane 做聚合]
    G --> H[输出 canonical_song_id / work_id / recording_id]

6. 每阶段解决的问题

阶段 解决的问题 暂不解决的问题
Phase-1 数据规范、开源底座 baseline、索引可重建、song/work/recording 聚合 底座微调、cover 专项训练、melody tower
Phase-2 version/cover 归属、work-level recall 更复杂跨模态 humming
Phase-3 工业化服务、回放、监控、人工审核闭环 极致 research SOTA

7. 与当前仓库的关系

当前保留

  • ECAPA baseline:保留做对照,不作为长期主底座
  • Chromaprint:保留,且在版权保护场景里非常重要
  • melody rerank:保留为辅助 lane

当前新增

  • model_registry
  • feature_set_registry
  • foundation encoder 特征抽取与注册
  • 更清晰的 canonical_song / work / recording 数据结构

8. 当前推荐结论

如果今天就要给 Phase-1 定方案,我建议:

  1. 先不改训练主线,不删 ECAPA
  2. 新增 MERT-v1-95M semantic lane
  3. 新增 MuQ challenger lane
  4. 只把 is_reference=true 的主参考窗口先做成热索引
  5. 先把 PostgreSQL 设计当成主交付

换句话说:

Phase-1 的核心不是“哪一个模型最终赢”,而是“数据规范 + 模型注册 + 特征注册 + 索引注册”这套长期结构先稳定下来。