sota-evolution-guide.md
6.19 KB
SOTA 演进方案说明 / SOTA Evolution Guide
更新:2026-06-04
目标:给出一个“先不上微调、先用开源 encoder”的 Phase-1 路线,并明确后续如何演进到更强的版权保护 / 版本归属系统。
一页结论
如果当前约束是:
- 先不微调底座
- 先要落数据规范
- 先解决 100w 音频 / 30w 歌曲的检索与归属基础问题
那么最合理的 Phase-1 路线不是“重训一套新模型”,而是:
- 保留 exact lane:Chromaprint / fingerprint
- semantic lane 主底座:MERT-v1-95M
- semantic lane challenger:MuQ
-
数据库先稳住:
model_registry + feature_set_registry + audio_embedding + retrieval_index_registry - 结果先按层聚合:window -> recording -> work -> canonical_song
1. 为什么当前要走 encoder-only Phase-1
因为你当前最紧迫的问题不是“模型精度极限”,而是:
- 曲库很大:100w 音频 / 30w 歌曲
- 数据关系复杂:同曲可能有多录音、多版本、多来源资产
- 如果数据规范不稳,未来任何模型升级都会反复返工
所以 Phase-1 目标应该是:
flowchart LR
A[冻结数据规范] --> B[接入开源 encoder]
B --> C[建立 semantic baseline]
C --> D[做大规模索引与聚合验证]
D --> E[再决定是否进入微调 / version lane]
2. 推荐的阶段划分
Phase-0:当前仓库阶段(已具备)
Chromaprint + ECAPA + melody rerank- 可跑通训练/建索引/评测/服务闭环
- 适合作为 baseline,而不是最终生产底座
Phase-1:Encoder-only foundation baseline(当前推荐)
- exact lane:Chromaprint
- semantic lane:MERT-v1-95M
- challenger:MuQ
- 不微调底座
- 只做 feature extraction + index + aggregation
Phase-2:Version / Cover lane
- 在 Phase-1 数据模型稳定后
- 引入 cover/version 专门分支
- 强化 work-level 归属
Phase-3:Industrial retrieval stack
- ANN + reranker
- online/offline artifact registry
- 监控、回放、审计、人工复核
3. Phase-1 的推荐模型组合
3.1 Exact lane
选型
- Chromaprint / landmark hash
作用
- 原曲片段
- 平台转码
- near-duplicate
- 局部片段强匹配
为什么保留
版权保护不能只靠 semantic embedding。exact lane 在很多真实投诉/取证场景里仍然是最快且证据最强的第一条路径。
3.2 Semantic lane 主模型:MERT-v1-95M
推荐原因
- 是 music SSL foundation model
- 已有公开论文与实现
- 比自训小型 ECAPA 更符合音乐任务底座定位
- Phase-1 直接做 frozen encoder 成本与风险都更低
Phase-1 中的角色
- 作为主 encoder 产出 window embedding
- 负责 noisy/BGM/一般跨域检索 baseline
- 后面可继续作为 teacher 或兼容旧索引版本
推荐 feature set
mert_v1_95m__window_5s_hop_2.5s__meanpool__l2mert_v1_95m__window_10s_hop_5s__meanpool__l2
为什么先做两套
-
5s/2.5s:更利于局部定位 -
10s/5s:更利于整体语义稳定
3.3 Semantic lane Challenger:MuQ
推荐原因
- 更新、更接近下一代 music foundation model 路线
- 值得作为 challenger baseline
- 即使不开微调,也有希望在部分 MIR 任务上优于较早底座
当前建议
- Phase-1 先作为对照组,不立即替代 MERT
- 重点验证:向量分布稳定性、窗口级检索表现、内存/推理成本
3.4 为什么 Phase-1 不直接以 CoverHunter 为主线
因为 CoverHunter 的优势在:
- cover song identification
- alignment / refined attention / coarse-to-fine 训练
而你当前约束是:
- 先不用微调
- 先用开源 encoder
- 先把数据和检索规范落稳
所以它更适合作为 Phase-2 的 version/cover lane 方向,而不是 Phase-1 的主 baseline。
4. 角色关注点
4.1 模型底座角色
重点关注:
- 哪些 encoder 已注册到
model_registry - 每个 encoder 的 input SR、window、pooling、embedding dim
- 哪些 feature set 是线上候选,哪些只是实验候选
4.2 检索角色
重点关注:
- 指纹 lane 与 semantic lane 如何组合
-
recording/work/song聚合规则 - top-k 候选如何稳定输出
4.3 数据角色
重点关注:
- 资产去重
- reference 资产选择
- window manifest
- 是否支持全量重建特征与索引
4.4 运维 / 平台角色
重点关注:
- encoder 版本切换是否可灰度
- 索引重建是否可并行
- 热/冷索引、历史索引是否可回滚
5. Phase-1 的实施顺序
flowchart TD
A[冻结 PostgreSQL 数据规范] --> B[导入 canonical/work/recording/asset/window]
B --> C[注册 model_registry / feature_set_registry]
C --> D[抽取 MERT 特征]
C --> E[抽取 MuQ 特征]
D --> F[构建 semantic index]
E --> F
F --> G[与 fingerprint lane 做聚合]
G --> H[输出 canonical_song_id / work_id / recording_id]
6. 每阶段解决的问题
| 阶段 | 解决的问题 | 暂不解决的问题 |
|---|---|---|
| Phase-1 | 数据规范、开源底座 baseline、索引可重建、song/work/recording 聚合 | 底座微调、cover 专项训练、melody tower |
| Phase-2 | version/cover 归属、work-level recall | 更复杂跨模态 humming |
| Phase-3 | 工业化服务、回放、监控、人工审核闭环 | 极致 research SOTA |
7. 与当前仓库的关系
当前保留
-
ECAPA baseline:保留做对照,不作为长期主底座 -
Chromaprint:保留,且在版权保护场景里非常重要 -
melody rerank:保留为辅助 lane
当前新增
model_registryfeature_set_registry- foundation encoder 特征抽取与注册
- 更清晰的
canonical_song / work / recording数据结构
8. 当前推荐结论
如果今天就要给 Phase-1 定方案,我建议:
- 先不改训练主线,不删 ECAPA
- 新增 MERT-v1-95M semantic lane
- 新增 MuQ challenger lane
- 只把
is_reference=true的主参考窗口先做成热索引 - 先把 PostgreSQL 设计当成主交付
换句话说:
Phase-1 的核心不是“哪一个模型最终赢”,而是“数据规范 + 模型注册 + 特征注册 + 索引注册”这套长期结构先稳定下来。