sota-research-2026.md
6.45 KB
ACR / Music Retrieval SOTA Research (截至 2026-06-02)
结论摘要
到 2025-2026,这个方向相比传统“从零训练一个小型 ECAPA embedding”已经明显前进了。
当前更强的方向主要有三类:
- Neural Audio Fingerprinting 的鲁棒训练增强
- Music Foundation Model 作为 backbone / teacher
- Band-split / band-aware 结构用于音乐频谱建模
对本项目当前阶段的直接结论:
- 仅靠样本重复或统一加权不是 SOTA 思路
- 更接近 2026 工业最佳实践的是:retrieval-first + hard negative mining + foundation model backbone + 任务专门支路
- 我们当前仓库已经走到其中两步:
128 Mel + band-split、retrieval-first eval - 下一步最该补的是:
confusion-aware negatives与humming melody tower
1. 方向图
flowchart LR
A[2026 ACR / MIR SOTA] --> B[Neural AFP Robustness]
A --> C[Music Foundation Models]
A --> D[Band-aware Architectures]
A --> E[Data Balancing / Hard Negatives]
1. Neural AFP 的更强实践
Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification (2025)
关键信息:
- 指出很多 neural AFP 工作对真实退化模拟不够真实
- 系统比较 metric learning 方法
- 发现自监督 triplet loss 变体在该任务中更优
- 强调多个 positive samples 对不同 loss 的影响不同
对本项目的启发:
- 不应只依赖当前简单 SupCon + CE
- 应增加更真实的退化增强
- 应明确做 retrieval 指标选择,而非只看分类头
2. Music Foundation Model Backbones
Robust Neural Audio Fingerprinting using Music Foundation Models (2025)
关键信息:
- 使用预训练 music foundation model(例如 MuQ、MERT)作为 neural fingerprinting backbone
- 在 distorted / compressed / manipulated 音频条件下优于从零训练模型
- 还能更好做 segment-level localization
MERT (2023)
关键信息:
- 大规模自监督 music understanding 模型
- 在多个 music understanding 任务上达到强表现
MuQ (2025)
关键信息:
- 面向音乐的自监督表征学习模型
- 使用 Mel-RVQ 目标
- 在多种下游任务上优于更早工作
对本项目的启发:
- 2026 继续只用小模型从零训,不太可能是最佳路线
- 更合理路线:
- 当前仓库保留轻量自训 baseline
- 下一阶段增加 MERT / MuQ frozen encoder 或 adapter fine-tune 版本
3. Band-split / band-aware 结构
Music Source Separation with Band-split RNN (2022)
关键信息:
- 显式把频谱切成多个频带再建模
- 对音乐任务优于直接照搬通用音频结构
虽然该文主要做 source separation,不是 ACR,但它对“音乐频带先验”很有启发。
对本项目的启发:
- 输入层加入 band-split 是合理工程方向
- 未来可继续发展成:
- band-aware attention
- multi-band retrieval heads
- harmonic/rhythm 双塔结构
4. 数据平衡与生成增强
BAGAN: Data Augmentation with Balancing GAN (2018)
严格说你提到的 pro-WGAN 我这次没有找到一个明确、权威、在该任务里广泛标准化的同名主文献;当前更接近、且有明确权威来源的是 BAGAN / balancing GAN 这一类面向不平衡数据增强的方法。
因此本次实现里我采用的是:
- pro-WGAN 风格的工程近似平衡策略
- 不是声称已经复现某篇明确的
pro-WGANSOTA 论文
如果你之后指定了准确论文或仓库,我可以按那一版精确对齐实现。
对当前实验结果的解释
| 策略 | overall top1 | humming_like top1 | confused top1 | 结论 |
|---|---|---|---|---|
| naive oversampling (smoke-v4) | 0.40 | 0.00 | 0.00 | 明显退化 |
| type-aware weighting (smoke-v5) | 0.60 | 0.50 | 0.00 | 改善 humming,但 confused 无突破 |
| sample-level confused-priority weighting (smoke-v6) | 0.65 | 0.25 | 0.25 | confused 突破,但需要重新平衡 humming |
这说明:
- 2026 年这个方向里,“难例重要”是对的
- 但 单维度加权还不够,需要把不同 hard case 分开建模
- 对音乐 ACR 来说,
confused与humming_like不是同一种难度来源:-
confused更偏 timbre / arrangement / retrieval ambiguity -
humming_like更偏 melody / pitch contour mismatch
-
- 当前仓库里的 residual confused failure 进一步显示:
-
intro片段是更高风险区域 - 下一步应引入
segment_type-aware hard negatives - 这比继续全局调 sample ratio 更接近工业有效路径
-
5. 2026 年是否已经有更好的方案?
有,结论是:有明显更好的路线。
最值得参考的是:
- 用 music foundation model 做 backbone
- 用 更真实退化模拟 + retrieval-first metric learning
- 用 segment-level / window-level indexing,而不是整曲平均 embedding
- 对哼唱任务增加 melody/pitch contour 专门支路
6. 对本项目的建议排序
当前阶段(已开始)
- 128 Mel 替换低维说话人风格输入
- band-split 输入层
- 更强混淆增强
- retrieval-first 评测
下一阶段
- MERT / MuQ frozen feature baseline
- triplet / multi-positive metric learning 对比 SupCon
- window-level index aggregation
- FMA / Jamendo 小规模真实数据验证
- confusion-aware negative mining
- humming 专门旋律支路 / pitch contour rerank
更后阶段
- humming 专门 melody tower
- foundation model + lightweight fingerprint head
- ANN + reranker 两阶段工业化检索
Sources
- Araz et al., 2025, Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification: https://arxiv.org/abs/2506.22661
- Singh et al., 2025, Robust Neural Audio Fingerprinting using Music Foundation Models: https://arxiv.org/abs/2511.05399
- Li et al., 2023, MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training: https://arxiv.org/abs/2306.00107
- Zhu et al., 2025, MuQ: Self-Supervised Music Representation Learning with Mel Residual Vector Quantization: https://arxiv.org/abs/2501.01108
- Luo & Yu, 2022, Music Source Separation with Band-split RNN: https://arxiv.org/abs/2209.15174
- Mariani et al., 2018, BAGAN: Data Augmentation with Balancing GAN: https://arxiv.org/abs/1803.09655