sota-research-2026.md 4.73 KB

ACR / Music Retrieval SOTA Research (截至 2026-06-02)

结论摘要

到 2025-2026,这个方向相比传统“从零训练一个小型 ECAPA embedding”已经明显前进了。

当前更强的方向主要有三类:

  1. Neural Audio Fingerprinting 的鲁棒训练增强
  2. Music Foundation Model 作为 backbone / teacher
  3. Band-split / band-aware 结构用于音乐频谱建模

1. Neural AFP 的更强实践

Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification (2025)

关键信息:

  • 指出很多 neural AFP 工作对真实退化模拟不够真实
  • 系统比较 metric learning 方法
  • 发现自监督 triplet loss 变体在该任务中更优
  • 强调多个 positive samples 对不同 loss 的影响不同

对本项目的启发:

  • 不应只依赖当前简单 SupCon + CE
  • 应增加更真实的退化增强
  • 应明确做 retrieval 指标选择,而非只看分类头

2. Music Foundation Model Backbones

Robust Neural Audio Fingerprinting using Music Foundation Models (2025)

关键信息:

  • 使用预训练 music foundation model(例如 MuQ、MERT)作为 neural fingerprinting backbone
  • 在 distorted / compressed / manipulated 音频条件下优于从零训练模型
  • 还能更好做 segment-level localization

MERT (2023)

关键信息:

  • 大规模自监督 music understanding 模型
  • 在多个 music understanding 任务上达到强表现

MuQ (2025)

关键信息:

  • 面向音乐的自监督表征学习模型
  • 使用 Mel-RVQ 目标
  • 在多种下游任务上优于更早工作

对本项目的启发:

  • 2026 继续只用小模型从零训,不太可能是最佳路线
  • 更合理路线:
    • 当前仓库保留轻量自训 baseline
    • 下一阶段增加 MERT / MuQ frozen encoder 或 adapter fine-tune 版本

3. Band-split / band-aware 结构

Music Source Separation with Band-split RNN (2022)

关键信息:

  • 显式把频谱切成多个频带再建模
  • 对音乐任务优于直接照搬通用音频结构

虽然该文主要做 source separation,不是 ACR,但它对“音乐频带先验”很有启发。

对本项目的启发:

  • 输入层加入 band-split 是合理工程方向
  • 未来可继续发展成:
    • band-aware attention
    • multi-band retrieval heads
    • harmonic/rhythm 双塔结构

4. 数据平衡与生成增强

BAGAN: Data Augmentation with Balancing GAN (2018)

严格说你提到的 pro-WGAN 我这次没有找到一个明确、权威、在该任务里广泛标准化的同名主文献;当前更接近、且有明确权威来源的是 BAGAN / balancing GAN 这一类面向不平衡数据增强的方法。

因此本次实现里我采用的是:

  • pro-WGAN 风格的工程近似平衡策略
  • 不是声称已经复现某篇明确的 pro-WGAN SOTA 论文

如果你之后指定了准确论文或仓库,我可以按那一版精确对齐实现。

5. 2026 年是否已经有更好的方案?

有,结论是:有明显更好的路线

最值得参考的是:

  1. music foundation model 做 backbone
  2. 更真实退化模拟 + retrieval-first metric learning
  3. segment-level / window-level indexing,而不是整曲平均 embedding
  4. 对哼唱任务增加 melody/pitch contour 专门支路

6. 对本项目的建议排序

当前阶段(已开始)

  • 128 Mel 替换低维说话人风格输入
  • band-split 输入层
  • 更强混淆增强
  • retrieval-first 评测

下一阶段

  • MERT / MuQ frozen feature baseline
  • triplet / multi-positive metric learning 对比 SupCon
  • window-level index aggregation
  • FMA / Jamendo 小规模真实数据验证

更后阶段

  • humming 专门 melody tower
  • foundation model + lightweight fingerprint head
  • ANN + reranker 两阶段工业化检索

Sources