sota-research-2026.md 6.21 KB

ACR / Music Retrieval SOTA Research (截至 2026-06-02)

结论摘要

到 2025-2026,这个方向相比传统“从零训练一个小型 ECAPA embedding”已经明显前进了。

当前更强的方向主要有三类:

  1. Neural Audio Fingerprinting 的鲁棒训练增强
  2. Music Foundation Model 作为 backbone / teacher
  3. Band-split / band-aware 结构用于音乐频谱建模

对本项目当前阶段的直接结论:

  • 仅靠样本重复或统一加权不是 SOTA 思路
  • 更接近 2026 工业最佳实践的是:retrieval-first + hard negative mining + foundation model backbone + 任务专门支路
  • 我们当前仓库已经走到其中两步:128 Mel + band-splitretrieval-first eval
  • 下一步最该补的是:confusion-aware negativeshumming melody tower

1. 方向图

flowchart LR
    A[2026 ACR / MIR SOTA] --> B[Neural AFP Robustness]
    A --> C[Music Foundation Models]
    A --> D[Band-aware Architectures]
    A --> E[Data Balancing / Hard Negatives]

1. Neural AFP 的更强实践

Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification (2025)

关键信息:

  • 指出很多 neural AFP 工作对真实退化模拟不够真实
  • 系统比较 metric learning 方法
  • 发现自监督 triplet loss 变体在该任务中更优
  • 强调多个 positive samples 对不同 loss 的影响不同

对本项目的启发:

  • 不应只依赖当前简单 SupCon + CE
  • 应增加更真实的退化增强
  • 应明确做 retrieval 指标选择,而非只看分类头

2. Music Foundation Model Backbones

Robust Neural Audio Fingerprinting using Music Foundation Models (2025)

关键信息:

  • 使用预训练 music foundation model(例如 MuQ、MERT)作为 neural fingerprinting backbone
  • 在 distorted / compressed / manipulated 音频条件下优于从零训练模型
  • 还能更好做 segment-level localization

MERT (2023)

关键信息:

  • 大规模自监督 music understanding 模型
  • 在多个 music understanding 任务上达到强表现

MuQ (2025)

关键信息:

  • 面向音乐的自监督表征学习模型
  • 使用 Mel-RVQ 目标
  • 在多种下游任务上优于更早工作

对本项目的启发:

  • 2026 继续只用小模型从零训,不太可能是最佳路线
  • 更合理路线:
    • 当前仓库保留轻量自训 baseline
    • 下一阶段增加 MERT / MuQ frozen encoder 或 adapter fine-tune 版本

3. Band-split / band-aware 结构

Music Source Separation with Band-split RNN (2022)

关键信息:

  • 显式把频谱切成多个频带再建模
  • 对音乐任务优于直接照搬通用音频结构

虽然该文主要做 source separation,不是 ACR,但它对“音乐频带先验”很有启发。

对本项目的启发:

  • 输入层加入 band-split 是合理工程方向
  • 未来可继续发展成:
    • band-aware attention
    • multi-band retrieval heads
    • harmonic/rhythm 双塔结构

4. 数据平衡与生成增强

BAGAN: Data Augmentation with Balancing GAN (2018)

严格说你提到的 pro-WGAN 我这次没有找到一个明确、权威、在该任务里广泛标准化的同名主文献;当前更接近、且有明确权威来源的是 BAGAN / balancing GAN 这一类面向不平衡数据增强的方法。

因此本次实现里我采用的是:

  • pro-WGAN 风格的工程近似平衡策略
  • 不是声称已经复现某篇明确的 pro-WGAN SOTA 论文

如果你之后指定了准确论文或仓库,我可以按那一版精确对齐实现。

对当前实验结果的解释

策略 overall top1 humming_like top1 confused top1 结论
naive oversampling (smoke-v4) 0.40 0.00 0.00 明显退化
type-aware weighting (smoke-v5) 0.60 0.50 0.00 改善 humming,但 confused 无突破
sample-level confused-priority weighting (smoke-v6) 0.65 0.25 0.25 confused 突破,但需要重新平衡 humming

这说明:

  1. 2026 年这个方向里,“难例重要”是对的
  2. 单维度加权还不够,需要把不同 hard case 分开建模
  3. 对音乐 ACR 来说,confusedhumming_like 不是同一种难度来源:
    • confused 更偏 timbre / arrangement / retrieval ambiguity
    • humming_like 更偏 melody / pitch contour mismatch

5. 2026 年是否已经有更好的方案?

有,结论是:有明显更好的路线

最值得参考的是:

  1. music foundation model 做 backbone
  2. 更真实退化模拟 + retrieval-first metric learning
  3. segment-level / window-level indexing,而不是整曲平均 embedding
  4. 对哼唱任务增加 melody/pitch contour 专门支路

6. 对本项目的建议排序

当前阶段(已开始)

  • 128 Mel 替换低维说话人风格输入
  • band-split 输入层
  • 更强混淆增强
  • retrieval-first 评测

下一阶段

  • MERT / MuQ frozen feature baseline
  • triplet / multi-positive metric learning 对比 SupCon
  • window-level index aggregation
  • FMA / Jamendo 小规模真实数据验证
  • confusion-aware negative mining
  • humming 专门旋律支路 / pitch contour rerank

更后阶段

  • humming 专门 melody tower
  • foundation model + lightweight fingerprint head
  • ANN + reranker 两阶段工业化检索

Sources