changelist-2026-06-02.md 6.93 KB

Raw Blame History Permalink



Changelist / 2026-06-02


本次交付目标

在不等待长时间 benchmark 完成的前提下，交付一套足够完整的续跑文档，让新 session 能立刻知道：


已完成什么
正在卡在哪里
下一步跑什么
哪些文件能提，哪些不能提


文件级变更


文件
变更说明


../AGENT.md
新增开发偏好与续跑记忆


./session-handoff.md
增补当前卡点、待办与续跑命令


./delivery-handoff-2026-06-02.md
新增快速接管摘要


./CHANGELOG.md
记录本次交付检查点


不在本次提交中的内容


FMA / MTG-Jamendo 原始数据

data/external_smoke 中的音频与模型产物

/tmp benchmark 输出
__pycache__
checkpoint / index 目录


当前运行中的任务


cap48 top2 seed=999
启动命令：


cd /workspace/acr-engine
/usr/local/miniconda3/bin/python scripts/ab_smoke_segmentation.py \
  --dataset fma \
  --input-dir data/raw/fma_small_audio \
  --work-root /tmp/ab_smoke_seg_cap48_top2_seed999 \
  --subset-size 48 \
  --query-duration 8 \
  --train-epochs 1 \
  --batch-size 2 \
  --device cpu \
  --strategies hybrid high_energy \
  --max-test-queries 24 \
  --seed 999 \
  --output-json /tmp/ab_smoke_seg_cap48_top2_seed999/report.json


下一步建议


检查 seed=999 是否完成。
生成 3-seed aggregate。
回写 workflow / handoff / changelog。
提交推送。
再开启 cap64 或 bucket benchmark。


本次追加证据


已确认 cap48 top2 seed=999 未卡在 build-index。

hybrid 已完成 reference index，随后进入 evaluate.py。
本次提交用于沉淀这份 fresh verification evidence，方便下个 session 不必重复排查。
已补记 hybrid seed=999 的中间结果：top1=0.875 / topk=1.0 / num_queries=24。
已补齐 seed=999 最终结果，并完成 cap48 三 seed aggregate 归纳。
已记录 cap64 benchmark 已启动，并确认进入 high_energy 训练阶段。
已补充 cap64 新鲜证据：high_energy 索引完成（64 refs / 657 windows / 192-d）并进入 evaluate.py。
已补充 cap64 首个结果：high_energy = top1 0.625 / topk 1.0 / num_queries 32，并记录主流程切换到 hybrid。
已补充 cap64 阶段推进：hybrid 已进入训练阶段。
已补充 cap64 阶段推进：hybrid 已完成训练并进入 build-index。
已补充 cap64 新鲜证据：从运行会话确认 hybrid 的 Epoch 1/1 已完整跑完。
已补充 cap64 新鲜证据：hybrid reference index 完成（64 refs / 657 windows / 192-d）并进入 evaluate.py。
已补齐 cap64 最终结果：hybrid=0.875、high_energy=0.625，winner=hybrid。
已新增 acr-engine/scripts/ab_smoke_bucketed.py，并完成首个 bucket 的 smoke 验证。

已补齐 bucket/style-aware smoke 的完整汇总：


prefix_000_a winner=hybrid


prefix_000_b winner=high_energy

aggregate 层面两者 mean_top1=1.0，但 hybrid mean_num_queries 更高。


最新待办（重启后直接接手）


把 toy prefix bucket 升级为更有业务意义的 bucket：


高能段主导
重复副歌明显
节拍规整
混淆样本 / hard negative


继续补 cap64 multi-seed，而不是只保留单 seed。
在 bucket 基线下继续优化 hybrid 波动，而不是过早锁定全局默认策略。
保持“文档更新 -> changelog -> commit -> push”的阶段节奏。


已新增 acr-engine/scripts/business_export_offline_smoke.py，并拿到端到端离线 smoke fresh evidence。
已确认链路：业务导出样例 -> 规范化 -> 项目 manifest -> train.py --dry-run。

已补记真实 FMA smoke 的进行中 fresh evidence：


fma_small_audio 已 ready_for_smoke=true

真实 smoke 输出目录：/tmp/fma_real_smoke_stopcheck

manifest 校验通过：catalog_references=8000, train_queries=6401, test_queries=1593

当前环境无 GPU，真实 smoke 正在 CPU 上进入长训练阶段
训练中途 fma_models_smoke/ 为空是正常现象，因为 train.py 在 Epoch 1 结束后才首次保存 best_model.pt


本次收尾补充（12:09 UTC fresh evidence）


已确认真实 FMA smoke 仍在 CPU 训练中：train.py ELAPSED=12:00。
已再次确认 manifest 校验通过：


catalog_references=8000
train_queries=6401
test_queries=1593
val_queries=0


已确认 /tmp/fma_real_smoke_stopcheck/fma_models_smoke/ 仍为空目录，但这符合当前 train.py 的 epoch-end 保存逻辑。
已将这些状态同步写入：


./session-handoff.md
./delivery-handoff-2026-06-02.md
./CHANGELOG.md
../AGENT.md


现在的真正卡点


无 GPU，真实 FMA 全量 smoke 训练时间长。
MTG-Jamendo 本地目录尚未就绪，无法进入同级 smoke。
工作区有大量数据噪音，必须继续精准暂存。


重启后的直接动作


先看 ./session-handoff.md。
再检查真实 FMA smoke 是否已经产出 best_model.pt 或进入 build-index/evaluate。
若完成，则先补文档、changelog、commit、push，再继续下一轮 benchmark。


12:11 UTC 再校验补充


已拿到比上一提交更新的 fresh evidence：train.py ELAPSED=14:25。
已确认当前仍未切换到 build-index 或 evaluate 进程。
已确认模型输出目录仍为空，仅有目录本身。
这进一步证明：当前是长时间 CPU 训练，不是进程悬挂。


12:12 UTC 再次时间推进补充


最新 live 证据已推进到：train.py ELAPSED=15:12。
当前 CPU / 内存观测：%CPU≈614, %MEM≈10.5。
仍未出现 build-index/evaluate 进程，也未出现首个模型文件。
这说明当前只是继续处在真实 FMA 全量 epoch 内训练阶段。


12:14 UTC 时间推进补充


最新 live 证据已推进到：train.py ELAPSED=17:07。
仍未出现模型文件，也未切换到 build-index/evaluate。
manifest 校验结果保持不变且继续通过。


12:15 UTC 时间推进补充


最新 live 证据已推进到：train.py ELAPSED=18:22。
仍未出现模型文件，也未切换到 build-index/evaluate。
manifest 复核继续通过，统计保持不变。


12:16 UTC 时间推进补充


最新 live 证据已推进到：train.py ELAPSED=19:12。
当前 CPU / 内存观测：%CPU≈614, %MEM≈10.6。
仍未出现模型文件，也未切换到 build-index/evaluate。
manifest 复核继续通过，统计保持不变。


12:17 UTC 时间推进补充


最新 live 证据已推进到：train.py ELAPSED=20:08。
当前 CPU / 内存观测：%CPU≈614, %MEM≈10.6。
仍未出现模型文件，也未切换到 build-index/evaluate。
manifest 复核继续通过，统计保持不变。