benchmark-report.md 784 Bytes

Benchmark Report

一页结论

  • 模型版本:smoke-v2
  • 数据版本:synthetic_v2
  • 核心结论:top1=0.6 top5=0.75
  • 是否通过上线门禁:TBD

1. 评测范围图

flowchart LR
    A[smoke-v2] --> B[synthetic_v2]
    A --> C[Scenario Buckets]
    A --> D[Latency / Ops]

2. 指标表

Bucket top1 top5 MRR FAR Notes
clean 1.0 1.0
augmented 0.75 0.75
humming_like 0.0 0.75
confused 0.25 0.25

3. 文字分析

  • 最强项:clean/augmented buckets if present
  • 最弱项:see hard-case summary
  • 与上一版本对比:TBD

4. 细节附录

  • 原始 JSON 报告:embedded source

Sources

  • docs/industrial-benchmark-spec.md