benchmark-report.md
748 Bytes
Benchmark Report
一页结论
- 模型版本:smoke-v1
- 数据版本:synthetic_v2
- 核心结论:top1=0.65 top5=0.95
- 是否通过上线门禁:TBD
1. 评测范围图
flowchart LR
A[smoke-v1] --> B[synthetic_v2]
A --> C[Scenario Buckets]
A --> D[Latency / Ops]
2. 指标表
| Bucket | top1 | top5 | MRR | FAR | Notes |
|---|---|---|---|---|---|
| clean | 1.0 | 1.0 | |||
| humming_like | 0.25 | 0.75 | |||
| confused | 0.25 | 1.0 |
3. 文字分析
- 最强项:clean/augmented buckets if present
- 最弱项:see hard-case summary
- 与上一版本对比:TBD
4. 细节附录
- 原始 JSON 报告:embedded source
Sources
- docs/industrial-benchmark-spec.md