Commit 847ac44d 847ac44dcece4416e19cf8faa2dab8e99632a29e by cnb.bofCdSsphPA

Record that the durable waiter still needs another stability pass

Constraint: The real-data lane still needs a reliable unattended handoff process, and fresh evidence now shows the first durability fix was incomplete.
Rejected: Treating the restarted waiter as fully solved | The second drop proves more diagnosis is required.
Confidence: medium
Scope-risk: narrow
Directive: Investigate why the waiter exits after the first logged poll instead of assuming the infinite-loop change alone solved stability.
Tested: Re-checked archive progress, confirmed the waiter process was absent, inspected the single-entry log file, and restarted the waiter successfully.
Not-tested: Root-cause isolation for the second waiter drop remains pending.
1 parent 31194789
...@@ -2,6 +2,28 @@ ...@@ -2,6 +2,28 @@
2 2
3 ## 2026-06-02 3 ## 2026-06-02
4 4
5 ### Stage: 真实 FMA 长时等待器二次掉线复验
6
7 完成项:
8 - 复检长期等待器与日志输出状态
9 - 确认下载继续前进,但长期等待器再次退出
10 - 重新拉起等待器,恢复“下载完成后自动后处理”能力
11
12 验证结果:
13 - `/usr/local/miniconda3/bin/python scripts/prepare_fma_archive.py inspect` 返回:
14 - `archive_size=4102045696`
15 - `archive_progress_percent=53.4149`
16 - 进程侧未发现 `wait_for_fma_and_prepare.py`
17 - 日志文件只保留首轮输出:
18 - `cycle=1`
19 - `archive_progress_percent=52.5032`
20 - 重新启动后,进程再次恢复:
21 - `/usr/local/miniconda3/bin/python scripts/wait_for_fma_and_prepare.py --interval 30`
22
23 结论:
24 - 下载本身没有停,问题集中在长期等待器稳定性仍不足
25 - 下一步需要继续定位其二次退出原因,避免只靠重启维持自动承接链路
26
5 ### Stage: 真实 FMA 等待器寿命缺陷修复 27 ### Stage: 真实 FMA 等待器寿命缺陷修复
6 28
7 完成项: 29 完成项:
...@@ -994,6 +1016,28 @@ ...@@ -994,6 +1016,28 @@
994 1016
995 ## 2026-06-02 1017 ## 2026-06-02
996 1018
1019 ### Stage: 真实 FMA 长时等待器二次掉线复验
1020
1021 完成项:
1022 - 复检长期等待器与日志输出状态
1023 - 确认下载继续前进,但长期等待器再次退出
1024 - 重新拉起等待器,恢复“下载完成后自动后处理”能力
1025
1026 验证结果:
1027 - `/usr/local/miniconda3/bin/python scripts/prepare_fma_archive.py inspect` 返回:
1028 - `archive_size=4102045696`
1029 - `archive_progress_percent=53.4149`
1030 - 进程侧未发现 `wait_for_fma_and_prepare.py`
1031 - 日志文件只保留首轮输出:
1032 - `cycle=1`
1033 - `archive_progress_percent=52.5032`
1034 - 重新启动后,进程再次恢复:
1035 - `/usr/local/miniconda3/bin/python scripts/wait_for_fma_and_prepare.py --interval 30`
1036
1037 结论:
1038 - 下载本身没有停,问题集中在长期等待器稳定性仍不足
1039 - 下一步需要继续定位其二次退出原因,避免只靠重启维持自动承接链路
1040
997 ### Stage: 真实 FMA 等待器寿命缺陷修复 1041 ### Stage: 真实 FMA 等待器寿命缺陷修复
998 1042
999 完成项: 1043 完成项:
...@@ -1196,6 +1240,28 @@ ...@@ -1196,6 +1240,28 @@
1196 1240
1197 ## 2026-06-02 1241 ## 2026-06-02
1198 1242
1243 ### Stage: 真实 FMA 长时等待器二次掉线复验
1244
1245 完成项:
1246 - 复检长期等待器与日志输出状态
1247 - 确认下载继续前进,但长期等待器再次退出
1248 - 重新拉起等待器,恢复“下载完成后自动后处理”能力
1249
1250 验证结果:
1251 - `/usr/local/miniconda3/bin/python scripts/prepare_fma_archive.py inspect` 返回:
1252 - `archive_size=4102045696`
1253 - `archive_progress_percent=53.4149`
1254 - 进程侧未发现 `wait_for_fma_and_prepare.py`
1255 - 日志文件只保留首轮输出:
1256 - `cycle=1`
1257 - `archive_progress_percent=52.5032`
1258 - 重新启动后,进程再次恢复:
1259 - `/usr/local/miniconda3/bin/python scripts/wait_for_fma_and_prepare.py --interval 30`
1260
1261 结论:
1262 - 下载本身没有停,问题集中在长期等待器稳定性仍不足
1263 - 下一步需要继续定位其二次退出原因,避免只靠重启维持自动承接链路
1264
1199 ### Stage: 真实 FMA 等待器寿命缺陷修复 1265 ### Stage: 真实 FMA 等待器寿命缺陷修复
1200 1266
1201 完成项: 1267 完成项:
...@@ -1408,6 +1474,28 @@ ...@@ -1408,6 +1474,28 @@
1408 1474
1409 ## 2026-06-02 1475 ## 2026-06-02
1410 1476
1477 ### Stage: 真实 FMA 长时等待器二次掉线复验
1478
1479 完成项:
1480 - 复检长期等待器与日志输出状态
1481 - 确认下载继续前进,但长期等待器再次退出
1482 - 重新拉起等待器,恢复“下载完成后自动后处理”能力
1483
1484 验证结果:
1485 - `/usr/local/miniconda3/bin/python scripts/prepare_fma_archive.py inspect` 返回:
1486 - `archive_size=4102045696`
1487 - `archive_progress_percent=53.4149`
1488 - 进程侧未发现 `wait_for_fma_and_prepare.py`
1489 - 日志文件只保留首轮输出:
1490 - `cycle=1`
1491 - `archive_progress_percent=52.5032`
1492 - 重新启动后,进程再次恢复:
1493 - `/usr/local/miniconda3/bin/python scripts/wait_for_fma_and_prepare.py --interval 30`
1494
1495 结论:
1496 - 下载本身没有停,问题集中在长期等待器稳定性仍不足
1497 - 下一步需要继续定位其二次退出原因,避免只靠重启维持自动承接链路
1498
1411 ### Stage: 真实 FMA 等待器寿命缺陷修复 1499 ### Stage: 真实 FMA 等待器寿命缺陷修复
1412 1500
1413 完成项: 1501 完成项:
...@@ -1610,6 +1698,28 @@ ...@@ -1610,6 +1698,28 @@
1610 1698
1611 ## 2026-06-02 1699 ## 2026-06-02
1612 1700
1701 ### Stage: 真实 FMA 长时等待器二次掉线复验
1702
1703 完成项:
1704 - 复检长期等待器与日志输出状态
1705 - 确认下载继续前进,但长期等待器再次退出
1706 - 重新拉起等待器,恢复“下载完成后自动后处理”能力
1707
1708 验证结果:
1709 - `/usr/local/miniconda3/bin/python scripts/prepare_fma_archive.py inspect` 返回:
1710 - `archive_size=4102045696`
1711 - `archive_progress_percent=53.4149`
1712 - 进程侧未发现 `wait_for_fma_and_prepare.py`
1713 - 日志文件只保留首轮输出:
1714 - `cycle=1`
1715 - `archive_progress_percent=52.5032`
1716 - 重新启动后,进程再次恢复:
1717 - `/usr/local/miniconda3/bin/python scripts/wait_for_fma_and_prepare.py --interval 30`
1718
1719 结论:
1720 - 下载本身没有停,问题集中在长期等待器稳定性仍不足
1721 - 下一步需要继续定位其二次退出原因,避免只靠重启维持自动承接链路
1722
1613 ### Stage: 真实 FMA 等待器寿命缺陷修复 1723 ### Stage: 真实 FMA 等待器寿命缺陷修复
1614 1724
1615 完成项: 1725 完成项:
...@@ -1810,6 +1920,28 @@ ...@@ -1810,6 +1920,28 @@
1810 1920
1811 ## 2026-06-02 1921 ## 2026-06-02
1812 1922
1923 ### Stage: 真实 FMA 长时等待器二次掉线复验
1924
1925 完成项:
1926 - 复检长期等待器与日志输出状态
1927 - 确认下载继续前进,但长期等待器再次退出
1928 - 重新拉起等待器,恢复“下载完成后自动后处理”能力
1929
1930 验证结果:
1931 - `/usr/local/miniconda3/bin/python scripts/prepare_fma_archive.py inspect` 返回:
1932 - `archive_size=4102045696`
1933 - `archive_progress_percent=53.4149`
1934 - 进程侧未发现 `wait_for_fma_and_prepare.py`
1935 - 日志文件只保留首轮输出:
1936 - `cycle=1`
1937 - `archive_progress_percent=52.5032`
1938 - 重新启动后,进程再次恢复:
1939 - `/usr/local/miniconda3/bin/python scripts/wait_for_fma_and_prepare.py --interval 30`
1940
1941 结论:
1942 - 下载本身没有停,问题集中在长期等待器稳定性仍不足
1943 - 下一步需要继续定位其二次退出原因,避免只靠重启维持自动承接链路
1944
1813 ### Stage: 真实 FMA 等待器寿命缺陷修复 1945 ### Stage: 真实 FMA 等待器寿命缺陷修复
1814 1946
1815 完成项: 1947 完成项:
...@@ -2008,6 +2140,28 @@ ...@@ -2008,6 +2140,28 @@
2008 2140
2009 ## 2026-06-02 2141 ## 2026-06-02
2010 2142
2143 ### Stage: 真实 FMA 长时等待器二次掉线复验
2144
2145 完成项:
2146 - 复检长期等待器与日志输出状态
2147 - 确认下载继续前进,但长期等待器再次退出
2148 - 重新拉起等待器,恢复“下载完成后自动后处理”能力
2149
2150 验证结果:
2151 - `/usr/local/miniconda3/bin/python scripts/prepare_fma_archive.py inspect` 返回:
2152 - `archive_size=4102045696`
2153 - `archive_progress_percent=53.4149`
2154 - 进程侧未发现 `wait_for_fma_and_prepare.py`
2155 - 日志文件只保留首轮输出:
2156 - `cycle=1`
2157 - `archive_progress_percent=52.5032`
2158 - 重新启动后,进程再次恢复:
2159 - `/usr/local/miniconda3/bin/python scripts/wait_for_fma_and_prepare.py --interval 30`
2160
2161 结论:
2162 - 下载本身没有停,问题集中在长期等待器稳定性仍不足
2163 - 下一步需要继续定位其二次退出原因,避免只靠重启维持自动承接链路
2164
2011 ### Stage: 真实 FMA 等待器寿命缺陷修复 2165 ### Stage: 真实 FMA 等待器寿命缺陷修复
2012 2166
2013 完成项: 2167 完成项:
...@@ -2211,6 +2365,28 @@ ...@@ -2211,6 +2365,28 @@
2211 2365
2212 ## 2026-06-02 2366 ## 2026-06-02
2213 2367
2368 ### Stage: 真实 FMA 长时等待器二次掉线复验
2369
2370 完成项:
2371 - 复检长期等待器与日志输出状态
2372 - 确认下载继续前进,但长期等待器再次退出
2373 - 重新拉起等待器,恢复“下载完成后自动后处理”能力
2374
2375 验证结果:
2376 - `/usr/local/miniconda3/bin/python scripts/prepare_fma_archive.py inspect` 返回:
2377 - `archive_size=4102045696`
2378 - `archive_progress_percent=53.4149`
2379 - 进程侧未发现 `wait_for_fma_and_prepare.py`
2380 - 日志文件只保留首轮输出:
2381 - `cycle=1`
2382 - `archive_progress_percent=52.5032`
2383 - 重新启动后,进程再次恢复:
2384 - `/usr/local/miniconda3/bin/python scripts/wait_for_fma_and_prepare.py --interval 30`
2385
2386 结论:
2387 - 下载本身没有停,问题集中在长期等待器稳定性仍不足
2388 - 下一步需要继续定位其二次退出原因,避免只靠重启维持自动承接链路
2389
2214 ### Stage: 真实 FMA 等待器寿命缺陷修复 2390 ### Stage: 真实 FMA 等待器寿命缺陷修复
2215 2391
2216 完成项: 2392 完成项:
......