






















借助 GPT ,将具体的现象、配置、排查方案写出来了,会有一点长,希望 V2 上的富有经验的大佬能给点头绪:
这是一台家用 Proxmox VE 主机,主要跑一个 FnOS/飞牛 NAS 虚拟机。最近多次出现早上 6 点附近自动重启,表现更像硬断电/硬复位,而不是系统内正常 reboot/shutdown 。下面是目前的硬件信息、排查过程和阶段性结论,想请大家帮忙判断更像主板/BIOS/ME/ACPI 、电源、SATA 控制器/硬盘链路,还是 PVE/FnOS/驱动层的问题。
journalctl --list-boots 显示上一个 boot 在 5:59 左右戛然而止,随后 6:00/6:01 进入新 boot 。Unsafe Shutdowns 会随这类重启增加,因此更像硬断电/硬复位。PVE:
pve-manager 9.1.16.17.2-1-pvepvei915.enable_guc=3i915.max_vfs=7module_blacklist=xe主板 / BIOS / CPU:
MAXSUN MS-eSport Z890MB3.4D06/16/2025Intel Core Ultra 5 245K14 CPUs,14 cores,1 thread per coreVT-x内存:
32GBMaxsun 16GB, Part Number MSD516G60AX5-D40M0JUHOR 16GB, Part Number JHE4800U4016JG系统盘:
ZHITAI TiPro5000Media and Data Integrity Errors = 0Unsafe Shutdowns 会增加。PCI / 控制器:
80:17.0 Intel SATA controller [8086:7f62]ahci83:00.0 ASMedia ASM1166 Serial ATA Controller [1b21:1166]ahciRealtek RTL8125 2.5GbE当前 PVE 能看到 9 块 SATA 硬盘。
板载 Intel SATA 上的 4 块盘:
sda WDC WUH721816ALE6L4 4MGYAVMH 14.6T
sdb WDC WD200EDGZ-11CNKA0 SSG538VD 18.2T
sdc WDC WUH721816ALE6L4 2BJE0JTN 14.6T
sdd WDC WUH721816ALE6L4 2JJGZEJB 14.6T
ASMedia ASM1166 上的 5 块盘:
sde TOSHIBA MG08ACA14TE 5160A01BFRVH 12.7T
sdf TOSHIBA DT01ACA300 38SJTMEAS 2.7T
sdg WDC WD140EDGZ-11B1PA0 7LGHSPUK 12.7T
sdh ST2000DM006-2DM164 Z4Z80PNS 1.8T
sdi WDC WD100EMAZ-00WJTA0 JEKV1V2Z 9.1T
FnOS VM:
105FnOSq35host810144 MBsata0 local-lvm:vm-105-disk-0,size=200G当前 FnOS 直通盘:
sata1: /dev/disk/by-id/ata-TOSHIBA_MG08ACA14TE_5160A01BFRVH
sata2: /dev/disk/by-id/ata-TOSHIBA_DT01ACA300_38SJTMEAS
sata3: /dev/disk/by-id/ata-WDC_WD140EDGZ-11B1PA0_7LGHSPUK
sata4: /dev/disk/by-id/ata-ST2000DM006-2DM164_Z4Z80PNS
sata5: /dev/disk/by-id/ata-WDC_WD100EMAZ-00WJTA0_JEKV1V2Z
scsi1: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_4MGYAVMH
scsi2: /dev/disk/by-id/ata-WDC_WD200EDGZ-11CNKA0_SSG538VD
scsi3: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_2BJE0JTN
scsi4: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_2JJGZEJB
说明:
vfio-pci 绑定 SATA 控制器,但后来按“硬盘直通”思路取消了 PCI 隔离,目前两个 SATA 控制器都由 PVE 的 ahci 接管。部分 boot history:
Sat 2026-05-30 06:01:21 进入新 boot
Tue 2026-06-09 05:59:57 上一个 boot 截止
Tue 2026-06-09 06:00:39 进入新 boot
Sat 2026-06-13 05:59:44 上一个 boot 截止
Sat 2026-06-13 06:01:14 进入新 boot
2026-06-13 早上这次比较关键:
2026-06-11 22:58:33 到 2026-06-13 05:59:442026-06-13 06:01:142026-06-13T05:59:44+08:00running0.10 0.11 0.0915465M,可用约 3452M43-44CUnsafe Shutdowns 在这次异常后从 96 增到 97这次重启发生时,原来那 4 块板载 SATA 硬盘已经被拔掉/不参与,只保留了 ASM1166 扩展卡上的 5 块盘。因此“板载 SATA 那 4 块盘或板载 SATA 控制器是必要触发条件”这个假设基本被削弱;至少已经做过“仅扩展卡 5 块盘”的测试,且仍然复现 6 点附近异常重启。
2026-06-13 10:35 到 10:54 还有一次关机/开机:
Unsafe Shutdowns,和 6 点异常重启性质不同。电源/外部供电:
BIOS:
PVE 服务:
corosync/quorum_initialize failed 之类信息,但这类信息出现在开机阶段,更像单节点/集群服务状态问题,不像重启前触发原因。监控:
/var/log/pve-watch/heartbeat.log/var/log/pve-watch/boot-report.logUSB:
FnOS / 硬盘直通:
硬盘 SMART / SATA 错误:
smartd 报过两块盘 ATA error count 增加:/dev/sda WDC WUH721816ALE6L4 4MGYAVMH:
ATA error count increased from 0 to 578
/dev/sdc WDC WUH721816ALE6L4 2BJE0JTN:
ATA error count increased from 476 to 2113
reboot/shutdown: 没有正常关机链路。主板 / BIOS / ME / ACPI / 电源管理 / 平台复位问题
Could not resolve symbol [\_SB.UBTC.RUCC]。电源或供电瞬态问题
SATA 扩展卡 ASM1166 / SATA 链路 / 硬盘组合问题
FnOS 6 点附近任务触发的负载
PVE 9.1 / kernel 6.17 / 新平台驱动兼容性
这种每次 journalctl 截止在 5:59 ,随后 6:00/6:01 新 boot ,且 NVMe Unsafe Shutdowns 增加的情况,是否基本可以判断为硬复位/断电类,而不是 Linux 正常崩溃?
MAXSUN Z890M / Arrow Lake / Core Ultra 245K 在 Linux/PVE 下,启动日志里的这些 ACPI BIOS Error 是否可能和定时硬复位有关?
ASM1166 SATA 扩展卡 + 多块机械硬盘,在每天固定任务时间附近触发整机 reset ,是否有人遇到过?
如果要进一步区分主板、电源、SATA 扩展卡、硬盘、PVE kernel/FnOS 任务,下一步最有效的交叉测试应该怎么设计?
是否建议优先:
现在最不像的是普通软件层面的正常重启;更像硬断电/硬复位。由于只保留 5 块 ASM1166 硬盘时仍然重启,不能再简单归因于原来那 4 块硬盘。但原来 4 块盘中两块有明显 ATA error count ,也说明存储链路确实存在问题。
目前我个人更倾向优先怀疑:
下一步我倾向做的排除测试:
/dev/sda 和 /dev/sdc 做完整 SMART 检查和长测。1 shinciao 19 小时 38 分钟前之前遇到过类似的问题,也是自组硬件的 pve ,从某天开始经常早上一起来发现已断电关机。因为电源用的是二手矿电,没做排除直接买了新电源换上就好了。这种表现我更倾向是硬件问题,但是你这个如果确定是时间比较固定的话就不好说了。 |
2 EVJohn 18 小时 57 分钟前老哥,有没有考虑过是电能质量的问题? 就是在那个电源前面接个 UPS ,或者是接个大疆“一度电”这种户外电源试一下。我感觉应该是电能质量波动,所以让你的那个机器重启。 或者像上面那位老哥说的一样,你去弄个电源回来做 AB 测试一下。 |
4 memorybox 18 小时 54 分钟前可以先尝试最简单的排障方法;异常重启后,把`dmesg`和/var/syslog 相关时间段的信息直接粘贴给 Gemini 或者 GPT ; 绝大多数时候很靠谱; |
5 memorybox 18 小时 53 分钟前现在其实就可以把`dmesg`启动之后的 1000 行,直接粘贴给 Gemini ,看看它说啥; |
6 EVJohn 18 小时 50 分钟前有个别的思路?你把你机器的时区往前或者往后调几个小时看一下 |
7 ETiV 18 小时 37 分钟前 via iPhone六点前运行了啥 cronjob 单纯硬件不会有这么准的计时,所以应该是软件运行了什么东西,引发了硬件故障、或者电流过大导致保护性断电重启。 或者你现在重启一下,看它会不会 24 小时后才崩,而不是六点。 监控是怎么做的,采集频率拉高,把进程列表也采集下来。有什么智能插座的话,也可以把用电功率监控一下。 |
8 SilenceLL 18 小时 8 分钟前 via iPhone让 codex 自己连上去看 |
9 YoYoLikesCiCi 17 小时 41 分钟前@ETiV 检查过了,没有任何 cronjob , 也不是 24 小时后崩的,基本都是早上六点左右,唯一的例外是有一次晚上七点, @SilenceLL 就是让 codex 自己接入终端去查询的,他也找不到具体原因,各种交叉测试我也做了 |
11 KagurazakaNyaa 17 小时 20 分钟前是不是 bios 里有设置什么 watchdog 之类的,然后这个时间点系统忘记喂狗了导致被重置了 |
13 inreality 14 小时 27 分钟前 via Android也遇到过每天凌晨 pvr 主机自动重启的问题,软件层面上信息很有限。后来尝试了两个办法解决: |
14 4seasons 13 小时 18 分钟前 via iPhone建议直接插个显示器,然后物理监控摄像头对着,看看 6 点左右是直接掉电重启还是正常执行的重启。 |
15 IvanLi127 12 小时 56 分钟前好准时。要我说直接 u 盘弄个 cd live 系统,主机进这个 live 系统,连上网对好时间,然后啥也不干,看看能不能挺过 6 点。这样应该能排除一些硬件问题。没问题后再考虑从移动硬盘启动全新的同版本 pve 挂着看看炸不炸。 |
18 v0rtix 12 小时 31 分钟前用 claude code 自己 ssh 连上去 debug ,上次也是类似的问题,发现是内存有一条不识别了,重新插拔就好了 |
19 billccn 11 小时 11 分钟前我看到这个问题就觉得更改系统时间把 6 点这个变量隔离出来是第一步,如果 AI 想不出来,那我觉得这个模型还比较笨,至少缺乏思考能力。 还有一些思路给楼主参考:除非是黑客每天用 0-day 定时攻击,要不然软件层面触发的重启不会完全不留痕迹。硬件的故障不会准时发生,除非是软件的操作影响到了硬件。 我觉得很大的一个可能是电网或者同电路上的电器在 6 点会进行一个定时的操作,造成了浪涌或者杂波通过劣质的电源影响到了你的系统。 |
20 qiuyuxiao 10 小时 43 分钟前监控一下网络流量,或者干脆把网线拔了,立马就能现原形。 |
21 NamelessRain 10 小时 31 分钟前
|
23 Reitzo 10 小时 13 分钟前把 PVE 和 FnOS 的系统时区临时调整为西八区(比北京时间慢 16 小时),但保持机器联网。 |
24 iceecream 10 小时 8 分钟前开 audit 对关机进行审计 |
25 gulugu 9 小时 42 分钟前1.主板内存控制有问题,可能要升级 bios 2.内存条有问题 换个内存试试,只用单条测试 3.系统有问题,尝试重装一下系统 4.供电有问题 |
28 WuSiYu 1 小时 25 分钟前 via iPhone重置 bios 试试? |
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。