PVE 主机两三天就会在早上六点左右重启一次，尝试过各种排查方法，还是找不到原因。

V2EX

家有老人，看电视直播有啥软件净水器有没有必要按时更换滤芯 Draw io 之类的画图工具是不是非常有必要? cursor 的次数套餐以后应该都用不了新模型了 copilot 更新了 Claude code cli? openrouter 使用国外模型 V 站为什么不能进行回复互动？买了咸鱼低价 Gemini pro，账号差点被盗。突然发现国内诈骗成本为零 hermes session 会话标题是不能自定义的吗？爱上合租妹子 5 - 掰指头看甜蜜蜜感觉职场对新人会越来越不友好中转站三步曲看看你的中转站到哪一步了现在还有人倒腾 NDS/NDSi 和烧录卡吗？未来会靠 token 活着吗？ Gemini 手机版客户端登陆总是在此国家/地区无法使用 gemini APIv2 新增置顶主题接口 ⛽ RootFlow AI — Opus 4.7 重磅上线，限时福利 [加群领 10U 额度评论留 ID 再发 5U] IOS 版本 Telegram 原生支持中文了？一个 Hacker News 命令行工具（CLI）感觉 gpt 这些低价渠道要爆了 hermes-agent 使用场景是什么，真的有人常用吗 token 可以被保存吗？独立开发｜做了个「情簿子」小程序，解决人情往来记账痛点，无广告无套路 claude code 和 codex 在 vibe coding 还有质的区别吗？买了台新的 air m5，感觉触控板明显不如 m1 顺滑，有办法解决吗？阿里 Coding Plan 一天三变， Lite 版本到期不能续费了 [抽奖/支付现金红包] 因为收藏夹太乱太杂，所以我花了半年做了一个产品社区：产品派 RAG 难以让人满意啊 2026 年了，这个世界还存在互联网精神🥹 [2026 年 4 月]当前哪一家的 token 输出最快?被 minimax/glm 折磨疯了?现在哪一家反应能稳定一些? Codex 这个申请权限的交互好有意思两个账号阵亡，尼区 Claude Pro 订阅租房之旅-感觉这次很幸运 GPT Plus 1 个月， 18 元包质保分享下最近低价 GPT Codex 的来源(源头) 手搓宝宝监护器 OpenAI 发布 Codex 重大更新：支持自动操作电脑与长期任务自动化移动下场了。免费送一个月 coding Plan（3w 次调用）试着把个人博客转成小程序，结果腾讯审核不让过，说有信息资讯？我把 Claude Opus 4.7 的 HN+V2EX 吐槽贴扒了一遍，发现了一些有意思的东西使用 claude 从 0 开始开发一个校友会系统可行吗做了个 iOS 成语填字 APP，送 50 个终身会员 [送码]多角色沉浸式听书 app, 送 20 个订阅，注册留邮箱即可 typeC 转 USB 的转换头有质量差异吗继续启动！全程质保的 gpt plus！中年程序员副业的第四天同一个 appleid 可以给不同 chatGPT 账号订阅 plus 吗？自动驾驶项目开发建议 AI 大模型明星项目｜诚聘 Data Engineer & Web Scraping Engineer（新加坡｜可办签证｜代发） setapp 这是啥意思，放进来还要收钱？终于, 降智几天之后, opus4.7 出来了自己开发了个 VSCODE 扩展，可以接入自定义的模型，并且可以导出 Copilot 的聊天列表到其它设备上导入 Claude 这对吗某鱼上 codex 的价格这么便宜是否有猫腻？ 🎉 Claude Opus 4.7 来啦～大家体验下来如何？让 ai 重写了整个 git 的历史，强迫症被拯救了 [分享创造] 写了个自托管的 Chrome 同步服务器，书签密码再也不经过 Google 快讯， Claude Opus 4.7 已经可以使用。我把 Karpathy 的 LLM + Obsidian 知识库方法论落地了，跑了一周数据超出预期 Opus4.7 来了，网页版先上，桌面版本客户端暂时未看到程序员历时一年转型成功的一些思考花露水电商专供和线下有区别么各位想本地部署大模型的看过来, 有台电脑想转让, 具体请查看截图, 价格请自己开价 OpenAI 最新图片模型 GPT-image-2 已经发布，快来 gptimage-2.co 免费体验吧这样用 ClaudeCode 怎么样？一行命令检测 VPS 能否访问 Claude API（含实际请求测试） cursor 按次数套餐用不了 opus4.7 呢 pixel og 充不进去电之前 5 年没使用了,怎么办啊浅试了一下 Qwen3.6-35B-A3B，很强忽然想我爷了天翼云 glm5.1 codingplan 官方玩不起，强制终止用户的包月续订我用 AI 写代码，但终端管理反而成了累赘——于是我做了 codux [调研] 各位在公司都用什么 ide 和 agent 写代码？过 seekingalpha 的 PerimeterX 在北京泡到了性价比超高的私汤温泉！美国号码除了美区 PayPal 绑定应用商店、美国相关的账户，还有什么必须使用的用途吗？ V2EX › 登录 jptimagine2.com llms.txt [送码]做了个 Cloudflare 监控 App - FlareKit，送点兑换码（真实性待验证）关于低价 GPT 账号怎么来的苹果即将推出 A19pro 芯片的小主机 Mac Neo，是真的吗？ Telegram 倒计时目标推送机器人 V2EX › 登录 openclaw 都谁在用啊，我感觉是真的太难用了丹麦国别域名（.dk）政策变更目前付费订阅 chatgpt Plus 的最佳方式是什么？ Weeko 更新了 CLI 和 Skills —— 一个给人类和 AI 同时使用的稍后读工具搞了个资源分享站: pantashare.com 老运维 share 一个运维平台别再写 Selenium 了！这个 AI Agent 一条命令搞定浏览器自动化搬瓦工后台大家能打开吗？ DESIGN.md 被反诈拦截自家茶叶 26 年新茶上市，评论抽奖新电脑 brew install node 之后，一个小设置可以提升对供应链投毒的防御最近看了下阿里云国际站 OSS，感觉比较适合文件多一点的网站！看到有公司考核 token 指标，很好奇大家上个月的 AI 账单是多少狗东上的特价自营榴莲线报，有兴趣的可以上车 [顺德/上海] 前端开发工程师（工业软件方向）- 磁悬浮运动控制做了一个 SVG 在线工具站： svg-to-code.com GLM-Coding 调用持续报错： z.ai 的 Lite 套餐几乎无法使用，官方 Pro/Max 是否稳定？ Solana 上可以买到 Anthropic (Claude) 的未上市的股票

YoYoLikesCiCi · 2026-06-13 · via V2EX

借助 GPT ，将具体的现象、配置、排查方案写出来了，会有一点长，希望 V2 上的富有经验的大佬能给点头绪：

PVE/FnOS 固定早上 6 点附近硬重启排查记录

这是一台家用 Proxmox VE 主机，主要跑一个 FnOS/飞牛 NAS 虚拟机。最近多次出现早上 6 点附近自动重启，表现更像硬断电/硬复位，而不是系统内正常 reboot/shutdown 。下面是目前的硬件信息、排查过程和阶段性结论，想请大家帮忙判断更像主板/BIOS/ME/ACPI 、电源、SATA 控制器/硬盘链路，还是 PVE/FnOS/驱动层的问题。

1. 主要现象

PVE 主机多次在早上 6 点附近突然重启。
journalctl --list-boots 显示上一个 boot 在 5:59 左右戛然而止，随后 6:00/6:01 进入新 boot 。
重启前没有看到正常关机链路，也没有看到明确的 kernel panic 、MCE 、OOM 、pstore 崩溃记录。
NVMe SMART 的 Unsafe Shutdowns 会随这类重启增加，因此更像硬断电/硬复位。
重启前自建监控记录显示 CPU 温度、NVMe 温度、负载都不高。
问题常集中在早上 6 点附近，但不是每天必现。

2. 当前硬件和系统信息

PVE:

Proxmox VE: pve-manager 9.1.1
Kernel: 6.17.2-1-pve
Hostname: pve
Kernel cmdline:
- i915.enable_guc=3
- i915.max_vfs=7
- module_blacklist=xe

主板 / BIOS / CPU:

主板: MAXSUN MS-eSport Z890M
BIOS: B3.4D
BIOS Release Date: 06/16/2025
CPU: Intel Core Ultra 5 245K
CPU 线程: 14 CPUs，14 cores，1 thread per core
虚拟化: VT-x

内存:

当前总内存约 32GB
当前插了两条 DDR5 4800:
- Maxsun 16GB, Part Number MSD516G60AX5-D40M0
- JUHOR 16GB, Part Number JHE4800U4016JG
注意: 之前多次重启发生时只有一条 16GB 内存，2026-06-13 早上重启后才加了第二条内存。

系统盘:

NVMe: ZHITAI TiPro5000
NVMe SMART 中 Media and Data Integrity Errors = 0
但异常重启时 Unsafe Shutdowns 会增加。

PCI / 控制器:

板载 SATA:
- 80:17.0 Intel SATA controller [8086:7f62]
- 当前驱动: ahci
SATA 扩展卡:
- 83:00.0 ASMedia ASM1166 Serial ATA Controller [1b21:1166]
- 当前驱动: ahci
网卡:
- Realtek RTL8125 2.5GbE
之前测试中拔掉过 UPS USB ，只留过 USB 网卡；后续也拔掉过 USB 网卡做排除。

3. 当前硬盘和 FnOS 虚拟机配置

当前 PVE 能看到 9 块 SATA 硬盘。

板载 Intel SATA 上的 4 块盘:

sda  WDC WUH721816ALE6L4    4MGYAVMH    14.6T
sdb  WDC WD200EDGZ-11CNKA0  SSG538VD    18.2T
sdc  WDC WUH721816ALE6L4    2BJE0JTN    14.6T
sdd  WDC WUH721816ALE6L4    2JJGZEJB    14.6T

ASMedia ASM1166 上的 5 块盘:

sde  TOSHIBA MG08ACA14TE      5160A01BFRVH  12.7T
sdf  TOSHIBA DT01ACA300       38SJTMEAS      2.7T
sdg  WDC WD140EDGZ-11B1PA0    7LGHSPUK      12.7T
sdh  ST2000DM006-2DM164       Z4Z80PNS       1.8T
sdi  WDC WD100EMAZ-00WJTA0    JEKV1V2Z       9.1T

FnOS VM:

VMID: 105
Name: FnOS
Machine: q35
CPU: host
Cores: 8
Memory: 10144 MB
系统盘: sata0 local-lvm:vm-105-disk-0,size=200G
当前采用硬盘路径直通，不是整控制器直通。

当前 FnOS 直通盘:

sata1: /dev/disk/by-id/ata-TOSHIBA_MG08ACA14TE_5160A01BFRVH
sata2: /dev/disk/by-id/ata-TOSHIBA_DT01ACA300_38SJTMEAS
sata3: /dev/disk/by-id/ata-WDC_WD140EDGZ-11B1PA0_7LGHSPUK
sata4: /dev/disk/by-id/ata-ST2000DM006-2DM164_Z4Z80PNS
sata5: /dev/disk/by-id/ata-WDC_WD100EMAZ-00WJTA0_JEKV1V2Z
scsi1: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_4MGYAVMH
scsi2: /dev/disk/by-id/ata-WDC_WD200EDGZ-11CNKA0_SSG538VD
scsi3: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_2BJE0JTN
scsi4: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_2JJGZEJB

说明:

之前曾经用过 SATA 控制器直通。
后来为了排查，改成了单盘 by-id 直通。
也测试过 vfio-pci 绑定 SATA 控制器，但后来按“硬盘直通”思路取消了 PCI 隔离，目前两个 SATA 控制器都由 PVE 的 ahci 接管。

4. 已记录到的异常重启证据

部分 boot history:

Sat 2026-05-30 06:01:21 进入新 boot
Tue 2026-06-09 05:59:57 上一个 boot 截止
Tue 2026-06-09 06:00:39 进入新 boot
Sat 2026-06-13 05:59:44 上一个 boot 截止
Sat 2026-06-13 06:01:14 进入新 boot

2026-06-13 早上这次比较关键:

上一个 boot: 2026-06-11 22:58:33 到 2026-06-13 05:59:44
新 boot: 2026-06-13 06:01:14
重启前最后 heartbeat:
- 时间: 2026-06-13T05:59:44+08:00
- FnOS 状态: running
- 负载: 0.10 0.11 0.09
- 内存: 总计约 15465M，可用约 3452M
- CPU/NVMe 温度约 43-44C
- NVMe Unsafe Shutdowns 在这次异常后从 96 增到 97

这次重启发生时，原来那 4 块板载 SATA 硬盘已经被拔掉/不参与，只保留了 ASM1166 扩展卡上的 5 块盘。因此“板载 SATA 那 4 块盘或板载 SATA 控制器是必要触发条件”这个假设基本被削弱；至少已经做过“仅扩展卡 5 块盘”的测试，且仍然复现 6 点附近异常重启。

2026-06-13 10:35 到 10:54 还有一次关机/开机:

这是人为加内存、插回 4 块硬盘导致的维护关机。
这次没有增加 NVMe Unsafe Shutdowns，和 6 点异常重启性质不同。

5. 已做过的排查和变更

电源/外部供电:

怀疑过智能插座/插线板。
同一个插线板上接了一个断电就会熄灭的台灯，异常期间台灯未灭。
这能降低“外部市电/插线板整体断电”的可能性，但不能排除主机电源、SATA 供电线、瞬态负载、主板复位。

BIOS:

进 BIOS 看过，没有发现 RTC 定时开机配置。
没有开启断电后自动开机。
没找到明确的 watchdog 设置。
BIOS 中能看到一些电源管理选项，但没有发现能解释固定 6 点自动启动/重启的配置。

PVE 服务:

停掉过一些不必要的 PVE 集群/HA 相关服务。
启动日志里仍有 corosync/quorum_initialize failed 之类信息，但这类信息出现在开机阶段，更像单节点/集群服务状态问题，不像重启前触发原因。

监控:

配了自定义 heartbeat 和 boot report:
- /var/log/pve-watch/heartbeat.log
- /var/log/pve-watch/boot-report.log
这些日志能记录每分钟左右的温度、负载、内存、FnOS 状态、NVMe SMART 、上一次 heartbeat 等。
目前证据显示异常发生前温度、负载并不高。

USB:

UPS 的 USB 线曾经拔掉。
USB 网卡也拔掉做过排查。
目前没有看到 USB 设备直接导致重启的证据。

FnOS / 硬盘直通:

之前 FnOS 使用过 SATA 控制器直通。
后来改成硬盘 by-id 直通，以便做交叉测试。
测试过只接 5 块盘，仍然在 2026-06-13 早上 6 点附近重启。
这 5 块盘是在 ASM1166 SATA 扩展卡上；当时板载 SATA 的 4 块盘已经拔掉/不参与，所以“禁用/不使用板载 SATA 硬盘链路”这个方向已经测试过。
后续又插回原来 4 块盘，并将 9 块盘都直通给 FnOS 。

硬盘 SMART / SATA 错误:

插回原来 4 块盘后，smartd 报过两块盘 ATA error count 增加:

/dev/sda WDC WUH721816ALE6L4 4MGYAVMH:
ATA error count increased from 0 to 578

/dev/sdc WDC WUH721816ALE6L4 2BJE0JTN:
ATA error count increased from 476 to 2113

这说明原来那组板载 SATA 上至少有两块盘/链路存在历史或累计 ATA 错误。
但 2026-06-13 早上 6 点那次重启发生时这 4 块盘不在机器上，所以这些错误不能单独解释那次 6 点重启。

6. 目前倾向排除或证据较弱的方向

普通系统内 reboot/shutdown: 没有正常关机链路。
温度过高: 重启前监控温度正常。
明确 OOM: 没看到 OOM 证据。
明确 kernel panic/MCE: 当前没有抓到 panic 、MCE 、pstore 证据。
仅由原来 4 块板载 SATA 硬盘或板载 SATA 控制器导致: 可能性明显下降，因为只保留 ASM1166 扩展卡上 5 块盘、板载 SATA 4 块盘不参与时也重启过。
仅由新加的第二条内存导致: 不成立，因为第二条内存是 2026-06-13 早上重启后才加的。

7. 仍保留的重点怀疑方向

主板 / BIOS / ME / ACPI / 电源管理 / 平台复位问题
- 启动时有较多 ACPI BIOS Error ，例如 Could not resolve symbol [\_SB.UBTC.RUCC]。
- 不确定这些 ACPI 错误是否只是常见无害日志，还是和 USB/电源管理/平台复位有关。
电源或供电瞬态问题
- 台灯未灭只能说明外部供电没有整体断。
- 不能排除 PSU 、SATA 电源线、硬盘同时唤醒/负载变化导致的瞬时掉压或主板复位。
SATA 扩展卡 ASM1166 / SATA 链路 / 硬盘组合问题
- 只接 ASM1166 扩展卡上的 5 块盘时也出现 6 点重启。
- 原来板载 SATA 4 块盘中又有两块出现 ATA error count 。
- 可能不是单一硬盘，而是硬盘、供电线、SATA 线、扩展卡、主板 PCIe/SATA 子系统共同触发。
FnOS 6 点附近任务触发的负载
- 异常重启前 FnOS 是 running 。
- 如果 FnOS 在 6 点有备份、校验、索引、清理、SMART 、快照、Time Machine 相关任务，可能触发大量磁盘 IO 或硬盘唤醒。
- 但这更像“触发器”，不一定是根因，因为宿主机是硬复位级别。
PVE 9.1 / kernel 6.17 / 新平台驱动兼容性
- Z890 + Core Ultra 平台较新。
- 也可能和 kernel 6.17 、AHCI 、IOMMU 、虚拟化、iGPU SR-IOV 参数有关。
- 可以考虑用旧一点的 PVE kernel 6.8 做对照测试。

8. 想请大家帮忙判断的问题

这种每次 journalctl 截止在 5:59 ，随后 6:00/6:01 新 boot ，且 NVMe Unsafe Shutdowns 增加的情况，是否基本可以判断为硬复位/断电类，而不是 Linux 正常崩溃？
MAXSUN Z890M / Arrow Lake / Core Ultra 245K 在 Linux/PVE 下，启动日志里的这些 ACPI BIOS Error 是否可能和定时硬复位有关？
ASM1166 SATA 扩展卡 + 多块机械硬盘，在每天固定任务时间附近触发整机 reset ，是否有人遇到过？
如果要进一步区分主板、电源、SATA 扩展卡、硬盘、PVE kernel/FnOS 任务，下一步最有效的交叉测试应该怎么设计？
是否建议优先:
- 换 PSU / 单独给硬盘供电；
- 换 SATA 扩展卡；
- BIOS 升级/降级或更新 ME ；
- PVE 切回 kernel 6.8 ；
- FnOS 停机跨过 6 点；
- 跑 MemTest86 ；
- 暂停 FnOS 所有 6 点附近任务；
- 给 PVE 配串口/netconsole/远端 syslog 抓崩溃前最后输出？

9. 我目前自己的阶段性判断

现在最不像的是普通软件层面的正常重启；更像硬断电/硬复位。由于只保留 5 块 ASM1166 硬盘时仍然重启，不能再简单归因于原来那 4 块硬盘。但原来 4 块盘中两块有明显 ATA error count ，也说明存储链路确实存在问题。

目前我个人更倾向优先怀疑:

主板/BIOS/ME/ACPI/平台电源管理或复位问题；
PSU 或 SATA 供电瞬态问题；
ASM1166/SATA/硬盘组合在 FnOS 6 点任务触发下造成硬件级异常；
PVE kernel 6.17 在这套较新平台上的兼容性问题。

下一步我倾向做的排除测试:

FnOS 关机跨过 6 点，验证 PVE 空载是否还重启。
若 PVE 空载稳定，再启动 FnOS 但关闭 6 点附近所有任务。
用 PVE kernel 6.8 做对照。
跑 MemTest86 ，尤其现在是两条不同品牌 DDR5 。
对 /dev/sda 和 /dev/sdc 做完整 SMART 检查和长测。
有条件的话换 PSU 或给机械硬盘单独供电测试。
有条件的话换掉 ASM1166 扩展卡，或反过来只用板载 SATA 跨 6 点做对照；“仅扩展卡 5 盘”已经测过且复现。

重启

硬件

电源

28 条回复 • 2026-06-14 06:06:58 +08:00

shinciao 19 小时 38 分钟前

之前遇到过类似的问题，也是自组硬件的 pve ，从某天开始经常早上一起来发现已断电关机。因为电源用的是二手矿电，没做排除直接买了新电源换上就好了。这种表现我更倾向是硬件问题，但是你这个如果确定是时间比较固定的话就不好说了。

EVJohn 18 小时 57 分钟前

老哥，有没有考虑过是电能质量的问题？

就是在那个电源前面接个 UPS ，或者是接个大疆“一度电”这种户外电源试一下。我感觉应该是电能质量波动，所以让你的那个机器重启。

或者像上面那位老哥说的一样，你去弄个电源回来做 AB 测试一下。

memorybox 18 小时 54 分钟前

可以先尝试最简单的排障方法；异常重启后，把`dmesg`和/var/syslog 相关时间段的信息直接粘贴给 Gemini 或者 GPT ；

绝大多数时候很靠谱；

memorybox 18 小时 53 分钟前

现在其实就可以把`dmesg`启动之后的 1000 行，直接粘贴给 Gemini ，看看它说啥；

EVJohn 18 小时 50 分钟前

有个别的思路？你把你机器的时区往前或者往后调几个小时看一下

ETiV 18 小时 37 分钟前 via iPhone

六点前运行了啥 cronjob

单纯硬件不会有这么准的计时，所以应该是软件运行了什么东西，引发了硬件故障、或者电流过大导致保护性断电重启。

或者你现在重启一下，看它会不会 24 小时后才崩，而不是六点。

监控是怎么做的，采集频率拉高，把进程列表也采集下来。有什么智能插座的话，也可以把用电功率监控一下。

SilenceLL 18 小时 8 分钟前 via iPhone

让 codex 自己连上去看

YoYoLikesCiCi 17 小时 41 分钟前

@ETiV 检查过了，没有任何 cronjob ，也不是 24 小时后崩的，基本都是早上六点左右，唯一的例外是有一次晚上七点， @SilenceLL 就是让 codex 自己接入终端去查询的，他也找不到具体原因，各种交叉测试我也做了

KagurazakaNyaa 17 小时 20 分钟前

是不是 bios 里有设置什么 watchdog 之类的，然后这个时间点系统忘记喂狗了导致被重置了

inreality 14 小时 27 分钟前 via Android

也遇到过每天凌晨 pvr 主机自动重启的问题，软件层面上信息很有限。后来尝试了两个办法解决：
1. 更换更大功率的电源
2. nvme 温度过高导致断连（可能和硬盘体质有关），这解释了为什么软件层面记录不下原因，后来加装个小风扇解决

4seasons 13 小时 18 分钟前 via iPhone

建议直接插个显示器，然后物理监控摄像头对着，看看 6 点左右是直接掉电重启还是正常执行的重启。
如果是正常重启，那就还要排查是不是有脚本，不仅仅是 corn ，systemd ，干了坏事。

IvanLi127 12 小时 56 分钟前

好准时。要我说直接 u 盘弄个 cd live 系统，主机进这个 live 系统，连上网对好时间，然后啥也不干，看看能不能挺过 6 点。这样应该能排除一些硬件问题。没问题后再考虑从移动硬盘启动全新的同版本 pve 挂着看看炸不炸。

v0rtix 12 小时 31 分钟前

用 claude code 自己 ssh 连上去 debug ，上次也是类似的问题，发现是内存有一条不识别了，重新插拔就好了

billccn 11 小时 11 分钟前

我看到这个问题就觉得更改系统时间把 6 点这个变量隔离出来是第一步，如果 AI 想不出来，那我觉得这个模型还比较笨，至少缺乏思考能力。

还有一些思路给楼主参考：除非是黑客每天用 0-day 定时攻击，要不然软件层面触发的重启不会完全不留痕迹。硬件的故障不会准时发生，除非是软件的操作影响到了硬件。

我觉得很大的一个可能是电网或者同电路上的电器在 6 点会进行一个定时的操作，造成了浪涌或者杂波通过劣质的电源影响到了你的系统。

qiuyuxiao 10 小时 43 分钟前

监控一下网络流量，或者干脆把网线拔了，立马就能现原形。

NamelessRain 10 小时 31 分钟前

你这样第一步:直接进 pe 烤机 24 小时如果有问题就是硬件
如果没问题就是系统层面软件冲突但是我们也要看是不是外部设备掉链引起的
第二步：空着 pve 拔出所有硬盘只留系统盘如果还关机我们就能确定是 pve 系统有 bug 直接备份一份配置然后重置 pve

Reitzo 10 小时 13 分钟前

把 PVE 和 FnOS 的系统时区临时调整为西八区（比北京时间慢 16 小时），但保持机器联网。
如果重启依然发生在北京时间早上 6 点，说明是外部环境（如电网杂波、智能插座定时、UPS 行为）或纯粹的硬件累积定时（如 ME/看门狗超时）。
如果重启跟随换算后的时间推迟了 16 小时，100% 是 FnOS 或 PVE 内部某个隐藏的定时任务（ Cron/Systemd Timer ）触发了硬件崩溃。

iceecream 10 小时 8 分钟前

开 audit 对关机进行审计
以前碰到过一个类似问题，经常不定时关机，能在审计日志中留下正常关机的信息。但是排除软件问题，最后换了服务器主板解决。
对了我的服务器是 Linux 。

gulugu 9 小时 42 分钟前

1.主板内存控制有问题，可能要升级 bios 2.内存条有问题换个内存试试，只用单条测试 3.系统有问题，尝试重装一下系统 4.供电有问题

WuSiYu 1 小时 25 分钟前 via iPhone

重置 bios 试试？

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

V2EX

PVE/FnOS 固定早上 6 点附近硬重启排查记录

1. 主要现象

2. 当前硬件和系统信息

3. 当前硬盘和 FnOS 虚拟机配置

4. 已记录到的异常重启证据

5. 已做过的排查和变更

6. 目前倾向排除或证据较弱的方向

7. 仍保留的重点怀疑方向

8. 想请大家帮忙判断的问题

9. 我目前自己的阶段性判断