惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

MyScale Blog
MyScale Blog
C
CXSECURITY Database RSS Feed - CXSecurity.com
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
阮一峰的网络日志
阮一峰的网络日志
罗磊的独立博客
博客园 - 叶小钗
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
美团技术团队
酷 壳 – CoolShell
酷 壳 – CoolShell
雷峰网
雷峰网
宝玉的分享
宝玉的分享
大猫的无限游戏
大猫的无限游戏
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
Last Week in AI
Last Week in AI
爱范儿
爱范儿
小众软件
小众软件
K
Kaspersky official blog
P
Proofpoint News Feed
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
博客园 - Franky
V
Vulnerabilities – Threatpost
博客园_首页
Microsoft Security Blog
Microsoft Security Blog
C
Cybersecurity and Infrastructure Security Agency CISA
V
V2EX
C
Check Point Blog
S
Schneier on Security
P
Palo Alto Networks Blog
IT之家
IT之家
GbyAI
GbyAI
T
Threat Research - Cisco Blogs
Hugging Face - Blog
Hugging Face - Blog
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Apple Machine Learning Research
Apple Machine Learning Research
C
Cyber Attacks, Cyber Crime and Cyber Security
T
Tailwind CSS Blog
Project Zero
Project Zero
Y
Y Combinator Blog
V
Visual Studio Blog
Simon Willison's Weblog
Simon Willison's Weblog
T
Threatpost
Scott Helme
Scott Helme
L
LINUX DO - 热门话题
S
Securelist
C
CERT Recently Published Vulnerability Notes
A
Arctic Wolf
M
MIT News - Artificial intelligence
人人都是产品经理
人人都是产品经理

V2EX

家有老人,看电视直播有啥软件 净水器有没有必要按时更换滤芯 Draw io 之类的画图工具是不是非常有必要? cursor 的次数套餐以后应该都用不了新模型了 copilot 更新了 Claude code cli? openrouter 使用国外模型 V 站为什么不能进行回复互动? 买了咸鱼低价 Gemini pro,账号差点被盗。突然发现国内诈骗成本为零 hermes session 会话标题是不能自定义的吗? 爱上合租妹子 5 - 掰指头看甜蜜蜜 感觉职场对新人会越来越不友好 中转站三步曲 看看你的中转站到哪一步了 现在还有人倒腾 NDS/NDSi 和烧录卡吗? 未来会靠 token 活着吗? Gemini 手机版客户端登陆总是在此国家/地区无法使用 gemini APIv2 新增置顶主题接口 ⛽ RootFlow AI — Opus 4.7 重磅上线,限时福利 [加群领 10U 额度 评论留 ID 再发 5U] IOS 版本 Telegram 原生支持中文了? 一个 Hacker News 命令行工具(CLI) 感觉 gpt 这些低价渠道要爆了 hermes-agent 使用场景是什么,真的有人常用吗 token 可以被保存吗? 独立开发|做了个「情簿子」小程序,解决人情往来记账痛点,无广告无套路 claude code 和 codex 在 vibe coding 还有质的区别吗? 买了台新的 air m5,感觉触控板明显不如 m1 顺滑,有办法解决吗? 阿里 Coding Plan 一天三变, Lite 版本到期不能续费了 [抽奖/支付现金红包] 因为收藏夹太乱太杂,所以我花了半年做了一个产品社区:产品派 RAG 难以让人满意啊 2026 年了,这个世界还存在互联网精神🥹 [2026 年 4 月]当前哪一家的 token 输出最快?被 minimax/glm 折磨疯了?现在哪一家反应能稳定一些? Codex 这个申请权限的交互好有意思 两个账号阵亡,尼区 Claude Pro 订阅 租房之旅-感觉这次很幸运 GPT Plus 1 个月, 18 元包质保 分享下最近低价 GPT Codex 的来源(源头) 手搓宝宝监护器 OpenAI 发布 Codex 重大更新:支持自动操作电脑与长期任务自动化 移动下场了。免费送一个月 coding Plan(3w 次调用) 试着把个人博客转成小程序,结果腾讯审核不让过,说有信息资讯? 我把 Claude Opus 4.7 的 HN+V2EX 吐槽贴扒了一遍,发现了一些有意思的东西 使用 claude 从 0 开始开发一个校友会系统可行吗 做了个 iOS 成语填字 APP,送 50 个终身会员 [送码]多角色沉浸式听书 app, 送 20 个订阅,注册留邮箱即可 typeC 转 USB 的转换头有质量差异吗 继续启动!全程质保的 gpt plus!中年程序员副业的第四天 同一个 appleid 可以给不同 chatGPT 账号订阅 plus 吗? 自动驾驶项目开发建议 AI 大模型明星项目|诚聘 Data Engineer & Web Scraping Engineer(新加坡|可办签证 | 代发) setapp 这是啥意思,放进来还要收钱? 终于, 降智几天之后, opus4.7 出来了 自己开发了个 VSCODE 扩展,可以接入自定义的模型,并且可以导出 Copilot 的聊天列表到其它设备上导入 Claude 这对吗 某鱼上 codex 的价格这么便宜是否有猫腻? 🎉 Claude Opus 4.7 来啦~ 大家体验下来如何? 让 ai 重写了整个 git 的历史,强迫症被拯救了 [分享创造] 写了个自托管的 Chrome 同步服务器,书签密码再也不经过 Google 快讯, Claude Opus 4.7 已经可以使用。 我把 Karpathy 的 LLM + Obsidian 知识库方法论落地了,跑了一周数据超出预期 Opus4.7 来了,网页版先上,桌面版本客户端暂时未看到 程序员历时一年转型成功的一些思考 花露水电商专供和线下有区别么 各位想本地部署大模型的看过来, 有台电脑想转让, 具体请查看截图, 价格请自己开价 OpenAI 最新图片模型 GPT-image-2 已经发布,快来 gptimage-2.co 免费体验吧 这样用 ClaudeCode 怎么样? 一行命令检测 VPS 能否访问 Claude API(含实际请求测试) cursor 按次数套餐用不了 opus4.7 呢 pixel og 充不进去电 之前 5 年没使用了,怎么办啊 浅试了一下 Qwen3.6-35B-A3B,很强 忽然想我爷了 天翼云 glm5.1 codingplan 官方玩不起,强制终止用户的包月续订 我用 AI 写代码,但终端管理反而成了累赘——于是我做了 codux [调研] 各位在公司都用什么 ide 和 agent 写代码? 过 seekingalpha 的 PerimeterX 在北京泡到了性价比超高的私汤温泉! 美国号码除了美区 PayPal 绑定应用商店、美国相关的账户,还有什么必须使用的用途吗? V2EX › 登录 jptimagine2.com llms.txt [送码]做了个 Cloudflare 监控 App - FlareKit,送点兑换码 (真实性待验证)关于低价 GPT 账号怎么来的 苹果即将推出 A19pro 芯片的小主机 Mac Neo,是真的吗? Telegram 倒计时目标推送机器人 V2EX › 登录 openclaw 都谁在用啊,我感觉是真的太难用了 丹麦国别域名(.dk)政策变更 目前付费订阅 chatgpt Plus 的最佳方式是什么? Weeko 更新了 CLI 和 Skills —— 一个给人类和 AI 同时使用的稍后读工具 搞了个资源分享站: pantashare.com 老运维 share 一个运维平台 别再写 Selenium 了!这个 AI Agent 一条命令搞定浏览器自动化 搬瓦工后台大家能打开吗? DESIGN.md 被反诈拦截 自家茶叶 26 年新茶上市,评论抽奖 新电脑 brew install node 之后,一个小设置可以提升对供应链投毒的防御 最近看了下阿里云国际站 OSS,感觉比较适合文件多一点的网站! 看到有公司考核 token 指标,很好奇大家上个月的 AI 账单是多少 狗东上的特价自营榴莲线报,有兴趣的可以上车 [顺德/上海] 前端开发工程师(工业软件方向)- 磁悬浮运动控制 做了一个 SVG 在线工具站: svg-to-code.com GLM-Coding 调用持续报错: z.ai 的 Lite 套餐几乎无法使用,官方 Pro/Max 是否稳定? Solana 上可以买到 Anthropic (Claude) 的未上市的股票
PVE 主机两三天就会在早上 六点左右重启一次,尝试过各种排查方法,还是找不到原因。
YoYoLikesCiCi · 2026-06-13 · via V2EX

借助 GPT ,将具体的现象、配置、排查方案写出来了,会有一点长,希望 V2 上的富有经验的大佬能给点头绪:

PVE/FnOS 固定早上 6 点附近硬重启排查记录

这是一台家用 Proxmox VE 主机,主要跑一个 FnOS/飞牛 NAS 虚拟机。最近多次出现早上 6 点附近自动重启,表现更像硬断电/硬复位,而不是系统内正常 reboot/shutdown 。下面是目前的硬件信息、排查过程和阶段性结论,想请大家帮忙判断更像主板/BIOS/ME/ACPI 、电源、SATA 控制器/硬盘链路,还是 PVE/FnOS/驱动层的问题。

1. 主要现象

  • PVE 主机多次在早上 6 点附近突然重启。
  • journalctl --list-boots 显示上一个 boot 在 5:59 左右戛然而止,随后 6:00/6:01 进入新 boot 。
  • 重启前没有看到正常关机链路,也没有看到明确的 kernel panic 、MCE 、OOM 、pstore 崩溃记录。
  • NVMe SMART 的 Unsafe Shutdowns 会随这类重启增加,因此更像硬断电/硬复位。
  • 重启前自建监控记录显示 CPU 温度、NVMe 温度、负载都不高。
  • 问题常集中在早上 6 点附近,但不是每天必现。

2. 当前硬件和系统信息

PVE:

  • Proxmox VE: pve-manager 9.1.1
  • Kernel: 6.17.2-1-pve
  • Hostname: pve
  • Kernel cmdline:
    • i915.enable_guc=3
    • i915.max_vfs=7
    • module_blacklist=xe

主板 / BIOS / CPU:

  • 主板: MAXSUN MS-eSport Z890M
  • BIOS: B3.4D
  • BIOS Release Date: 06/16/2025
  • CPU: Intel Core Ultra 5 245K
  • CPU 线程: 14 CPUs14 cores1 thread per core
  • 虚拟化: VT-x

内存:

  • 当前总内存约 32GB
  • 当前插了两条 DDR5 4800:
    • Maxsun 16GB, Part Number MSD516G60AX5-D40M0
    • JUHOR 16GB, Part Number JHE4800U4016JG
  • 注意: 之前多次重启发生时只有一条 16GB 内存,2026-06-13 早上重启后才加了第二条内存。

系统盘:

  • NVMe: ZHITAI TiPro5000
  • NVMe SMART 中 Media and Data Integrity Errors = 0
  • 但异常重启时 Unsafe Shutdowns 会增加。

PCI / 控制器:

  • 板载 SATA:
    • 80:17.0 Intel SATA controller [8086:7f62]
    • 当前驱动: ahci
  • SATA 扩展卡:
    • 83:00.0 ASMedia ASM1166 Serial ATA Controller [1b21:1166]
    • 当前驱动: ahci
  • 网卡:
    • Realtek RTL8125 2.5GbE
  • 之前测试中拔掉过 UPS USB ,只留过 USB 网卡;后续也拔掉过 USB 网卡做排除。

3. 当前硬盘和 FnOS 虚拟机配置

当前 PVE 能看到 9 块 SATA 硬盘。

板载 Intel SATA 上的 4 块盘:

sda  WDC WUH721816ALE6L4    4MGYAVMH    14.6T
sdb  WDC WD200EDGZ-11CNKA0  SSG538VD    18.2T
sdc  WDC WUH721816ALE6L4    2BJE0JTN    14.6T
sdd  WDC WUH721816ALE6L4    2JJGZEJB    14.6T

ASMedia ASM1166 上的 5 块盘:

sde  TOSHIBA MG08ACA14TE      5160A01BFRVH  12.7T
sdf  TOSHIBA DT01ACA300       38SJTMEAS      2.7T
sdg  WDC WD140EDGZ-11B1PA0    7LGHSPUK      12.7T
sdh  ST2000DM006-2DM164       Z4Z80PNS       1.8T
sdi  WDC WD100EMAZ-00WJTA0    JEKV1V2Z       9.1T

FnOS VM:

  • VMID: 105
  • Name: FnOS
  • Machine: q35
  • CPU: host
  • Cores: 8
  • Memory: 10144 MB
  • 系统盘: sata0 local-lvm:vm-105-disk-0,size=200G
  • 当前采用硬盘路径直通,不是整控制器直通。

当前 FnOS 直通盘:

sata1: /dev/disk/by-id/ata-TOSHIBA_MG08ACA14TE_5160A01BFRVH
sata2: /dev/disk/by-id/ata-TOSHIBA_DT01ACA300_38SJTMEAS
sata3: /dev/disk/by-id/ata-WDC_WD140EDGZ-11B1PA0_7LGHSPUK
sata4: /dev/disk/by-id/ata-ST2000DM006-2DM164_Z4Z80PNS
sata5: /dev/disk/by-id/ata-WDC_WD100EMAZ-00WJTA0_JEKV1V2Z
scsi1: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_4MGYAVMH
scsi2: /dev/disk/by-id/ata-WDC_WD200EDGZ-11CNKA0_SSG538VD
scsi3: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_2BJE0JTN
scsi4: /dev/disk/by-id/ata-WDC_WUH721816ALE6L4_2JJGZEJB

说明:

  • 之前曾经用过 SATA 控制器直通。
  • 后来为了排查,改成了单盘 by-id 直通。
  • 也测试过 vfio-pci 绑定 SATA 控制器,但后来按“硬盘直通”思路取消了 PCI 隔离,目前两个 SATA 控制器都由 PVE 的 ahci 接管。

4. 已记录到的异常重启证据

部分 boot history:

Sat 2026-05-30 06:01:21 进入新 boot
Tue 2026-06-09 05:59:57 上一个 boot 截止
Tue 2026-06-09 06:00:39 进入新 boot
Sat 2026-06-13 05:59:44 上一个 boot 截止
Sat 2026-06-13 06:01:14 进入新 boot

2026-06-13 早上这次比较关键:

  • 上一个 boot: 2026-06-11 22:58:332026-06-13 05:59:44
  • 新 boot: 2026-06-13 06:01:14
  • 重启前最后 heartbeat:
    • 时间: 2026-06-13T05:59:44+08:00
    • FnOS 状态: running
    • 负载: 0.10 0.11 0.09
    • 内存: 总计约 15465M,可用约 3452M
    • CPU/NVMe 温度约 43-44C
    • NVMe Unsafe Shutdowns 在这次异常后从 96 增到 97

这次重启发生时,原来那 4 块板载 SATA 硬盘已经被拔掉/不参与,只保留了 ASM1166 扩展卡上的 5 块盘。因此“板载 SATA 那 4 块盘或板载 SATA 控制器是必要触发条件”这个假设基本被削弱;至少已经做过“仅扩展卡 5 块盘”的测试,且仍然复现 6 点附近异常重启。

2026-06-13 10:35 到 10:54 还有一次关机/开机:

  • 这是人为加内存、插回 4 块硬盘导致的维护关机。
  • 这次没有增加 NVMe Unsafe Shutdowns,和 6 点异常重启性质不同。

5. 已做过的排查和变更

电源/外部供电:

  • 怀疑过智能插座/插线板。
  • 同一个插线板上接了一个断电就会熄灭的台灯,异常期间台灯未灭。
  • 这能降低“外部市电/插线板整体断电”的可能性,但不能排除主机电源、SATA 供电线、瞬态负载、主板复位。

BIOS:

  • 进 BIOS 看过,没有发现 RTC 定时开机配置。
  • 没有开启断电后自动开机。
  • 没找到明确的 watchdog 设置。
  • BIOS 中能看到一些电源管理选项,但没有发现能解释固定 6 点自动启动/重启的配置。

PVE 服务:

  • 停掉过一些不必要的 PVE 集群/HA 相关服务。
  • 启动日志里仍有 corosync/quorum_initialize failed 之类信息,但这类信息出现在开机阶段,更像单节点/集群服务状态问题,不像重启前触发原因。

监控:

  • 配了自定义 heartbeat 和 boot report:
    • /var/log/pve-watch/heartbeat.log
    • /var/log/pve-watch/boot-report.log
  • 这些日志能记录每分钟左右的温度、负载、内存、FnOS 状态、NVMe SMART 、上一次 heartbeat 等。
  • 目前证据显示异常发生前温度、负载并不高。

USB:

  • UPS 的 USB 线曾经拔掉。
  • USB 网卡也拔掉做过排查。
  • 目前没有看到 USB 设备直接导致重启的证据。

FnOS / 硬盘直通:

  • 之前 FnOS 使用过 SATA 控制器直通。
  • 后来改成硬盘 by-id 直通,以便做交叉测试。
  • 测试过只接 5 块盘,仍然在 2026-06-13 早上 6 点附近重启。
  • 这 5 块盘是在 ASM1166 SATA 扩展卡上;当时板载 SATA 的 4 块盘已经拔掉/不参与,所以“禁用/不使用板载 SATA 硬盘链路”这个方向已经测试过。
  • 后续又插回原来 4 块盘,并将 9 块盘都直通给 FnOS 。

硬盘 SMART / SATA 错误:

  • 插回原来 4 块盘后,smartd 报过两块盘 ATA error count 增加:
/dev/sda WDC WUH721816ALE6L4 4MGYAVMH:
ATA error count increased from 0 to 578

/dev/sdc WDC WUH721816ALE6L4 2BJE0JTN:
ATA error count increased from 476 to 2113
  • 这说明原来那组板载 SATA 上至少有两块盘/链路存在历史或累计 ATA 错误。
  • 但 2026-06-13 早上 6 点那次重启发生时这 4 块盘不在机器上,所以这些错误不能单独解释那次 6 点重启。

6. 目前倾向排除或证据较弱的方向

  • 普通系统内 reboot/shutdown: 没有正常关机链路。
  • 温度过高: 重启前监控温度正常。
  • 明确 OOM: 没看到 OOM 证据。
  • 明确 kernel panic/MCE: 当前没有抓到 panic 、MCE 、pstore 证据。
  • 仅由原来 4 块板载 SATA 硬盘或板载 SATA 控制器导致: 可能性明显下降,因为只保留 ASM1166 扩展卡上 5 块盘、板载 SATA 4 块盘不参与时也重启过。
  • 仅由新加的第二条内存导致: 不成立,因为第二条内存是 2026-06-13 早上重启后才加的。

7. 仍保留的重点怀疑方向

  1. 主板 / BIOS / ME / ACPI / 电源管理 / 平台复位问题

    • 启动时有较多 ACPI BIOS Error ,例如 Could not resolve symbol [\_SB.UBTC.RUCC]
    • 不确定这些 ACPI 错误是否只是常见无害日志,还是和 USB/电源管理/平台复位有关。
  2. 电源或供电瞬态问题

    • 台灯未灭只能说明外部供电没有整体断。
    • 不能排除 PSU 、SATA 电源线、硬盘同时唤醒/负载变化导致的瞬时掉压或主板复位。
  3. SATA 扩展卡 ASM1166 / SATA 链路 / 硬盘组合问题

    • 只接 ASM1166 扩展卡上的 5 块盘时也出现 6 点重启。
    • 原来板载 SATA 4 块盘中又有两块出现 ATA error count 。
    • 可能不是单一硬盘,而是硬盘、供电线、SATA 线、扩展卡、主板 PCIe/SATA 子系统共同触发。
  4. FnOS 6 点附近任务触发的负载

    • 异常重启前 FnOS 是 running 。
    • 如果 FnOS 在 6 点有备份、校验、索引、清理、SMART 、快照、Time Machine 相关任务,可能触发大量磁盘 IO 或硬盘唤醒。
    • 但这更像“触发器”,不一定是根因,因为宿主机是硬复位级别。
  5. PVE 9.1 / kernel 6.17 / 新平台驱动兼容性

    • Z890 + Core Ultra 平台较新。
    • 也可能和 kernel 6.17 、AHCI 、IOMMU 、虚拟化、iGPU SR-IOV 参数有关。
    • 可以考虑用旧一点的 PVE kernel 6.8 做对照测试。

8. 想请大家帮忙判断的问题

  1. 这种每次 journalctl 截止在 5:59 ,随后 6:00/6:01 新 boot ,且 NVMe Unsafe Shutdowns 增加的情况,是否基本可以判断为硬复位/断电类,而不是 Linux 正常崩溃?

  2. MAXSUN Z890M / Arrow Lake / Core Ultra 245K 在 Linux/PVE 下,启动日志里的这些 ACPI BIOS Error 是否可能和定时硬复位有关?

  3. ASM1166 SATA 扩展卡 + 多块机械硬盘,在每天固定任务时间附近触发整机 reset ,是否有人遇到过?

  4. 如果要进一步区分主板、电源、SATA 扩展卡、硬盘、PVE kernel/FnOS 任务,下一步最有效的交叉测试应该怎么设计?

  5. 是否建议优先:

    • 换 PSU / 单独给硬盘供电;
    • 换 SATA 扩展卡;
    • BIOS 升级/降级或更新 ME ;
    • PVE 切回 kernel 6.8 ;
    • FnOS 停机跨过 6 点;
    • 跑 MemTest86 ;
    • 暂停 FnOS 所有 6 点附近任务;
    • 给 PVE 配串口/netconsole/远端 syslog 抓崩溃前最后输出?

9. 我目前自己的阶段性判断

现在最不像的是普通软件层面的正常重启;更像硬断电/硬复位。由于只保留 5 块 ASM1166 硬盘时仍然重启,不能再简单归因于原来那 4 块硬盘。但原来 4 块盘中两块有明显 ATA error count ,也说明存储链路确实存在问题。

目前我个人更倾向优先怀疑:

  1. 主板/BIOS/ME/ACPI/平台电源管理或复位问题;
  2. PSU 或 SATA 供电瞬态问题;
  3. ASM1166/SATA/硬盘组合在 FnOS 6 点任务触发下造成硬件级异常;
  4. PVE kernel 6.17 在这套较新平台上的兼容性问题。

下一步我倾向做的排除测试:

  • FnOS 关机跨过 6 点,验证 PVE 空载是否还重启。
  • 若 PVE 空载稳定,再启动 FnOS 但关闭 6 点附近所有任务。
  • 用 PVE kernel 6.8 做对照。
  • 跑 MemTest86 ,尤其现在是两条不同品牌 DDR5 。
  • /dev/sda/dev/sdc 做完整 SMART 检查和长测。
  • 有条件的话换 PSU 或给机械硬盘单独供电测试。
  • 有条件的话换掉 ASM1166 扩展卡,或反过来只用板载 SATA 跨 6 点做对照;“仅扩展卡 5 盘”已经测过且复现。

  • 重启
  • 硬件
  • 电源

    28 条回复    2026-06-14 06:06:58 +08:00

    shinciao

    1

    shinciao      19 小时 38 分钟前

    之前遇到过类似的问题,也是自组硬件的 pve ,从某天开始经常早上一起来发现已断电关机。因为电源用的是二手矿电,没做排除直接买了新电源换上就好了。这种表现我更倾向是硬件问题,但是你这个如果确定是时间比较固定的话就不好说了。

    EVJohn

    2

    EVJohn      18 小时 57 分钟前

    老哥,有没有考虑过是电能质量的问题?

    就是在那个电源前面接个 UPS ,或者是接个大疆“一度电”这种户外电源试一下。我感觉应该是电能质量波动,所以让你的那个机器重启。

    或者像上面那位老哥说的一样,你去弄个电源回来做 AB 测试一下。

    memorybox

    4

    memorybox      18 小时 54 分钟前

    可以先尝试最简单的排障方法;异常重启后,把`dmesg`和/var/syslog 相关时间段的信息直接粘贴给 Gemini 或者 GPT ;

    绝大多数时候很靠谱;

    memorybox

    5

    memorybox      18 小时 53 分钟前

    现在其实就可以把`dmesg`启动之后的 1000 行,直接粘贴给 Gemini ,看看它说啥;

    EVJohn

    6

    EVJohn      18 小时 50 分钟前

    有个别的思路?你把你机器的时区往前或者往后调几个小时看一下

    ETiV

    7

    ETiV      18 小时 37 分钟前 via iPhone   ❤️ 1

    六点前运行了啥 cronjob

    单纯硬件不会有这么准的计时,所以应该是软件运行了什么东西,引发了硬件故障、或者电流过大导致保护性断电重启。

    或者你现在重启一下,看它会不会 24 小时后才崩,而不是六点。

    监控是怎么做的,采集频率拉高,把进程列表也采集下来。有什么智能插座的话,也可以把用电功率监控一下。

    SilenceLL

    8

    SilenceLL      18 小时 8 分钟前 via iPhone

    让 codex 自己连上去看

    YoYoLikesCiCi

    9

    YoYoLikesCiCi      17 小时 41 分钟前

    @ETiV 检查过了,没有任何 cronjob , 也不是 24 小时后崩的,基本都是早上六点左右,唯一的例外是有一次晚上七点, @SilenceLL 就是让 codex 自己接入终端去查询的,他也找不到具体原因,各种交叉测试我也做了

    KagurazakaNyaa

    11

    KagurazakaNyaa      17 小时 20 分钟前

    是不是 bios 里有设置什么 watchdog 之类的,然后这个时间点系统忘记喂狗了导致被重置了

    inreality

    13

    inreality      14 小时 27 分钟前 via Android

    也遇到过每天凌晨 pvr 主机自动重启的问题,软件层面上信息很有限。后来尝试了两个办法解决:
    1. 更换更大功率的电源
    2. nvme 温度过高导致断连(可能和硬盘体质有关),这解释了为什么软件层面记录不下原因,后来加装个小风扇解决

    4seasons

    14

    4seasons      13 小时 18 分钟前 via iPhone

    建议直接插个显示器,然后物理监控摄像头对着,看看 6 点左右是直接掉电重启还是正常执行的重启。
    如果是正常重启,那就还要排查是不是有脚本,不仅仅是 corn ,systemd ,干了坏事。

    IvanLi127

    15

    IvanLi127      12 小时 56 分钟前

    好准时。要我说直接 u 盘弄个 cd live 系统,主机进这个 live 系统,连上网对好时间,然后啥也不干,看看能不能挺过 6 点。这样应该能排除一些硬件问题。没问题后再考虑从移动硬盘启动全新的同版本 pve 挂着看看炸不炸。

    v0rtix

    18

    v0rtix      12 小时 31 分钟前

    用 claude code 自己 ssh 连上去 debug ,上次也是类似的问题,发现是内存有一条不识别了,重新插拔就好了

    billccn

    19

    billccn      11 小时 11 分钟前

    我看到这个问题就觉得更改系统时间把 6 点这个变量隔离出来是第一步,如果 AI 想不出来,那我觉得这个模型还比较笨,至少缺乏思考能力。

    还有一些思路给楼主参考:除非是黑客每天用 0-day 定时攻击,要不然软件层面触发的重启不会完全不留痕迹。硬件的故障不会准时发生,除非是软件的操作影响到了硬件。

    我觉得很大的一个可能是电网或者同电路上的电器在 6 点会进行一个定时的操作,造成了浪涌或者杂波通过劣质的电源影响到了你的系统。

    qiuyuxiao

    20

    qiuyuxiao      10 小时 43 分钟前

    监控一下网络流量,或者干脆把网线拔了,立马就能现原形。

    NamelessRain

    21

    NamelessRain      10 小时 31 分钟前

    你这样 第一步:直接进 pe 烤机 24 小时 如果有问题就是硬件
    如果没问题就是系统层面软件冲突 但是我们也要看是不是外部设备掉链引起的
    第二步:空着 pve 拔出所有硬盘只留系统盘 如果还关机我们就能确定是 pve 系统有 bug 直接备份一份配置 然后重置 pve

    Reitzo

    23

    Reitzo      10 小时 13 分钟前

    把 PVE 和 FnOS 的系统时区临时调整为西八区(比北京时间慢 16 小时),但保持机器联网。
    如果重启依然发生在北京时间早上 6 点,说明是外部环境(如电网杂波、智能插座定时、UPS 行为)或纯粹的硬件累积定时(如 ME/看门狗超时)。
    如果重启跟随换算后的时间推迟了 16 小时,100% 是 FnOS 或 PVE 内部某个隐藏的定时任务( Cron/Systemd Timer )触发了硬件崩溃。

    iceecream

    24

    iceecream      10 小时 8 分钟前

    开 audit 对关机进行审计
    以前碰到过一个类似问题,经常不定时关机,能在审计日志中留下正常关机的信息。但是排除软件问题,最后换了服务器主板解决。
    对了我的服务器是 Linux 。

    gulugu

    25

    gulugu      9 小时 42 分钟前

    1.主板内存控制有问题,可能要升级 bios 2.内存条有问题 换个内存试试,只用单条测试 3.系统有问题,尝试重装一下系统 4.供电有问题

    WuSiYu

    28

    WuSiYu      1 小时 25 分钟前 via iPhone

    重置 bios 试试?