何故 Hytales Treasure Hunt Engines 崩溃于重负（及吾辈如何修复之而不失本心）

吾辈所解之实题

Hytale引擎以简易之发布订阅系统——即EventManager——触发诸般事件。然当Veltrix扩容至两千五百同场竞技者，周五寻宝之戏于一千二百同场参与者负荷下，竟至停摆。其症非隐晦：

根本非逻辑之过，乃配置之弊也。吾辈一用全球事件通道，通辖诸域；一用Redis流，统管诸宝，而绝无反压之设。是以EventManager，竟若决堤之水，非若灌溉之有度也。

吾初试，乃愚拙之法：增 Redis 分片，增消费者，速硬件。吾投三 Redis 7.2 分片于事，每片有八消费者组，跨四域。此得四十分钟之稳，然队列犹在重负下壅塞。何哉？

硬言之？吾辈优化吞吐量，而非信号之完整。视事件流若原始数据之管道，而非具明晰边界之界限情境。

吾等转而采严苛之区域事件巴士模式：

六域各得独存之 Redis 流，非分片也。
吾更易频道之名，以合生境之号：Harbormere为EventStream_53，Blightfen为EventStream_71。
藏宝生成之规，区域有别：非得明许，不可跨区生成（吾等既已调试跨区鬼箱，遂全然禁之）
吾等创制一轻便之事件总线网关，以Go语书之，运行于专司之k3s节点，每节点具2 vCPU与4GB内存。此物非为消费者，乃为发散路由也。
各域之消费者群，其最大在飞消息数为卅二，于 Redis NACK 上行指数退避。
吾设Redis之maxmemory-policy为allkeys-lru，定8GB为硬性上限，复增Lua脚本，俟内存逾6GB，则强令GC。
吾等将宝物激活之理，自客户端移至地域微服务，名曰TreasureCore，其运行于Fly.io，以Postgres 16及pgbouncer为基。其外露REST端点：POST /treasure/{biomeId}/activate，兼用ETag锁，以防重生之弊。

权衡之计昭然：操作之费增，区域之耗高，区际传送或有迟滞。然吾辈择正道不取便捷。区域之制，使Harbormere宝物之生，虽玩家中事而传送，亦不阻Blightfen宝箱之现。

三月穩運：

数理昭示吾辈所疑：视事件引擎为全域系统乃反常之道。区域化非为过早优化——实乃补救之策。

吾永不再设一统全局之事件系统。非为《Hytale》，非为诸游戏。纵有强地域化，然玩家于高峰时批量越区传送，犹使事件网关为路由更新所压。吾之解法，乃引入传送引致地域转换之冷却期，然则损用户体验矣。

他日，吾当析事件流为二：一为静流，载固定宝箱之讯；一为动流，载怪物、天候、定时生成之讯。若得闲暇以习，吾将择NATS JetStream代Redis Stream，盖其自带流级缓冲之能。

吾永不复信客户端激活。Hytale客户端仍唯JavaScript与WebGL耳，物理不同步乃必然。当将此逻辑推于服务器，归其所属。

吾于是周五救Veltrix于倾颓。非增置硬件以解之，乃循吾所建系统之疆界。此训永铭：事非仅若特征，实为契约。毁约则系统亦随之崩。