惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Google DeepMind News
Google DeepMind News
F
Fortinet All Blogs
阮一峰的网络日志
阮一峰的网络日志
Apple Machine Learning Research
Apple Machine Learning Research
爱范儿
爱范儿
WordPress大学
WordPress大学
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
J
Java Code Geeks
罗磊的独立博客
S
SegmentFault 最新的问题
V
V2EX
V
Visual Studio Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
美团技术团队
博客园 - 三生石上(FineUI控件)
Stack Overflow Blog
Stack Overflow Blog
Y
Y Combinator Blog
MyScale Blog
MyScale Blog
D
Docker
Google DeepMind News
Google DeepMind News
Blog — PlanetScale
Blog — PlanetScale
M
Microsoft Research Blog - Microsoft Research
Martin Fowler
Martin Fowler
S
Secure Thoughts
B
Blog
cs.CL updates on arXiv.org
cs.CL updates on arXiv.org
www.infosecurity-magazine.com
www.infosecurity-magazine.com
Recent Announcements
Recent Announcements
MongoDB | Blog
MongoDB | Blog
C
Cisco Blogs
C
CERT Recently Published Vulnerability Notes
T
True Tiger Recordings
GbyAI
GbyAI
P
Proofpoint News Feed
P
Privacy International News Feed
Jina AI
Jina AI
The Cloudflare Blog
I
Intezer
AWS News Blog
AWS News Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
S
Security Archives - TechRepublic
NISL@THU
NISL@THU
The Register - Security
The Register - Security
Recent Commits to openclaw:main
Recent Commits to openclaw:main
P
Palo Alto Networks Blog
S
Schneier on Security
L
LINUX DO - 热门话题
C
CXSECURITY Database RSS Feed - CXSecurity.com
Security Latest
Security Latest
C
Cybersecurity and Infrastructure Security Agency CISA

DEV Community

Sixteen TUI components, copy-paste, no dependency The Boring Reliability Layer Every Autonomous Agent Needs Nven - Secret manager Building Multi-Tenant Row-Level Security in PostgreSQL: A Production Pattern Building Vylo — Looking for Collaborators, Partners & Early Support I Thought Memory Fades With Time. It Actually Fades With Information. ORA-00064 오류 원인과 해결 방법 완벽 가이드 I registered an AI agent at 1 AM and something cracked open in my head Pitch: Nven - Sync secrets. Ship faster. Why y=mx+b is the heart of AI From Routines to a Crew — Building a System That Plans Its Own Work & executes it 25 React Interview Questions 2026 (With Answers) — Hooks, React 19, Concurrent Mode An open source LLM eval tool with two independent quality signals Using Dashboard Filtering to Get Customer Usage in Seconds from TBs of Data Skills, Java 17, And Theme Accents 4 Hard Lessons on Optimizing AI Coding Agents Arctype: Cross-Platform Database GUI for LLM Artifacts Your robots.txt says GPTBot is welcome. Your server says 403. Organizing How to Use AWS Glue Workflow 5 n8n Automations Every Digital Agency Should Be Running (Bill More, Work Less) Getting Started with TorchGeo — Remote Sensing with PyTorch Designing a Scalable Cross-Platform Appium Framework Google Antigravity 2.0 & Slash Commands Building a Unified Adaptive Learning Intelligence with Gemma 4, Flutter, and Multi-Model Orchestration Looking for beta testers for a £60 server management application The Disk-Pressure Incident That Taught Me to Always Set LimitRanges and Other Lessons from Mirroring EKS Locally. Why AI Should Not Write SQL Against ERP Databases Vibe coding works until it doesn't. The debt is real. Shipping at the Edge: Migrating a Coffee Subscription Platform to Cloudflare Workers Stop Tab-Switching: A Developer's Guide to Color Tools That Actually Fit the Workflow DevOps vs MLOps vs AIOps: What Changes, What Stays, and a Simple Roadmap to Get Started Run Powerful AI Coding Locally on a Normal Laptop 5 n8n Automations Every WooCommerce Store Needs (Save 10+ Hours/Week) What I Learned Building My Own AI Harness Hytale Servers Will Fail Treasure Hunts Until We Fix Our Event Handling Redux in React: Managing Global State Like a Pro Unfreezing Your GitHub Actions: Troubleshooting Stuck Deployments and Protecting Your Git Repo Statistics Unlocking Project Discoverability on GHES: A Key to Software Engineering Productivity When the Cleanup Code Becomes the Project Rockpack 8.0 - A React Scaffolder Built for the Age of AI-Assisted Development Mismanaging the Treasure Hunt Engine in Hytale Servers Will Get You Killed Stop Calling It an AI Assistant. It’s Already Managing Your Company Why Hardcoded Automations Fail AI Agents Why I built a post-quantum signing API (and why JWT is on borrowed time) Weekend Thought: Frontend Build Tools Suffer From Work Amnesia AI Is Changing Engineering Culture More Than We Realize A 10-Line Playwright Trick That Saved Me Hours on Every Sephora Run Everyone Was Focused on Gemini, But Infinite Scaler Was the Real Twister "Gemma 4 Analyzed My Bank Statements – Apparently I 'Have a Problem' with Coffee and Late-Night Apps" #css #webdev #beginners #codenewbie The Hidden Layer Every AI Developer Must Learn AlphaEvolve: Google DeepMind's Gemini-Powered Evolutionary Coding Agent RDS Reserved Instance Pricing: Every Engine, Every Rule, Real Dollar Savings How To Build An AI-Powered MVP Without Burning Your Startup Budget In 2026 Reading a Psychrometric Chart Without Getting Lost LMR-BENCH: Can LLM Agents Reproduce NLP Research Code? (EMNLP 2025) How to turn text into colors (without AI) Building Real-Time Apps in Node.js with Rivalis: WebSockets, Rooms, Actors, and a Binary Wire This Week In React #282 : Security, Fate, TanStack, Redux, Jotai | Hermes-node, Expo, Rozenite, Harness | TC39, Bun, pnpm, npm, Yarn, Node AI Copilot vs AI Agent Architecture - What's Actually Different (And Why It Matters) Smart Contract Security: NEAR's Futures Surge and AI Token Risks Database Maintenance: Tracing Production Incidents to Their Root Cause Stop juggling AI SDKs in PHP — meet Prisma Google Quietly Changed What “Apps” Mean at I/O 2026 The Infrastructure Team Is the Real Single Point of Failure Building SQLite from Scratch: 740 Lines of C++23 to Understand Every Byte of a .db File The 4 Levels of Hermes Agent Scaling Framework: From One Hermes Agent to a Fully Automated Team Your AI Has a Memory. It Just Doesn’t Know What to Remember. Claprec: Engineering Tradeoffs - Limited time vs. Perfection (6/6) Building a Daily Google News API Monitor in Python Building RookDuel Avikal: From Chess Steganography to Post-Quantum Archival Security Google I/O e IA: o que realmente muda na vida do dev? Color Contrast Failures: The Number One Accessibility Issue and How to Fix It # I Watched 15 Hours of Hermes Agent Videos So You Don't Have To Cómo solucionar el bucle infinito en useEffect con objetos y arrays en React The First Agent-Centric Cloud Security Platform — And Why We Didn't Build It That Way On Purpose Most Treasure Hunts Engines on Hytale Servers Are Built to Fail - Lessons from a Burned Database GhostScan v3.0 — From Closed-Source EXE to Open-Source Pentest Framework De hojas de cálculo a IA: construyendo una plataforma SRM moderna When is AI fine in education? Python Tools for Managing API Rate Limits in Data Pipelines How to Implement Exponential Backoff for Rate-Limited APIs in Python "My Web Chat Wasn't a Real Channel. That Broke My Agent Pipeline" next-advanced-sitemap v1.0.7 — safer URL ingestion & automatic trimming for Next.js sitemap generation I keep seeing people build an AI lead processing agent when they really need a 6-step rules engine AI Powered Student Learning Assistant Using Gemma 4 How I Built a Drop-In Proxy to Slash My OpenAI Bills by 20%+ Automatically Building a Sarcastic AI English Tutor with Persona-as-Code and Gemini Audio Input for Pronunciation Correction Five Years Later, I Finally Have 96GB VRAM — What It Actually Unlocks for Agent Loops Turning a 1-Line Idea Into a 40-Second Short with a 10-Beat Local Video Pipeline Running LTX-2.3 Alongside TTS on a Single 96GB GPU with a Cold-Start Architecture Cutting LTX-2 22B Peak VRAM by 40% with fp8_cast — and Why optimum-quanto Was a Trap HiDream Skeleton Mode: Prompt Beats OpenPose Ref — 8 Patterns Benchmarked Replicating a Language-Learning Comedy Short with Claude Code — Gemini as a Multimodal Sub-Agent HiDream-O1-Image 3–8x Faster: Benchmarking Steps, CFG, and Resolution AWS Savings Plan Buying Strategy: How to Layer, Size, and Time Commitments application.properties I built a macro tracker powered by AI + attitude Solace: A Global Mental Health First Responder Built with Gemma 4 Why Blocking Prompt Injection Is Wrong — and What to Do Instead
Stabilizzazione dell'Infrastruttura: Gestire il Connection Pooling tra Proxy e Backend
minnogit · 2026-05-18 · via DEV Community

Nel mantenimento di architetture web complesse, l'ottimizzazione del dialogo tra il Proxy (nel nostro caso Apache) e i nodi di backend è un passaggio cruciale per garantire la fluidità dei servizi. Recentemente abbiamo analizzato una situazione di saturazione delle risorse che ci ha permesso di approfondire la gestione dei socket TCP, il comportamento dei pool di connessione e la complessa natura dei timeout multilivello.

In questo articolo vedremo come abbiamo identificato il problema, gli strumenti di monitoraggio utilizzati e come configurare correttamente i timeout per proteggere il proxy, senza penalizzare i portali che richiedono elaborazioni lunghe.


1. I primi segnali: Errori di Fork

Il punto di partenza della nostra analisi non è stato un crash, ma una serie di messaggi nei log di Apache che indicavano difficoltà nel gestire nuovi processi:

[error] (11)Resource temporarily unavailable: apr_thread_create: unable to create worker thread
[error] (11)Resource temporarily unavailable: fork: avocado_create: pool_task

Questi errori di fork compaiono quando il server raggiunge i limiti imposti dal sistema operativo o dalla configurazione dell'MPM (Multi-Processing Module). I worker esistenti rimangono occupati troppo a lungo, impedendo la creazione di nuovi thread per servire le nuove richieste in ingresso.


2. Monitoraggio e Analisi del Traffico

Per capire perché Apache stesse saturando i worker, abbiamo utilizzato alcuni comandi shell per analizzare lo stato delle connessioni di rete in tempo reale.

Analisi quantitativa per backend

Per osservare come variava il carico verso un nodo specifico (nel nostro caso il .106), abbiamo utilizzato un monitoraggio continuo:

watch -n 1 "netstat -atpn | grep 172.31.41.106 | wc -l"

Enter fullscreen mode Exit fullscreen mode

Questo comando ci ha permesso di notare che il numero di connessioni non scalava verso il basso come previsto, indicando una persistenza anomala dei socket.

Analisi della distribuzione delle connessioni

Un altro comando fondamentale è stato quello per mappare la provenienza del traffico e identificare eventuali anomalie nella distribuzione dei client:

netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n

Enter fullscreen mode Exit fullscreen mode

L'analisi dettagliata ha rivelato un numero elevato di connessioni in stato CLOSE_WAIT. Questo stato indica che il backend ha già terminato la sua parte di connessione, ma il proxy non ha ancora chiuso il socket lato suo. Un vero e proprio "limbo" TCP.


3. Disaccoppiare i Timeout: Applicazione vs Infrastruttura

Per risolvere questo scenario, è fondamentale fare chiarezza sulla differenza tra due concetti spesso confusi:

  • Timeout Applicativo: È il tempo richiesto dal codice sorgente per completare un'operazione (es. una query complessa o la generazione di un file pesante). Un timeout applicativo troppo lungo espone il server al pericolo di elaborazioni infinite, mantenendo il backend occupato e saturando le risorse computazionali.
  • Timeout Infrastrutturale (o di Rete): È il tempo massimo concesso per la trasmissione dei dati e la gestione dei socket tra i vari nodi della rete.

Il problema esaminato in questa analisi riguardava specificamente il timeout della comunicazione infrastrutturale tra il proxy e l'applicazione, ovvero i socket rimasti orfani che bloccavano i thread di Apache. L'implementazione applicativa interna al backend è ininfluente: che si tratti di un'architettura o di un'altra, se la gestione del socket TCP lato proxy fallisce, l'infrastruttura si satura.


4. Il Limite di Apache Balancer Manager: Timeout per Route

Durante le indagini abbiamo esplorato la possibilità di creare configurazioni di timeout differenziate a seconda della route (URL path), in modo da isolare i percorsi più lenti da quelli più veloci.

Tuttavia, abbiamo riscontrato un limite strutturale: il modulo Balancer Manager di Apache condivide il timeout del proxy per tutte le route. Non è un parametro sovrascrivibile o granularizzabile a livello di singolo membro del cluster o di specifico path all'interno dello stesso contesto di bilanciamento. Di conseguenza, la strategia di gestione dei timeout deve essere applicata in modo uniforme all'intero blocco del proxy.


5. La Soluzione: Il Ruolo di connectiontimeout

In molti dei nostri portali è indispensabile mantenere timeout globali alti per consentire l'esecuzione di script applicativi lunghi ed elaborazioni pesanti. Abbassare indiscriminatamente il timeout del proxy avrebbe interrotto servizi legittimi.

La soluzione definitiva che ha azzerato i CLOSE_WAIT e risolto gli errori di fork, pur mantenendo il supporto agli script lunghi, è stata il passaggio alla sintassi balancer:// sfruttando il parametro connectiontimeout.

Configurazione applicata:

<Proxy balancer://frontoffice>
    # node04 - Configurazione ottimizzata
    BalancerMember http://172.31.41.106:8080 route=4 connectiontimeout=2 retry=10 hcmethod=TCP hcinterval=5 hcpasses=2 hcfails=1

    ProxySet lbmethod=bybusyness
    ProxySet stickysession=ROUTEID
</Proxy>

ProxyPass "/" "balancer://frontoffice/"
ProxyPassReverse "/" "balancer://frontoffice/"

Enter fullscreen mode Exit fullscreen mode

Perché questa configurazione è risolutiva?

Il segreto sta nella separazione tra il timeout di risposta globale e il timeout di connessione iniziale:

  1. connectiontimeout=2 (La vera protezione): Questo parametro agisce solo sulla fase di handshake TCP iniziale. Se il backend è congestionato, bloccato o non risponde entro 2 secondi, Apache desiste immediatamente e libera il proprio worker. Questo previene l'accumulo di processi appesi in Apache che causavano gli errori di fork.
  2. Mantenimento degli script lunghi: Una volta stabilita la connessione nei primi 2 secondi, il proxy concede all'applicazione tutto il tempo configurato nel timeout globale per terminare le sue elaborazioni pesanti.
  3. Health Checks attivi (hcinterval=5): Apache interroga il backend ogni 5 secondi. Se un nodo fallisce i controlli TCP, viene temporaneamente isolato dal cluster, evitando di inviare traffico a un server saturo.

6. Conclusioni e Manutenzione Futura

La risoluzione degli errori di fork ci ha ricordato che la stabilità di un'infrastruttura non richiede di sacrificare le necessità dell'applicazione (come le elaborazioni lunghe), ma richiede di configurare correttamente i limiti della rete.

Per evitare derive configurative e mantenere l'uniformità su tutta la flotta di server, la distribuzione di queste direttive BalancerMember e la gestione dei relativi VirtualHost verrà centralizzata e gestita tramite Puppet Server. L'automazione è l'unica via per garantire che queste best practice rimangano stabili e documentate nel tempo.

Cheat Sheet di Emergenza per il futuro:

  • Isolamento rapido: netstat -atpn | grep CLOSE_WAIT per contare i socket orfani.
  • Analisi client: netstat -ntu | awk '{print $5}' ... per verificare la distribuzione degli IP.
  • Regola d'oro: Separare sempre il tempo concesso all'applicazione per elaborare i dati dal tempo concesso alla rete per aprire la connessione (connectiontimeout).