Проект Cozystack представил переработанный etcd-operator с новым API

В рамках проекта etcd-operator сообщество развивает оператор для развёртывания и сопровождения кластеров etcd в Kubernetes. На днях он был передан проекту Cozystack (CNCF Sandbox). Перед этим команда опубликовала написанную с нуля реализацию оператора с новой версией API — etcd-operator.cozystack.io/v1alpha2. Эта версия пришла на смену etcd.aenix.io/v1alpha1. Вместо управления узлами через StatefulSet новый оператор напрямую задействует штатный Membership API etcd (операции MemberAdd, MemberPromote и MemberRemove), что позволяет ему полностью контролировать состав кластера. Автор новой реализации — Тимофей Ларкин, один из мейнтейнеров прежнего оператора (старый код остался в ветке v1alpha1). Проект написан на Go и распространяется под лицензией Apache 2.0.

Изначально etcd-operator начала разрабатывать команда Ænix, вокруг проекта быстро образовалась инициативная группа в русскоязычном сообществе Kubernetes. После завершения базовой реализации сообщество пыталось передать проекта в CNCF, но в итоге в проекте etcd пришли к выводу, что необходим официальный оператор, и сформировали собственную рабочую группу, которая предпочла писать оператор с нуля — так появился etcd-io/etcd-operator. По функциональности официальный оператор пока не достиг уровня нашего поректа, который уже успешно зарекомендовал себя в продакшене, в том числе в таких проектах, как Cozystack и Kamaji. Именно поэтому мы не примкнули к официальному оператору, а продолжили дотягивать сво проект (сравнение можно посмотреть в конце статьи).

Оператор управляет кластерами etcd при помощи двух ресурсов: EtcdCluster описывает желаемое состояние кластера (число реплик, версия etcd, параметры хранилища, TLS, аутентификация, настройки etcd), а EtcdMember создаётся самим оператором для каждого узла кластера и владеет его Pod и PVC. В отличие от типовых решений оператор не использует StatefulSet — Pod и PVC каждого узла обслуживаются независимо, а изменение состава кластера выполняется через Membership API etcd: новые узлы добавляются в режиме learner (MemberAdd) с последующим повышением до голосующего члена (MemberPromote), удаление выполняется с корректным выводом из кворума (MemberRemove), а приостановка кластера сохраняет идентичность узлов. Обоснование такой архитектуры приведено в файле concepts.md.

Основные возможности:

развёртывание кластера и масштабирование в обе стороны по одному узлу за раз: добавление в режиме learner, корректное удаление с выводом из кворума;
остановка кластера без потери данных (spec.replicas: 0) и возобновление работы с теми же идентификаторами кластера и узлов;
хранение данных в PVC (по умолчанию) или в tmpfs — для данных, которые допустимо восстановить заново; узлы с хранилищем в памяти автоматически пересоздаются при потере Pod;
раздельная настройка TLS для клиентских и межузловых соединений: можно подключить свои Secret или поручить оператору выпуск и автоматическое продление сертификатов через cert-manager;
аутентификация с единственным пользователем root, учётные данные которого задаются через Secret;
создание снапшотов в S3 или PVC через ресурс EtcdSnapshot и восстановление кластера из снапшота при первоначальном развёртывании;
автоматически создаваемый PodDisruptionBudget, не позволяющий операциям drain нарушить кворум;
валидация спецификаций средствами apiserver (CEL-выражения в CRD) без применения webhook и зависимости от cert-manager;
подресурс /scale, благодаря которому работают kubectl scale и VerticalPodAutoscaler, порт метрик 2381, проброс affinity и topologySpreadConstraints;
плагин kubectl-etcd для повседневных эксплуатационных задач (day-2 operations), выполняемых после развёртывания кластера.

По сравнению со старой реализацией etcd.aenix.io/v1alpha1 внесены следующие изменения:

API-группа сменилась с etcd.aenix.io на etcd-operator.cozystack.io;
вместо StatefulSet применяются отдельные ресурсы EtcdMember на каждый узел;
произвольный словарь spec.options заменён типизированным набором параметров (quota-backend-bytes, режим и интервал автокомпактификации, snapshot-count) — свободная map позволяла передавать флаги, конфликтующие с логикой оператора;
ресурс EtcdBackup переименован в EtcdSnapshot с сохранением семантики;
валидация перенесена с webhook на CEL-правила в CRD;
сервис кластера переведён в режим headless, что необходимо для стабильных DNS-имён узлов.

Миграция выполняется при помощи инструмента etcd-migrate: работающий кластер старого оператора адаптируется без перемещения данных, перезапуска Pod и потери кворума — изменяются только владельцы объектов, метки и аннотации, после чего управление переходит к новому оператору. Клиенты, которые обращаются к кластеру по DNS-имени, продолжают работать без изменений. Процедура описана в migration.md.

Реализация закрывает большинство пунктов плана развития официального etcd-оператора, развиваемого проектом etcd. Статус по пунктам этого плана:

Создание нового кластера etcd, например из 3 или 5 узлов, с указанной версией etcd — реализовано.
Определение состояния здоровья кластера — реализовано.
Включение TLS-шифрования соединений, включая продление сертификатов — реализовано.
Обновление в пределах патч-версий или на одну минорную версию — реализовано частично: значение spec.version применяется только к создаваемым узлам.
Масштабирование в обе стороны, например 1 -> 3 -> 5 узлов и обратно — реализовано.
Настройка параметров etcd (через флаги или переменные окружения) — реализовано, в виде типизированного закрытого набора параметров.
Восстановление одного отказавшего члена кластера (кворум сохранён) — реализовано частично: автоматическая замена членов с повреждённым PVC пока отсутствует.
Восстановление после отказа нескольких членов кластера (потеря кворума) — не реализовано, работа запланирована.
Создание резервной копии кластера по запросу — реализовано.
Периодическое резервное копирование кластера — сознательно вынесено за рамки оператора: периодические снапшоты предлагается запускать штатным CronJob.

Помимо этого плана, v1alpha2 предоставляет возможности, не упомянутые в плане развития официального оператора и продиктованные мультитенантным сценарием использования в Cozystack и Kamaji:

остановка кластера до нуля реплик (пауза и возобновление) с сохранением идентичности кластера и узлов;
хранилище в памяти (tmpfs) с автоматической заменой узлов силами оператора;
валидация на стороне apiserver через CEL — без webhook и зависимости от сертификатов;
автоматически создаваемый PodDisruptionBudget, охватывающий голосующие узлы;
подресурс /scale с заполненным status.selector, благодаря чему напрямую работают kubectl scale и VerticalPodAutoscaler.targetRef;
проброс параметров планирования (affinity, topologySpreadConstraints) и объединение additionalMetadata во всех создаваемых объектах;
инструмент миграции с прежнего оператора без остановки кластера;
плагин kubectl-etcd для эксплуатационных задач (day-2 operations).

推荐订阅源

Все публикации подряд на Хабре