Iryon Ops — Control Plane

•

—

Saúde dos módulos

…

Fluxo do NOC autônomo — verde = disponível, vermelho = indisponível. Passe o mouse para latência.

carregando…

Auto-correção

—

Ligado: o NOC corrige incidentes sozinho (só ações da allow-list). Desligado (kill-switch): ele apenas registra e abre ticket — nada é executado.

Modo simulação (dry-run)

—

Ligado: o NOC decide e mostra o que faria, mas não executa nada. Ideal para validar com segurança antes de ligar a auto-correção de verdade.

Auto-resolução (24h)

—

% dos incidentes que o NOC resolveu sozinho, sem acionar um humano.

Auto-resolvidas0

Escaladas p/ humano0

Total de decisões0

Saúde do sistema

Dependências

carregando…

quando	evento	alvo	ação	tier	exec	ticket/msg	motivo

Política

No modelo harmonizado o decider é o orquestrador único: em qualquer problema sem auto-correção ele abre o ticket (com nº) e avisa nos canais abaixo; no recovery fecha o ticket e avisa "restabelecido". O Zabbix só encaminha o evento — esta é a única tela de comunicação.

Avisar também quando auto-resolver (correção bem-sucedida)

Ticket de problema/escalonamento e aviso são sempre enviados (não dá pra desligar — seria apagão de alerta).

Canais p/ alertas do NOC

IA consultiva

desligada = decisão 100% determinística (só a matriz)

redigir egress (mascara IP/FQDN)

Incidente de teste

Ação (tag remediation)

Host

Namespace (k8s)

Target (deploy/sts)

Severidade

Nome do evento

Presets:

Veredito

preencha e clique em Simular.

Nova regra

Escopo

Trigger

Canais

Mensagem (opcional) — variáveis: {host} {nome} {motivo} {severidade} {acao} {ticket} {decisao}

Comandos sugeridos p/ resolver (opcional) — aparecem na mensagem

Canais = destinos configurados em Notificações. Nenhum marcado = manda pra todos. A regra vale sem tocar no Zabbix: quando a trigger alerta, o decider decide e envia a mensagem (com a decisão) + comandos aos canais.

Regras existentes

escopo	alvo	canais

🔒 Proibições absolutas — impossíveis por construção

não editável

Operações destrutivas não existem como ação (allow-list é uma lista fechada) e ainda são barradas em duas camadas no código/cluster. Não dá para remover namespace, excluir PVC/secret, DROP/TRUNCATE em banco, rm -rf etc. — nem a IA, nem o painel podem liberar.

Padrões recusados na hora (defesa em profundidade)

Permissões do cluster (RBAC mínimo)

✅ get/patch em deployments e statefulsets
✅ get/list/delete apenas em pods (o controller recria)
⛔ sem delete de namespace, PVC, PV, secret, CRD ou node
⛔ sem exec/comando arbitrário · sem DROP/DDL em banco

✅ Allow-list — o que pode automatizar

Estas são as únicas ações que o NOC executa automaticamente. É a barreira de segurança, definida no código (somente leitura) — nada fora desta lista roda sozinho, nem a IA pode inventar uma ação nova.

⛔ Block-list — o que escala para humano

Se o alerta contiver algum destes textos, o NOC não age sozinho: abre ticket e avisa um humano. Útil para alvos críticos (identidade, bancos de dados, control-plane). A comparação é por trecho de texto (ignora maiúsculas) em: ação · host · namespace · nome do alerta.

Bloquear quando o alerta contiver:

Bloqueios ativos

Configuração (gerida aqui, não em manifesto)

carregando…

Usuário SSH

Timeout (s)

Máx. comando

Nós (nome → IP)

Segredos (token, chave SSH) e o break-glass permanecem em Secret/env — não editáveis aqui.

Ações nomeadas (built-in)

Comandos personalizados

salvos / reutilizáveis

Salve comandos próprios (com sudo opcional) para reutilizar. Clique em usar para carregar no executor abaixo.

Nome

Comando

sudo

Executar no nó

requer admin

Roda agora no nó escolhido (via SSH). Bloqueio só de comandos catastróficos (rm -rf /, mkfs, DROP/TRUNCATE, delete namespace/pvc…). Tudo é auditado.

Nó

usar sudo

Opção A — ação nomeada (built-in)

Opção B — comando livre (ad-hoc)

1) Chave pública do actuator

Autorize esta chave no nó (o script abaixo já faz isso). Origem permitida: — · Fingerprint: —

—

🔑 Geração/rotação da chave é por linha de comando (a chave privada nunca passa pela GUI): NS=iryon ./noc-actuator/node-setup/gen-actuator-key.sh (ou --rotate). A GUI só exibe a pública.

2) Script de preparação (rodar como root no nó)

Self-contained (idempotente). Cole e execute como root num nó novo. Depois, adicione o nó (nome → IP) na aba Actuator.

carregando…

Re-provisionar nó já acessível

requer admin

Reaplica o setup (atualiza wrapper/origem/sudoers) num nó que o actuator já alcança. Para nó novo (sem acesso ainda), use o script acima manualmente.

Estado no Zabbix

carregando…

Cutover seguro e reversível: 1) Aplicar modelo (cria, desabilitado) → 2) Ativar (liga o novo e desliga o A/B antigo, sem deletar) → 3) Remover legado (quando estiver confiante).

URL da API do Zabbix

Autenticação — por padrão usa o token guardado (super-admin, sem senha). Clique p/ usar usuário/senha.

Usuário

Senha (opcional)

Host groups (opcional)

Idempotente. Aplicar cria a Action DESABILITADA (não liga alerta sozinho). Canais/WhatsApp/ticket se configuram em Notificações (fonte única) — não aqui. Requer admin.

Biblioteca de templates

Os templates importados no "Aplicar modelo" vêm daqui. Faça upload p/ atualizar sem rebuild, baixe p/ backup/versionar, ou exporte do Zabbix p/ capturar edições feitas lá. Cada gravação guarda a versão anterior (rollback).

template	no Zabbix	origem	tam.	atualizado

Upload

Nome (ex.: kubernetes/k8s-namespace.yaml)

Exportar do Zabbix (round-trip)

Baixa o YAML de um template como está no Zabbix (captura edições feitas lá).

Citsmart / Keycloak

URL Citsmart

URL Keycloak

Realm

Client

Usuário de serviço

Activity ID

Contract ID

Requester ID

Telefone de contato

Senha do svc-noc

Client secret

Segredos são write-only: digite p/ trocar, deixe em branco p/ manter, e nunca são exibidos de volta (mascarados). Salvar grava no store; o ticket-api aplica em ~15s. "Testar" pede um token no Keycloak do Citsmart (valida tudo E2E). Requer admin.

Segredos & estado

Geridos por kubectl/CLI no Secret — a GUI só indica presença, nunca o valor.

Visão geral

Saúde dos módulos

Auto-correção

Modo simulação (dry-run)

Auto-resolução (24h)

Saúde do sistema

Decisões

Proteção

Notificações & Tickets

Política

Canais p/ alertas do NOC

IA / Agente

Simulador de triggers

Incidente de teste

Veredito

Regras de roteamento

Nova regra

Regras existentes

Segurança

🔒 Proibições absolutas — impossíveis por construção

✅ Allow-list — o que pode automatizar

⛔ Block-list — o que escala para humano

Bloqueios ativos

Actuator (executor)

Configuração (gerida aqui, não em manifesto)

Ações nomeadas (built-in)

Comandos personalizados

Executar no nó

Onboarding de nó

1) Chave pública do actuator

2) Script de preparação (rodar como root no nó)

Re-provisionar nó já acessível

Configurar Zabbix

Estado no Zabbix

Biblioteca de templates

Upload

Exportar do Zabbix (round-trip)

Ticket / ITSM (Citsmart)

Citsmart / Keycloak

Segredos & estado

Sistema (NOC)

Configuração efetiva

Dependências