Este guia fornece etapas diagnósticas de Nível 1 (L1) para solução de problemas em implantações On-Premise do EKB. Essas etapas ajudam a identificar problemas comuns com containers, bancos de dados, serviços e recursos do sistema.
Pré-requisitos: Você precisa de acesso SSH ao servidor/VM do cliente onde o EKB está implantado, e permissões apropriadas para executar comandos Docker e acessar logs de containers.
Verificações de Status dos Containers
Verificar Status de Todos os Containers
Primeiro, verifique quais containers estão em execução e seu status de saúde:
# Check all containers status
docker ps -a
# Check containers with health status
docker ps --format "table {{.Names}}\t{{.Status}}\t{{.Health}}"
# Check specific container status
docker ps -a | grep <container_name>
Containers Esperados:
web - Aplicação frontend
api ou fastapi_backend - Servidor API backend
worker ou celery_worker - Worker(s) do Celery
redis - Cache Redis
rabbitmq - Fila de mensagens RabbitMQ
supabase-studio - Supabase Studio
supabase-kong - API Gateway Kong
supabase-auth - Serviço de autenticação
supabase-db ou postgres - Banco de dados PostgreSQL
- Outros serviços Supabase (storage, meta, etc.)
O Que Verificar:
- Todos os containers devem estar no status “Up”
- Nenhum container deve estar no estado “Restarting” ou “Exited”
- Verificações de saúde devem mostrar “healthy” quando aplicável
Se os containers estiverem parados ou reiniciando:
# Restart a specific container
docker restart <container_name>
# Restart all containers
docker compose restart
# Restart specific service
docker compose restart <service_name>
Logs dos Containers Backend
Verificar Logs do Container API
Os logs do container API do backend contêm informações críticas sobre erros, conexões de banco de dados e problemas de serviço:
# View recent logs (last 100 lines)
docker logs --tail 100 api
# Or for fastapi_backend
docker logs --tail 100 fastapi_backend
# Follow logs in real-time
docker logs -f api
# View logs with timestamps
docker logs -t api
# View logs from specific time
docker logs --since 30m api
# View logs between timestamps
docker logs --since "2024-01-01T00:00:00" --until "2024-01-01T23:59:59" api
O Que Procurar:
- Erros de conexão com banco de dados
- Falhas de conexão com Redis
- Problemas de conexão com RabbitMQ
- Erros de autenticação
- Erros de endpoint da API (500, 503, etc.)
- Erros de importação/exportação
- Erros de processamento da Base de Conhecimento
- Falhas de tarefas do worker
Verificar Logs do Container Worker
Os containers worker lidam com tarefas em segundo plano (processamento de KB, embeddings, etc.):
# Check worker logs
docker logs --tail 100 worker
# Or for celery_worker
docker logs --tail 100 celery_worker
# Check all worker instances
docker ps | grep worker
docker logs <worker_container_name>
O Que Procurar:
- Erros de execução de tarefas
- Problemas de memória
- Erros de tempo limite
- Erros de conexão com banco de dados nos workers
- Falhas de sincronização da Base de Conhecimento
- Erros de geração de embeddings
Verificar Logs do Container Web
Os logs do container frontend podem revelar problemas de conexão com UI e API:
# Check web container logs
docker logs --tail 100 web
# Follow logs
docker logs -f web
O Que Procurar:
- Erros de build
- Falhas de conexão com API
- Problemas com variáveis de ambiente
- Erros de vinculação de porta
Status do Banco de Dados
Verificar Status do Banco de Dados PostgreSQL/Supabase
# Check database container status
docker ps | grep -E "(db|postgres|supabase-db)"
# Check database container logs
docker logs --tail 100 supabase-db
# Or for postgres container
docker logs --tail 100 postgres
# Connect to database (if psql is available)
docker exec -it supabase-db psql -U postgres
# Check database connections
docker exec supabase-db psql -U postgres -c "SELECT count(*) FROM pg_stat_activity;"
# Check database size
docker exec supabase-db psql -U postgres -c "SELECT pg_size_pretty(pg_database_size('postgres'));"
O Que Verificar:
- O container do banco de dados está em execução
- Sem erros de conexão nos logs
- O banco de dados não está cheio (verifique o espaço em disco)
- Conexões ativas estão dentro dos limites
- Sem consultas longas bloqueando operações
Verificar Conectividade do Banco de Dados a partir da API
# Test database connection from API container
docker exec api python -c "
import os
from sqlalchemy import create_engine
try:
engine = create_engine(os.environ.get('DATABASE_URL'))
conn = engine.connect()
print('Database connection successful')
conn.close()
except Exception as e:
print(f'Database connection failed: {e}')
"
Verificar Migrações do Banco de Dados
# Check if migrations are up to date
docker exec api alembic current
# Check migration history
docker exec api alembic history
# View pending migrations
docker exec api alembic heads
Status do Redis
Verificar Container Redis
# Check Redis container status
docker ps | grep redis
# Check Redis logs
docker logs --tail 100 redis
# Test Redis connection
docker exec redis redis-cli ping
# Should return: PONG
# Check Redis info
docker exec redis redis-cli info
# Check Redis memory usage
docker exec redis redis-cli info memory
# Check connected clients
docker exec redis redis-cli info clients
O Que Verificar:
- O Redis está respondendo ao ping
- Uso de memória está dentro dos limites
- Sem erros de conexão
- Sem erros de evição (memória cheia)
Testar Redis a partir do Container API
# Test Redis connection from API
docker exec api python -c "
import redis
import os
try:
r = redis.Redis(host='redis', port=6379, decode_responses=True)
r.ping()
print('Redis connection successful')
except Exception as e:
print(f'Redis connection failed: {e}')
"
Status do RabbitMQ
Verificar Container RabbitMQ
# Check RabbitMQ container status
docker ps | grep rabbitmq
# Check RabbitMQ logs
docker logs --tail 100 rabbitmq
# Check RabbitMQ management (if accessible)
# Access: http://<server-ip>:15672
# Default credentials: user/password
O Que Verificar:
- O container está em execução
- Sem erros de conexão
- As filas estão processando mensagens
- Sem acumulação de mensagens
Verificar RabbitMQ a partir da API
# Test RabbitMQ connection
docker exec api python -c "
import pika
try:
connection = pika.BlockingConnection(
pika.ConnectionParameters('rabbitmq', 5672, '/',
pika.PlainCredentials('user', 'password'))
)
print('RabbitMQ connection successful')
connection.close()
except Exception as e:
print(f'RabbitMQ connection failed: {e}')
"
Recursos do Sistema
Verificar Espaço em Disco
Pouco espaço em disco pode causar problemas no banco de dados, armazenamento e containers:
# Check overall disk usage
df -h
# Check disk usage for Docker volumes
docker system df
# Check specific volume usage
docker volume inspect <volume_name>
# Check directory sizes
du -sh /var/lib/docker/volumes/*
du -sh ./supabase/docker/volumes/*
# Check in-container disk usage (for database)
docker exec supabase-db df -h
O Que Verificar:
- A partição raiz tem espaço suficiente (>20% livre recomendado)
- Os volumes Docker não estão cheios
- O diretório de dados do banco de dados tem espaço
- O armazenamento Supabase tem espaço
Verificar Uso de Memória
# Check system memory
free -h
# Check container memory usage
docker stats --no-stream
# Check specific container memory
docker stats <container_name> --no-stream
O Que Verificar:
- O sistema tem memória disponível
- Os containers não estão atingindo os limites de memória
- Sem kills OOM (Out of Memory) nos logs
Verificar Uso de CPU
# Check CPU usage
top
# or
htop
# Check container CPU usage
docker stats --no-stream
Conectividade de Rede
Verificar Rede dos Containers
# Check Docker network
docker network ls
# Inspect network configuration
docker network inspect <network_name>
# Check if containers can communicate
docker exec api ping -c 3 redis
docker exec api ping -c 3 rabbitmq
docker exec api ping -c 3 supabase-db
Verificar Disponibilidade de Portas
# Check if ports are in use
netstat -tulpn | grep -E "(3001|8001|6379|5672|5432|8000)"
# Or using ss
ss -tulpn | grep -E "(3001|8001|6379|5672|5432|8000)"
# Check port from container
docker exec api curl -I http://localhost:8001/health
Variáveis de Ambiente
Verificar Configuração de Ambiente
# Check environment variables for a container
docker exec api env | grep -E "(DATABASE|REDIS|RABBITMQ|API)"
# Check .env files (if accessible)
cat ./env/.env.server | grep -v "PASSWORD\|SECRET\|KEY" # Exclude sensitive data
cat ./env/.env.web | grep -v "PASSWORD\|SECRET\|KEY"
# Check environment from docker-compose
docker compose config
O Que Verificar:
- As strings de conexão do banco de dados estão corretas
- Os nomes de host do Redis e RabbitMQ estão corretos
- As URLs da API estão configuradas corretamente
- As variáveis de ambiente necessárias estão definidas
- Sem erros de digitação nos nomes das variáveis
Permissões de Arquivos
Verificar Permissões de Arquivos e Diretórios
# Check permissions on key directories
ls -la ./alignment-project-server
ls -la ./ai-content-creator
ls -la ./supabase/docker/volumes
# Check Docker socket permissions
ls -la /var/run/docker.sock
# Check certificate files (if using HTTPS)
ls -la ./certs/
O Que Verificar:
- Os diretórios da aplicação são legíveis
- O socket Docker tem permissões corretas
- Os mounts de volumes têm permissões apropriadas
- Os arquivos de certificado são acessíveis
Verificações Específicas por Serviço
Se a Base de Conhecimento não estiver atualizando ou processando:
# Check worker logs for KB processing
docker logs --tail 200 worker | grep -i "knowledge\|kb\|embedding"
# Check for embedding model issues
docker logs api | grep -i "embedding\|model"
# Check Supabase storage
docker logs supabase-storage
# Check file upload limits
docker exec supabase-db psql -U postgres -c "
SELECT name, file_size_limit
FROM storage.buckets;
"
# Check API logs for agent errors
docker logs --tail 200 api | grep -i "agent\|chat\|llm"
# Check worker logs for agent tasks
docker logs --tail 200 worker | grep -i "agent\|chat"
Problemas de Autenticação
# Check auth service logs
docker logs --tail 100 supabase-auth
# Check database for auth issues
docker exec supabase-db psql -U postgres -c "
SELECT * FROM auth.users LIMIT 5;
"
Padrões Comuns de Erros
Sintomas:
- Erros “Connection refused”
- Erros “Too many connections”
- Erros de tempo limite
Etapas Diagnósticas:
- Verifique se o container do banco de dados está em execução:
docker ps | grep db
- Verifique os logs do banco de dados:
docker logs supabase-db
- Verifique os limites de conexão:
docker exec supabase-db psql -U postgres -c "SHOW max_connections;"
- Verifique as conexões ativas:
docker exec supabase-db psql -U postgres -c "SELECT count(*) FROM pg_stat_activity;"
- Verifique o DATABASE_URL nas variáveis de ambiente
Sintomas:
- “Connection refused” para Redis
- Falhas de cache
- Problemas de sessão
Etapas Diagnósticas:
- Verifique o container Redis:
docker ps | grep redis
- Teste o Redis:
docker exec redis redis-cli ping
- Verifique os logs do Redis:
docker logs redis
- Verifique o nome de host do Redis nas variáveis de ambiente
Falhas de Tarefas do Worker
Sintomas:
- Tarefas não sendo concluídas
- Base de Conhecimento não sincronizando
- Tarefas em segundo plano falhando
Etapas Diagnósticas:
- Verifique os logs do worker:
docker logs worker
- Verifique o status do container worker:
docker ps | grep worker
- Verifique as filas do RabbitMQ: Acesse a interface de gerenciamento do RabbitMQ
- Verifique problemas de memória:
docker stats worker
Problemas de Armazenamento/Upload de Arquivos
Sintomas:
- Uploads de arquivo falhando
- Erros “File too large”
- Cota de armazenamento excedida
Etapas Diagnósticas:
- Verifique o espaço em disco:
df -h
- Verifique os logs do armazenamento Supabase:
docker logs supabase-storage
- Verifique os limites de tamanho de arquivo na configuração do Supabase
- Verifique a configuração do bucket de armazenamento
Script de Diagnóstico Rápido
Crie um script de diagnóstico para executar todas as verificações de uma vez:
#!/bin/bash
echo "=== EKB On-Premise Diagnostics ==="
echo ""
echo "1. Container Status:"
docker ps --format "table {{.Names}}\t{{.Status}}"
echo ""
echo "2. Disk Space:"
df -h | grep -E "(Filesystem|/dev/)"
echo ""
echo "3. Memory:"
free -h
echo ""
echo "4. Redis:"
docker exec redis redis-cli ping 2>/dev/null || echo "Redis not responding"
echo ""
echo "5. Database:"
docker exec supabase-db psql -U postgres -c "SELECT version();" 2>/dev/null || echo "Database not responding"
echo ""
echo "6. Recent API Errors (last 20 lines):"
docker logs --tail 20 api 2>/dev/null | grep -i error || echo "No recent errors"
echo ""
echo "=== Diagnostics Complete ==="
Salve como diagnostics.sh, torne executável: chmod +x diagnostics.sh, e execute: ./diagnostics.sh
Ao escalar para suporte L2, forneça:
- Status dos Containers: Saída de
docker ps -a
- Logs Recentes: Últimas 100-200 linhas dos containers relevantes
- Recursos do Sistema: Saída de
df -h e free -h
- Mensagens de Erro: Mensagens de erro específicas dos logs
- Configuração: Nomes das variáveis de ambiente (não valores) que estão definidos
- Linha do Tempo: Quando o problema começou
- Impacto: Qual funcionalidade está afetada
Entre em Contato com o Suporte: support@automationanywhere.com
Recursos Adicionais