Monitoring & Observability

CloudWatch Dashboard
Recommended Widgets
CloudWatch Alarms
Lambda Alarms
SNS Notification Setup
CloudWatch Logs Insights
Query Examples
Saved Queries
Performance Metrics
Lambda Performance
Cost Monitoring
Cost Explorer Filters
Cost Optimization Queries
X-Ray Tracing (Optional)
Enable X-Ray
Benefits
Grafana Integration (Optional)
Anomaly Detection
Monitoring Checklist
Next Steps

Monitor SuperBox infrastructure health, performance, and costs with AWS CloudWatch. Set up dashboards, alarms, and log insights for proactive issue detection.

CloudWatch Dashboard

Create a comprehensive dashboard to visualize all metrics:

Access CloudWatch Console

AWS Console → CloudWatch → Dashboards → Create dashboard

Add Widgets

Create widgets for Lambda, S3, and application metrics

Configure Refresh

Set auto-refresh to 1 minute for real-time monitoring

Recommended Widgets

Lambda Metrics
S3 Metrics
Application Metrics

Invocations

Metric: AWS/Lambda → Invocations
Statistic: Sum
Period: 1 minute
Chart type: Line

Errors

Metric: AWS/Lambda → Errors
Statistic: Sum
Period: 1 minute
Chart type: Stacked area (with Invocations)

Duration

Metric: AWS/Lambda → Duration
Statistics: Average, Maximum, p99
Period: 1 minute
Chart type: Line

Throttles

Metric: AWS/Lambda → Throttles
Statistic: Sum
Period: 1 minute
Chart type: Number

Bucket Size

Metric: AWS/S3 → BucketSizeBytes
Statistic: Average
Period: 1 day
Chart type: Number

GET Requests

Metric: AWS/S3 → GetRequests
Statistic: Sum
Period: 5 minutes
Chart type: Line

PUT Requests

Metric: AWS/S3 → PutRequests
Statistic: Sum
Period: 5 minutes
Chart type: Line

CloudWatch Alarms

Set up proactive alerting for critical issues:

Lambda Alarms

High Error Rate

resource "aws_cloudwatch_metric_alarm" "lambda_errors" {
  alarm_name          = "superbox-lambda-high-errors"
  comparison_operator = "GreaterThanThreshold"
  evaluation_periods  = 2
  metric_name         = "Errors"
  namespace           = "AWS/Lambda"
  period              = 300  # 5 minutes
  statistic           = "Sum"
  threshold           = 10
  alarm_description   = "Lambda error rate exceeds threshold"
  
  dimensions = {
    FunctionName = "superbox-mcp-executor"
  }
}

Triggers when: More than 10 errors in 5 minutes

High Duration

resource "aws_cloudwatch_metric_alarm" "lambda_duration" {
  alarm_name          = "superbox-lambda-slow-execution"
  comparison_operator = "GreaterThanThreshold"
  evaluation_periods  = 2
  metric_name         = "Duration"
  namespace           = "AWS/Lambda"
  period              = 300
  statistic           = "Average"
  threshold           = 30000  # 30 seconds
  alarm_description   = "Lambda execution time is high"
  
  dimensions = {
    FunctionName = "superbox-mcp-executor"
  }
}

Triggers when: Average execution > 30 seconds

Throttling

resource "aws_cloudwatch_metric_alarm" "lambda_throttles" {
  alarm_name          = "superbox-lambda-throttled"
  comparison_operator = "GreaterThanThreshold"
  evaluation_periods  = 1
  metric_name         = "Throttles"
  namespace           = "AWS/Lambda"
  period              = 300
  statistic           = "Sum"
  threshold           = 5
  alarm_description   = "Lambda function is being throttled"
  
  dimensions = {
    FunctionName = "superbox-mcp-executor"
  }
}

Triggers when: More than 5 throttles in 5 minutes

Configure email/SMS alerts:

# Create SNS topic
aws sns create-topic --name superbox-alerts

# Subscribe email
aws sns subscribe \
  --topic-arn arn:aws:sns:ap-south-1:123456789:superbox-alerts \
  --protocol email \
  --notification-endpoint your-email@example.com

# Confirm subscription via email

Link alarms to SNS topic:

alarm_actions = [aws_sns_topic.alerts.arn]
ok_actions    = [aws_sns_topic.alerts.arn]

CloudWatch Logs Insights

Query and analyze Lambda execution logs:

Query Examples

Error Analysis
Slow Executions
Popular MCP Servers
Error Patterns

fields @timestamp, @message
| filter @message like /Error:/
| sort @timestamp desc
| limit 100

Shows recent errors with timestamps

fields @timestamp, @duration, @message
| filter @type = "REPORT"
| filter @duration > 10000
| sort @duration desc
| limit 50

Lists executions taking more than 10 seconds

fields @timestamp
| parse @message "Request received: *" as server_name
| filter server_name != ""
| stats count() as executions by server_name
| sort executions desc
| limit 20

Top 20 most executed MCP servers

fields @timestamp
| filter @message like /Error/
| parse @message "*Error: *" as prefix, error_msg
| stats count() as occurrences by error_msg
| sort occurrences desc
| limit 10

Most common error messages

Saved Queries

Save frequently used queries for quick access:

Daily Execution Summary
Failed Server Executions
Memory Usage Patterns
Cold Start Analysis

Performance Metrics

Lambda Performance

Cold Start Detection

fields @timestamp, @initDuration
| filter @type = "REPORT"
| filter @initDuration > 0
| stats avg(@initDuration) as avg_cold_start,
        max(@initDuration) as max_cold_start,
        count() as cold_starts

Analyze cold start frequency and duration

Memory Utilization

fields @timestamp, @maxMemoryUsed, @memorySize
| filter @type = "REPORT"
| stats avg(@maxMemoryUsed / @memorySize * 100) as avg_memory_pct,
        max(@maxMemoryUsed) as peak_memory

Monitor memory efficiency

Concurrent Executions

fields @timestamp
| filter @message like /START/
| stats count() as concurrent by bin(5m)

Track concurrent execution patterns

Error Rate Trend

fields @timestamp
| filter @message like /Error/
| stats count() as errors by bin(1h)
| sort @timestamp desc

Hourly error distribution

Cost Monitoring

Track infrastructure costs:

Cost Explorer Filters

Access Cost Explorer

AWS Console → Cost Management → Cost Explorer

Filter by Service

Service: AWS Lambda - Service: Amazon S3 - Service: CloudWatch - Tag: project:superbox

Create Budget Alert

Set budget alert at $50/month with email notification

Cost Optimization Queries

-- Lambda cost breakdown by function
SELECT
  line_item_resource_id,
  SUM(line_item_unblended_cost) as cost
FROM cost_usage
WHERE
  product_product_name = 'AWS Lambda'
  AND line_item_usage_start_date >= DATE_SUB(CURRENT_DATE, 30)
GROUP BY line_item_resource_id
ORDER BY cost DESC

X-Ray Tracing (Optional)

Enable AWS X-Ray for detailed request tracing:

Enable X-Ray

resource "aws_lambda_function" "mcp_executor" {
  # ... other config

  tracing_config {
    mode = "Active"
  }
}

Benefits

End-to-end request visualization
Identify bottlenecks in execution flow
Trace external API calls
Analyze Lambda initialization time

Grafana Integration (Optional)

For advanced visualization, integrate CloudWatch with Grafana:

Install Grafana

# Docker docker run -d -p 3000:3000 grafana/grafana

Add CloudWatch Data Source

Go to Configuration → Data Sources - Add AWS CloudWatch - Configure IAM credentials

Import Dashboard

Use pre-built Lambda monitoring dashboard from Grafana marketplace

Anomaly Detection

Enable CloudWatch Anomaly Detection:

resource "aws_cloudwatch_metric_alarm" "lambda_anomaly" {
  alarm_name                = "superbox-lambda-anomaly"
  comparison_operator       = "LessThanLowerOrGreaterThanUpperThreshold"
  evaluation_periods        = 2
  threshold_metric_id       = "e1"
  alarm_description         = "Anomaly detected in Lambda invocations"

  metric_query {
    id          = "e1"
    expression  = "ANOMALY_DETECTION_BAND(m1)"
    label       = "Invocations (Expected)"
    return_data = "true"
  }

  metric_query {
    id = "m1"

    metric {
      metric_name = "Invocations"
      namespace   = "AWS/Lambda"
      period      = 300
      stat        = "Sum"

      dimensions = {
        FunctionName = "superbox-mcp-executor"
      }
    }
  }
}

Monitoring Checklist

Next Steps

Troubleshooting

Debug common infrastructure issues

Scaling Guide

Scale infrastructure for growth

Security Best Practices

Harden infrastructure security

Backup & Recovery

Set up backup strategies

Infrastructure Setup Troubleshooting

Getting Started

Core Concepts

Infrastructure

Backend

Frontend

REST API

Servers API

Auth API

CLI

CLI Commands

Monitoring & Observability

CloudWatch Dashboard

Recommended Widgets

CloudWatch Alarms

Lambda Alarms

CloudWatch Logs Insights

Query Examples

Saved Queries

Performance Metrics

Lambda Performance

Cold Start Detection

Memory Utilization

Concurrent Executions

Error Rate Trend

Cost Monitoring

Cost Explorer Filters

Cost Optimization Queries

X-Ray Tracing (Optional)

Enable X-Ray

Benefits

Grafana Integration (Optional)

Anomaly Detection

Monitoring Checklist

Next Steps

Troubleshooting

Scaling Guide

Security Best Practices

Backup & Recovery

Getting Started

Core Concepts

Infrastructure

Backend

Frontend

REST API

Servers API

Auth API

CLI

CLI Commands

​CloudWatch Dashboard

​Recommended Widgets

​CloudWatch Alarms

​Lambda Alarms

​SNS Notification Setup

​CloudWatch Logs Insights

​Query Examples

​Saved Queries

​Performance Metrics

​Lambda Performance

Cold Start Detection

Memory Utilization

Concurrent Executions

Error Rate Trend

​Cost Monitoring

​Cost Explorer Filters

​Cost Optimization Queries

​X-Ray Tracing (Optional)

​Enable X-Ray

​Benefits

​Grafana Integration (Optional)

​Anomaly Detection

​Monitoring Checklist

​Next Steps

Troubleshooting

Scaling Guide

Security Best Practices

Backup & Recovery

CloudWatch Dashboard

Recommended Widgets

CloudWatch Alarms

Lambda Alarms

SNS Notification Setup

CloudWatch Logs Insights

Query Examples

Saved Queries

Performance Metrics

Lambda Performance

Cost Monitoring

Cost Explorer Filters

Cost Optimization Queries

X-Ray Tracing (Optional)

Enable X-Ray

Benefits

Grafana Integration (Optional)

Anomaly Detection

Monitoring Checklist

Next Steps