Une panne de résolution CAPTCHA à 3 heures du matin coûte des heures de données manquées. L'intégration de PagerDuty garantit que la bonne personne est immédiatement informée – avec suffisamment de contexte pour diagnostiquer et résoudre le problème sans fouiller dans les journaux.
Stratégie d'alerte
| Gravité | État | Action PagerDuty |
|---|---|---|
| Critique | Solde < 2 $ | Ingénieur de garde Page |
| Critique | Tous les travailleurs à terre | Ingénieur de garde Page |
| Élevé | Taux d'erreur > 20 % pendant 5 min | Créer un incident urgent |
| Avertissement | Solde < 10 $ | Créer un incident de faible urgence |
| Avertissement | Profondeur de file d'attente > 100 pendant 10 minutes | Créer un incident de faible urgence |
| Informations | Résoudre la latence p95 > 120 s | Ajouter à un incident ou un journal existant |
Python – API d'événements PagerDuty v2
import os
import time
import hashlib
import requests
from datetime import datetime
API_KEY = os.environ["CAPTCHAAI_API_KEY"]
PAGERDUTY_ROUTING_KEY = os.environ["PAGERDUTY_ROUTING_KEY"]
session = requests.Session()
class CaptchaPagerDuty:
EVENTS_URL = "https://events.pagerduty.com/v2/enqueue"
def __init__(self, routing_key):
self.routing_key = routing_key
def trigger(self, summary, severity="error", source="captcha-pipeline",
details=None, dedup_key=None):
"""Trigger a new PagerDuty incident."""
payload = {
"routing_key": self.routing_key,
"event_action": "trigger",
"payload": {
"summary": summary,
"severity": severity, # critical, error, warning, info
"source": source,
"timestamp": datetime.utcnow().isoformat() + "Z",
"custom_details": details or {}
}
}
if dedup_key:
payload["dedup_key"] = dedup_key
resp = requests.post(self.EVENTS_URL, json=payload, timeout=10)
resp.raise_for_status()
return resp.json()
def resolve(self, dedup_key):
"""Resolve an existing incident."""
payload = {
"routing_key": self.routing_key,
"event_action": "resolve",
"dedup_key": dedup_key
}
resp = requests.post(self.EVENTS_URL, json=payload, timeout=10)
resp.raise_for_status()
return resp.json()
def acknowledge(self, dedup_key):
"""Acknowledge an existing incident."""
payload = {
"routing_key": self.routing_key,
"event_action": "acknowledge",
"dedup_key": dedup_key
}
resp = requests.post(self.EVENTS_URL, json=payload, timeout=10)
resp.raise_for_status()
return resp.json()
pagerduty = CaptchaPagerDuty(PAGERDUTY_ROUTING_KEY)
class CaptchaMonitor:
def __init__(self):
self.error_window = [] # (timestamp, is_error)
self.window_size = 300 # 5 minutes in seconds
def record_solve(self, success):
now = time.time()
self.error_window.append((now, not success))
# Prune old entries
self.error_window = [
(t, e) for t, e in self.error_window
if now - t < self.window_size
]
@property
def error_rate(self):
if not self.error_window:
return 0.0
errors = sum(1 for _, e in self.error_window if e)
return errors / len(self.error_window)
def check_balance(self):
resp = session.get("https://ocr.captchaai.com/res.php", params={
"key": API_KEY, "action": "getbalance", "json": 1
})
data = resp.json()
if data.get("status") != 1:
return None
return float(data["request"])
def run_checks(self):
"""Run all monitoring checks and trigger alerts."""
# Check balance
balance = self.check_balance()
if balance is not None:
if balance < 2:
pagerduty.trigger(
summary=f"CaptchaAI balance critically low: ${balance:.2f}",
severity="critical",
dedup_key="captcha-balance-critical",
details={"balance": balance, "threshold": 2}
)
elif balance < 10:
pagerduty.trigger(
summary=f"CaptchaAI balance low: ${balance:.2f}",
severity="warning",
dedup_key="captcha-balance-warning",
details={"balance": balance, "threshold": 10}
)
else:
# Resolve if balance recovered
try:
pagerduty.resolve("captcha-balance-critical")
pagerduty.resolve("captcha-balance-warning")
except Exception:
pass # No incident to resolve
# Check error rate
rate = self.error_rate
if rate > 0.20:
total = len(self.error_window)
errors = sum(1 for _, e in self.error_window if e)
pagerduty.trigger(
summary=f"CaptchaAI error rate {rate:.0%} "
f"({errors}/{total} in 5 min)",
severity="error",
dedup_key="captcha-error-rate-high",
details={
"error_rate": round(rate, 3),
"total_tasks": total,
"failed_tasks": errors,
"window_seconds": self.window_size
}
)
elif rate < 0.05 and len(self.error_window) > 10:
try:
pagerduty.resolve("captcha-error-rate-high")
except Exception:
pass
monitor = CaptchaMonitor()
# After each solve:
# monitor.record_solve(success=True)
# Run checks every 60 seconds:
# while True:
# monitor.run_checks()
# time.sleep(60)
JavaScript – Intégration PagerDuty
const axios = require("axios");
const API_KEY = process.env.CAPTCHAAI_API_KEY;
const PD_ROUTING_KEY = process.env.PAGERDUTY_ROUTING_KEY;
const PD_EVENTS_URL = "https://events.pagerduty.com/v2/enqueue";
class PagerDutyAlerter {
constructor(routingKey) {
this.routingKey = routingKey;
}
async trigger(summary, severity = "error", details = {}, dedupKey = null) {
const payload = {
routing_key: this.routingKey,
event_action: "trigger",
payload: {
summary,
severity,
source: "captcha-pipeline",
timestamp: new Date().toISOString(),
custom_details: details,
},
};
if (dedupKey) payload.dedup_key = dedupKey;
const resp = await axios.post(PD_EVENTS_URL, payload, { timeout: 10000 });
return resp.data;
}
async resolve(dedupKey) {
await axios.post(PD_EVENTS_URL, {
routing_key: this.routingKey,
event_action: "resolve",
dedup_key: dedupKey,
}, { timeout: 10000 });
}
}
const alerter = new PagerDutyAlerter(PD_ROUTING_KEY);
class CaptchaHealthMonitor {
constructor(windowMs = 300000) {
this.results = [];
this.windowMs = windowMs;
}
record(success) {
this.results.push({ time: Date.now(), success });
const cutoff = Date.now() - this.windowMs;
this.results = this.results.filter((r) => r.time > cutoff);
}
get errorRate() {
if (this.results.length === 0) return 0;
const errors = this.results.filter((r) => !r.success).length;
return errors / this.results.length;
}
async checkAndAlert() {
// Balance check
try {
const resp = await axios.get("https://ocr.captchaai.com/res.php", {
params: { key: API_KEY, action: "getbalance", json: 1 },
});
if (resp.data.status === 1) {
const balance = parseFloat(resp.data.request);
if (balance < 2) {
await alerter.trigger(
`CaptchaAI balance critically low: $${balance.toFixed(2)}`,
"critical",
{ balance },
"captcha-balance-critical"
);
} else if (balance < 10) {
await alerter.trigger(
`CaptchaAI balance low: $${balance.toFixed(2)}`,
"warning",
{ balance },
"captcha-balance-warning"
);
} else {
await alerter.resolve("captcha-balance-critical").catch(() => {});
await alerter.resolve("captcha-balance-warning").catch(() => {});
}
}
} catch (err) {
console.error("Balance check failed:", err.message);
}
// Error rate check
const rate = this.errorRate;
if (rate > 0.2 && this.results.length > 10) {
await alerter.trigger(
`CaptchaAI error rate: ${(rate * 100).toFixed(1)}%`,
"error",
{ errorRate: rate, totalTasks: this.results.length },
"captcha-error-rate"
);
} else if (rate < 0.05 && this.results.length > 10) {
await alerter.resolve("captcha-error-rate").catch(() => {});
}
}
}
const monitor = new CaptchaHealthMonitor();
// Run checks every 60 seconds
setInterval(() => monitor.checkAndAlert(), 60000);
module.exports = { monitor, alerter };
Liste de contrôle de configuration de PagerDuty
| Étape | Action |
|---|---|
| 1 | Créer un service dans PagerDuty pour "CaptchaAI Pipeline" |
| 2 | Ajouter l'intégration de l'API Events v2 au service |
| 3 | Copiez la clé de routage dans la variable d'environnement PAGERDUTY_ROUTING_KEY |
| 4 | Mettre en place une politique d'escalade (astreinte → chef d'équipe → manager) |
| 5 | Configurer les règles de notification (push, SMS, téléphone) |
| 6 | Ajoutez des fenêtres de maintenance pour les temps d'arrêt planifiés |
Dépannage
| Problème | Parce que | Corriger |
|---|---|---|
| L'alerte ne se déclenche pas | Mauvaise clé de routage | Vérifier que la clé correspond à l'intégration de l'API d'événements du service |
| Incidents en double | dedup_key manquant |
Définissez toujours une clé de déduplication cohérente par type d'alerte |
| Alerte inondation | Pas de temps de recharge entre les déclencheurs | La clé de déduplication PagerDuty supprime les doublons ; assurez-vous de les utiliser |
| La résolution automatique ne fonctionne pas | Incompatibilité de clé de déduplication | Assurez-vous que la résolution utilise exactement la même clé de déduplication que le déclencheur |
FAQ
Comment éviter la fatigue des alertes ?
Utilisez les clés de déduplication pour regrouper les alertes associées en un seul incident. Définissez les alertes d’avertissement comme étant de faible urgence (pas de page). Réservez critic/high-urgency pour un solde < 2 $ ou pour tous les travailleurs en panne.
Puis-je intégrer PagerDuty à Datadog/New Relic à la place ?
Oui. Datadog et New Relic ont tous deux des intégrations natives PagerDuty. Utilisez-les si vous envoyez déjà des métriques à une plateforme d'observabilité. L'intégration directe de l'API (ce guide) est la meilleure solution lorsque vous souhaitez un contrôle personnalisé.
Quelle est la différence entre déclencher, reconnaître et résoudre ?
Trigger crée un nouvel incident. Reconnaître arrête les notifications mais maintient l'incident ouvert (quelqu'un y travaille). Resolve clôture complètement l'incident.
Articles connexes
- Création de pipelines Captcha client Captchaai
- Construire une automatisation responsable Captchaai
- Alertes de métriques Datadog de surveillance Captchaai
Prochaines étapes
Soyez alerté dès que votre pipeline CAPTCHA rencontre des problèmes :commencez avec une clé API CaptchaAIet connectez PagerDuty.
Guides associés :
- Surveillance Datadog
- Nouvelle relique APM
- Référence des codes d'erreur