Siamo alla ricerca di un System Reliability & Operations Engineer (o QA Systems Specialist) da inserire nel nostro team. La risorsa non si occuperà del classico testing pre-deploy, ma garantirà la stabilità, le performance e l'affidabilità dei sistemi già in esercizio (produzione). Il candidato ideale ha una forte mentalità analitica, capacità di troubleshooting proattivo e competenze sistemistiche.
Responsabilità principali:
- Osservabilità e Monitoraggio: Monitorare costantemente i sistemi in esercizio, interpretando metriche e alert per anticipare comportamenti critici e colli di bottiglia prima che impattino il business.
- Log Analysis: Analizzare i log applicativi e di sistema per identificare anomalie, diagnosticare la causa radice (Root Cause Analysis) dei disservizi e tracciare i difetti.
- Troubleshooting: Collaborare strettamente con i team di sviluppo e infrastruttura per riprodurre, isolare e risolvere tempestivamente gli incidenti sui sistemi live.
- Automazione e Scripting: Sviluppare e mantenere script automatizzati per ottimizzare le attività di controllo, la gestione dei dati in esercizio e le verifiche di routine.
- Metriche di Qualità: Raccogliere dati sulle performance dei sistemi e monitorare i KPI di affidabilità e i livelli di servizio (SLA/SLO).
Requisiti fondamentali (Technical Skills):
- Log & Data Analysis: Comprovata capacità di analizzare, correlare e interrogare flussi di log complessi e database relazionali tramite query SQL.
- Sistemi Operativi e Networking: Solide competenze amministrative su sistemi operativi (Windows e/o Linux) e approfondita conoscenza dei protocolli di rete (TCP/IP, DNS, HTTP/S).
- Monitoring & Observability: Esperienza maturata nell’utilizzo di piattaforme per il controllo e l’analisi dei principali contesti architetturali:
- Piattaforme Enterprise & Cloud-Native (All-in-One), come Datadog, Dynatrace, New Relic, Splunk.
- Soluzioni Open-Source standard di mercato, come Prometheus, Grafana, ELK stack.
- Monitoraggio Cloud dei Vendor Pubblici, come Azure Monitor, AWS CloudWatch.
- Monitoraggio di Rete e Infrastruttura Tradizionali, come Zabbix, Nagios, PRTG Network Monitor.
Qualifiche preferenziali (Nice to have):
- Automation & Scripting: Forte competenza nella scrittura di script (es. Bash, PowerShell, Python) per l'automazione di alert e controlli di routine.
- Incident Management: Familiarità con i processi di gestione degli incidenti in produzione (ITIL, concetti di SLA/SLO) e sistemi di alert (es. PagerDuty, Opsgenie).
Cosa offriamo:
- Contratto a tempo indeterminato, ma siamo aperti anche a liberi professionisti.
- Il lavoro è compatibile con la modalità full remote.
- La retribuzione sarà commisurata al livello di esperienza della persona, indicativamente in un range fra 32.000 e 50.000 Euro.
La ricerca è rivolta a candidati di entrambi i sessi (L.903/77).