Tinvention

System Reliability & Operations Engineer (QA Systems Specialist)

•Full-time

About the Job

Siamo alla ricerca di un System Reliability & Operations Engineer (o QA Systems Specialist) da inserire nel nostro team. La risorsa non si occuperà del classico testing pre-deploy, ma garantirà la stabilità, le performance e l'affidabilità dei sistemi già in esercizio (produzione). Il candidato ideale ha una forte mentalità analitica, capacità di troubleshooting proattivo e competenze sistemistiche.

Responsabilità principali:

Osservabilità e Monitoraggio: Monitorare costantemente i sistemi in esercizio, interpretando metriche e alert per anticipare comportamenti critici e colli di bottiglia prima che impattino il business.
Log Analysis: Analizzare i log applicativi e di sistema per identificare anomalie, diagnosticare la causa radice (Root Cause Analysis) dei disservizi e tracciare i difetti.
Troubleshooting: Collaborare strettamente con i team di sviluppo e infrastruttura per riprodurre, isolare e risolvere tempestivamente gli incidenti sui sistemi live.
Automazione e Scripting: Sviluppare e mantenere script automatizzati per ottimizzare le attività di controllo, la gestione dei dati in esercizio e le verifiche di routine.
Metriche di Qualità: Raccogliere dati sulle performance dei sistemi e monitorare i KPI di affidabilità e i livelli di servizio (SLA/SLO).

Requisiti fondamentali (Technical Skills):

Log & Data Analysis: Comprovata capacità di analizzare, correlare e interrogare flussi di log complessi e database relazionali tramite query SQL.
Sistemi Operativi e Networking: Solide competenze amministrative su sistemi operativi (Windows e/o Linux) e approfondita conoscenza dei protocolli di rete (TCP/IP, DNS, HTTP/S).
Monitoring & Observability: Esperienza maturata nell’utilizzo di piattaforme per il controllo e l’analisi dei principali contesti architetturali:
Piattaforme Enterprise & Cloud-Native (All-in-One), come Datadog, Dynatrace, New Relic, Splunk.
Soluzioni Open-Source standard di mercato, come Prometheus, Grafana, ELK stack.
Monitoraggio Cloud dei Vendor Pubblici, come Azure Monitor, AWS CloudWatch.
Monitoraggio di Rete e Infrastruttura Tradizionali, come Zabbix, Nagios, PRTG Network Monitor.

Qualifiche preferenziali (Nice to have):

Automation & Scripting: Forte competenza nella scrittura di script (es. Bash, PowerShell, Python) per l'automazione di alert e controlli di routine.
Incident Management: Familiarità con i processi di gestione degli incidenti in produzione (ITIL, concetti di SLA/SLO) e sistemi di alert (es. PagerDuty, Opsgenie).

Cosa offriamo:

Contratto a tempo indeterminato, ma siamo aperti anche a liberi professionisti.
Il lavoro è compatibile con la modalità full remote.
La retribuzione sarà commisurata al livello di esperienza della persona, indicativamente in un range fra 32.000 e 50.000 Euro.

La ricerca è rivolta a candidati di entrambi i sessi (L.903/77).

About Tinvention

Tinvention ti offre la possibilità di entrare a far parte di un team di persone appassionate di tecnologia, capaci di immaginare e di esplorare soluzioni innovative.

Siamo convinti che la professionalità e la qualità dei servizi che offriamo dipendano in primo luogo dalla valorizzazione delle persone. Per questa ragione disponiamo di un percorso formativo interno necessario non solo a trasferire contenuti tecnici, ma anche a infondere la filosofia e l’impegno di Tinvention. Per noi la forma mentis e la continua formazione sul campo sono elementi imprescindibili, senza i quali i progetti non possono avere successo. La crescita professionale delle persone in Tinvention avviene in un contesto dinamico che lascia spazio alle ambizioni e premia il lavoro ben fatto. I nostri collaboratori vengono incentivati ad aggiornarsi, a sperimentare e a coltivare il proprio ingegno.

Apply