L'Opportunité
Nous recherchons un.e Ingénieur.e de Fiabilité Senior.e – Fiabilité des Produits pour aider à mettre à l'échelle, exploiter et améliorer la fiabilité de notre plateforme de communication basée sur l'IA. Ce rôle se situe à l'intersection de l'ingénierie logicielle, de l'infrastructure, des opérations et du support produit.
Vous serez responsable de garantir la stabilité, l'évolutivité et les performances des systèmes alimentant des milliers d'interactions en temps réel sur des architectures distribuées et événementielles. Vous servirez également de première couche d'investigation technique pour les incidents de production et les défaillances liées aux produits, en partenariat étroit avec les équipes d'ingénierie pour identifier les causes profondes, améliorer l'observabilité et favoriser des améliorations durables de la fiabilité.
Ce rôle hautement technique et pratique convient à quelqu'un qui aime déboguer des systèmes complexes, améliorer l'excellence opérationnelle et construire une infrastructure fiable à grande échelle.
Responsabilités
Servir comme première ligne d'investigation technique pour les incidents de production, les défaillances de produits et les problèmes de performance
Analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes et implémenter des solutions
Collaborer étroitement avec les équipes d'ingénierie backend et DevOps pour diagnostiquer les problèmes affectant la stabilité, la latence et la fiabilité
Concevoir et mettre en œuvre des améliorations d'observabilité, y compris la surveillance, l'alerte et la journalisation structurée, à travers les systèmes distribués
Établir et améliorer les processus de réponse aux incidents, y compris les procédures d'escalade, l'analyse post-mortem et la prévention des incidents récurrents
Participer à la conception architecturale des services backend, des systèmes événementiels et des pipelines de messagerie asynchrone pour garantir la fiabilité et la récupération après sinistre
Optimiser les performances et la résilience des systèmes fonctionnant sous charge élevée, avec des milliers d'interactions en temps réel
Développer et maintenir la documentation opérationnelle, les runbooks et les dashboards pour soutenir les opérations en production
Collaborer avec les équipes de produit et de support client pour comprendre les impacts métier et les priorités
Mentorer les ingénieurs plus juniors sur les meilleures pratiques de fiabilité et les principes de conception résiliente
Qualifications Requises
5+ années d'expérience en ingénierie de la fiabilité des sites, ingénierie de production, ingénierie backend ou rôles similaires
Expérience pratique solide avec Node.js et TypeScript dans des environnements de production
Expérience éprouvée dans l'exploitation et le dépannage des architectures de systèmes distribués et microservices
Expérience en gestion des charges de travail de production sur AWS, y compris ECS, Lambda, SQS et API Gateway
Expérience pratique avec Kafka, AWS SQS ou d'autres systèmes de messagerie/streaming d'événements
Compréhension solide des meilleures pratiques en observabilité, surveillance, alerte et réponse aux incidents
Expérience en débogage de problèmes complexes de production sur les couches application, infrastructure et réseau
Compréhension approfondie des concepts de fiabilité des systèmes, notamment la concurrence, les workflows asynchrones, la résilience, la tolérance aux pannes et la cohérence éventuelle
Expérience avec MongoDB et Redis dans des environnements de production à grande échelle
Capacité à analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes
Fortes compétences en communication et capacité à collaborer entre les équipes d'ingénierie, produit et support
Expérience du mentorat d'ingénieurs et contribution aux initiatives d'excellence opérationnelle
Atouts
Expérience avec Kubernetes et l'orchestration de conteneurs en production
Expérience plus large de l'infrastructure AWS (réseautage, infrastructure-as-code, observabilité, optimisation des coûts)
Expérience avec les bases de données relationnelles telles que PostgreSQL
Expérience en développement de tests de charge, de tests de résilience et d'exercices de chaos engineering
Expérience antérieure en support client ou en travail direct avec les clients pour comprendre les impacts métier
Pourquoi Matador ?
Rejoignez une équipe passionnée qui innove dans l'espace de l'IA pour l'automobile.
Travaillez à distance avec des horaires flexibles et une forte autonomie.
Contribuez à une entreprise en croissance où votre voix et votre impact comptent.
Rémunération compétitive et opportunités d'avancement.
Nous recherchons des ingénieurs autonomes, brillants et passionnés qui sont enthousiastes à l'idée de construire une infrastructure fiable qui alimente une technologie révolutionnaire. Si vous êtes passionné par les systèmes évolutifs, l'excellence opérationnelle et la création d'une base de production solide pour une entreprise à forte croissance, nous voulons vous entendre.
Rejoignez-nous pour façonner la fiabilité de l'avenir des communications de vente automobile !
Échelle Salariale 130-150k selon l'expérience
Senior Site Reliability Engineer - Product Reliability
About Us
Matador AI is revolutionizing the automotive retail space as the #1 ranked conversational AI platform for dealerships. Our cutting-edge platform helps automotive dealerships automate and enhance their sales and service conversations, driving better customer engagement and business outcomes. With over 500 dealerships trusting our technology, we're growing rapidly and redefining how the automotive industry connects with customers.
The Opportunity
We're seeking a Senior Site Reliability Engineer – Product Reliability to help scale, operate, and improve the reliability of our AI-powered communication platform. This role sits at the intersection of software engineering, infrastructure, operations, and product support.
You'll be responsible for ensuring the stability, scalability, and performance of systems powering thousands of real-time interactions across distributed, event-driven architectures. You'll also serve as the first layer of technical investigation for production issues and product-related failures, partnering closely with engineering teams to identify root causes, improve observability, and drive long-term reliability improvements.
This is a highly technical, hands-on role for someone who enjoys debugging complex systems, improving operational excellence, and building reliable infrastructure at scale.
Responsibilities
Serve as the first line of technical investigation for production incidents, product failures, and performance issues
Analyze logs, traces, metrics, and system behavior to identify root causes efficiently and implement solutions
Partner closely with backend engineering and DevOps teams to diagnose issues impacting stability, latency, and reliability
Design and implement observability improvements, including monitoring, alerting, and structured logging across distributed systems
Establish and improve incident response processes, including escalation procedures, post-mortem analysis, and prevention of recurring incidents
Participate in architectural design of backend services, event-driven systems, and asynchronous messaging pipelines to ensure reliability and disaster recovery
Optimize performance and resilience of systems operating under high load, powering thousands of real-time interactions
Develop and maintain operational documentation, runbooks, and dashboards to support production operations
Collaborate with product and customer support teams to understand business impact and prioritization
Mentor junior engineers on reliability best practices and resilient design principles
Required Qualifications
5+ years of experience in Site Reliability Engineering, Production Engineering, Backend Engineering, or related roles
Strong hands-on experience with Node.js and TypeScript in production environments
Proven experience operating and troubleshooting distributed systems and microservices architectures
Experience managing production workloads on AWS, including ECS, Lambda, SQS, and API Gateway
Hands-on experience with Kafka, AWS SQS, or other messaging/event-streaming systems
Strong understanding of observability, monitoring, alerting, and incident response best practices
Experience debugging complex production issues across application, infrastructure, and networking layers
Deep understanding of system reliability concepts including concurrency, async workflows, resiliency, fault tolerance, and eventual consistency
Experience with MongoDB and Redis in high-scale production environments
Ability to analyze logs, traces, metrics, and system behavior to identify root causes efficiently
Strong communication skills and ability to collaborate across engineering, product, and support teams
Experience mentoring engineers and contributing to operational excellence initiatives
Nice to Have
Kubernetes and container orchestration in production
Broader AWS infrastructure experience (networking, infrastructure-as-code, observability, cost optimization)
Experience with relational databases such as PostgreSQL
Experience developing load tests, resilience tests, and chaos engineering exercises
Prior customer support experience or direct work with customers to understand business impact
Why Matador AI?
Join a passionate team innovating in the AI space for automotive.
Work remotely with flexible hours and strong autonomy.
Contribute to a growing company where your voice and impact matter.
Competitive compensation and opportunities for advancement.
We're looking for self-driven, bright, and passionate engineers who are excited about building reliable infrastructure that powers revolutionary technology. If you're passionate about scalable systems, operational excellence, and creating a solid production foundation for a high-growth company, we want to hear from you.
Join us in shaping the reliability of the future of automotive retail communications!
Salary Range 130-150k commensurate with experience