Consultant Elasticsearch & ECE

Portrait de Frédéric Beaudeau
  • Expertise ELK depuis la version 6.8
  • Design de clusters sur mesure pour répondre aux exigences d'infrastructure
  • Team player aguerri aux environnements agiles depuis 2016
  • Sensibilisé aux enjeux de la Production et astreintes

Je suis Ingenieur de production orienté dans le bigdata spécialisé sur la stack Elasticsearch et plateforme Elastic Cloud Enterprise on prem. De nature ouverte et communicante j'aime travailler en équipe, mon expérience me permet aussi d'être autonome lors d'incidents pendant les astreintes.

Mon historique pro sur ELK

Je travaille sur ELK depuis la v6.8 ce qui me permet d'être à l'aise en Build & Run, j'ai travaillé sur des clusters à forte volumétrie avec des contraintes de haute disponibilité. J'ai eu l'occasion de construire et modifier des infrastructures pour des clusters mutualisés dans le cadre d' offres de service de collecte de logs mais aussi sur des clusters autonomes pour des usages métiers.

Je réalise aussi des mises en place de flux de données allant de la production de messages passant par une stack de rétention et transformation en finissant par l'ingestion dans elastic. Une fois les données stockées dans Elastic, celles-ci sont accessibles et peuvent être exploitées, je mets en place des dashboards, de l'alerting, des watcher ou des jobs de Machine learning et bien d'autre fonctionnalités ... Afin de gagner en robustesse et qualité des platefromes, je déploie et réalise les upgrades en m'appuyant sur les briques d'industrialisation. Pour la partie gestion de projet, je procède aux études, propositions de solutions, aide à l'harbitrage et positionne les jalons, enfin les taches sont distribuées. Je suis habitué à travailler dans un cadre agile pour structurer le temps dédiés au Build & Mco et remonter les points de blocage. Enfin j'ai coeur à documenter les projets, les modes opératoires, les incidents afin de capitaliser sur les plateformes.

Vous l'aurez compris je suis un expert elasticsearch à tendance Teamplayer :)

Infra & Data

Architecture

Je suis en mesure de definir l'architecture de cluster et des flux de données selon les cas d'usage de search, ingestion, machine learning... En fonction des ressources nécessaires on definira une architecture basée sur du On-prem ou de la machines virtuelle sans ommetre de dispatcher sur plusieurs data center (résilience). La restoration de cluster/indices sera réalisable via des briques de stoquage externes de type S3, nfs ou autre techno.


Administration

J'assure les tâches d'administration user, roles ,roles mapping, spaces, ilm, component templates ... des clusters en les définisaant depuis l'ui kibana ou en consommant les api elastic & kibana+(internal) à disposition.


Cycle de vie de la donnée

J'aime lier un contrat fort avec la qualité de la donnée, après avoir optimisé le mapping je diminue l'aspect dynamique et coercitif. Selon les besoins, la donnée sera stoquée dans des indices classiques ou des datastreams. Bien structurée, la donnée sera pleinement exploitable via du machine learning, des dashboards, etc.

La gestion des couts de la donnée couplée aux rééls besoins d'exploitation implique la mise en place de stratégie de stockage. La donnée stoquée dans les indices migrera de tiers les plus rapides en stoquage jusqu'en frozen si nécessaire avant suppression. Le déplacement des indices est couvert par les ILM pour simplifier et automatiser les tâches d'administration.

Pilotage data

Design d'indices et ILM adaptés à la volumétrie avec un socle d'observabilité temps réel.

Donnée nettoyée

Qualification de la donnée pour une exploitation fiable de jobs de Machine learning

Dashboarding

Mise en place de dashboards d'exploitation

Parlons cycle de vie

Cycle de vie de la stack

Elastic délivre à forte fréquence de nouvelles version avec des corrections de bugs mais aussi de nouvelles fonctionnalités et une compatibilitée accrue. Les montées de versions sont des projets sensibles, elle se doivent d'être découpées en différentes phases préparatoires par environnement de Dev à Prod. Ces démarche sont nécessaires pour définir et valider le chemin critique de la migration en fonction de la cohabitation des fonctionnalités du des clusters. La migration sera jalonnée selon différents critères (alignement des versions + tests de non régressions de l'ensemble des briques flux, mapping, dashbords, machine learning ...) tout en définissant la recète de fin de migration.


Industrialisation

L'automatisation des tâches est incontournable pour gagner en qualité et en execution avec un haut degré de répétabilité. Au cours de mes expériences chez mes clients j'ai pu mettre en oeuvre et utiliser les outils d'industrialisation courants ansible, ansible_tower, AAP, Jenkins, Xlr ... Ces outils m'ont permis d'installer, mettre à jour des clusters entiers de toutes tailles ainsi que des palteformes Elastic Cloud Enterprise de dev à prod.

Montée de version

Evaluation des fonctionnalités et dépendances pour identifier les points critiques pour baliser la migration.

Validation

Elaborer un document de recète pour valider les migrations.

Automation

Mise en place et migration d'outils d'industrialisation des plateforme ECE et ELK.

Gestion

Troubleshooting

L'activié de résolution de problème est incontournable depuis les environnements de dev jusqu'en prod. Il sera alors nécessaire d'analyser le problème en passant en revue les logs. Ainsi on sera en mesure de remonter la piste pour réaliser les gestes correctifs ou faire intervenir un sevice tiers. J'ai pour reflexe de faire preuve de résilience et autonomie au quotidien et encore plus lors de périodes d'astreinte.


Documentation

Une infrastructure est une somme de détails, il est capital de rédiger et de faire évoluer les procédures pour consigner les gestes d'intervention. La documentation est un outil idéal pour passer l'information lors de l'intégration d'intervenant. Aussi la rédaction de post-mortem est incontournable afin de consigner les incidents et correctif majeurs ayant eu un impact sur la production avec un impact sur le service rendu.


Communication

La gestion de platefomres implique une communication exemplaire lors d'intervention technique ou d'une panne. Les services tiers s'appuyant sur les clusters/plateforme sont informés et peuvent prendre de leurs coté les dispositions nécessaires.

Troubleshooting

Etude des logs depuis le cluster de monitoring et ou directement sur les noeuds/instances.

Doc doc doc

Toujours instruire les documentations, pour historique, l'onborading des arrivants et llm / rag.

Informer

La qualité perçue des plateformes dépend fortement de la communication.

Coté expérience

10 années d'expertise Elasticsearch
45 projets de clusters designés & optimisés
24 astreintes opérationnelles gérées / an

Compétences techniques