Mon historique pro sur ELK
Je travaille sur ELK depuis la v6.8 ce qui me permet d'être à l'aise en Build &
Run, j'ai travaillé sur des clusters à forte volumétrie avec des contraintes de
haute disponibilité. J'ai eu l'occasion de construire et modifier des
infrastructures pour des clusters mutualisés dans le cadre d' offres de service
de collecte de logs mais aussi sur des clusters autonomes pour des usages
métiers.
Je réalise aussi des mises en place de flux de données allant de la production de messages
passant par une stack de rétention et transformation en finissant par l'ingestion dans elastic.
Une fois les données stockées dans Elastic, celles-ci sont accessibles et peuvent être exploitées, je mets
en place des dashboards, de l'alerting, des watcher ou des
jobs de Machine learning et bien d'autre fonctionnalités ...
Afin de gagner en robustesse et qualité des platefromes, je déploie et réalise les
upgrades en m'appuyant sur les briques d'industrialisation.
Pour la partie gestion de projet, je procède aux études, propositions de
solutions, aide à l'harbitrage et positionne les jalons, enfin les taches sont distribuées.
Je suis habitué à travailler dans un cadre agile pour structurer le temps dédiés au
Build & Mco et remonter les points de blocage.
Enfin j'ai coeur à documenter les projets, les modes opératoires, les incidents afin de
capitaliser sur les plateformes.
Vous l'aurez compris je suis un expert elasticsearch à tendance Teamplayer :)
Infra & Data
Architecture
Je suis en mesure de definir l'architecture de cluster et des flux de données selon les cas d'usage de search, ingestion, machine learning... En fonction des ressources nécessaires on definira une architecture basée sur du On-prem ou de la machines virtuelle sans ommetre de dispatcher sur plusieurs data center (résilience). La restoration de cluster/indices sera réalisable via des briques de stoquage externes de type S3, nfs ou autre techno.
Administration
J'assure les tâches d'administration user, roles ,roles mapping, spaces, ilm, component templates ... des clusters en les définisaant depuis l'ui kibana ou en consommant les api elastic & kibana+(internal) à disposition.
Cycle de vie de la donnée
J'aime lier un contrat fort avec la qualité de la donnée, après avoir optimisé le mapping je diminue l'aspect dynamique et coercitif. Selon les besoins, la donnée sera stoquée dans des indices classiques ou des datastreams. Bien structurée, la donnée sera pleinement exploitable via du machine learning, des dashboards, etc.
La gestion des couts de la donnée couplée aux rééls besoins d'exploitation implique la mise en place de stratégie de stockage. La donnée stoquée dans les indices migrera de tiers les plus rapides en stoquage jusqu'en frozen si nécessaire avant suppression. Le déplacement des indices est couvert par les ILM pour simplifier et automatiser les tâches d'administration.
Pilotage data
Design d'indices et ILM adaptés à la volumétrie avec un socle d'observabilité temps réel.
Donnée nettoyée
Qualification de la donnée pour une exploitation fiable de jobs de Machine learning
Dashboarding
Mise en place de dashboards d'exploitation
Parlons cycle de vie
Cycle de vie de la stack
Elastic délivre à forte fréquence de nouvelles version avec des corrections de bugs mais aussi de nouvelles fonctionnalités et une compatibilitée accrue. Les montées de versions sont des projets sensibles, elle se doivent d'être découpées en différentes phases préparatoires par environnement de Dev à Prod. Ces démarche sont nécessaires pour définir et valider le chemin critique de la migration en fonction de la cohabitation des fonctionnalités du des clusters. La migration sera jalonnée selon différents critères (alignement des versions + tests de non régressions de l'ensemble des briques flux, mapping, dashbords, machine learning ...) tout en définissant la recète de fin de migration.
Industrialisation
L'automatisation des tâches est incontournable pour gagner en qualité et en execution avec un haut degré de répétabilité. Au cours de mes expériences chez mes clients j'ai pu mettre en oeuvre et utiliser les outils d'industrialisation courants ansible, ansible_tower, AAP, Jenkins, Xlr ... Ces outils m'ont permis d'installer, mettre à jour des clusters entiers de toutes tailles ainsi que des palteformes Elastic Cloud Enterprise de dev à prod.
Montée de version
Evaluation des fonctionnalités et dépendances pour identifier les points critiques pour baliser la migration.
Validation
Elaborer un document de recète pour valider les migrations.
Automation
Mise en place et migration d'outils d'industrialisation des plateforme ECE et ELK.
Gestion
Troubleshooting
L'activié de résolution de problème est incontournable depuis les environnements de dev jusqu'en prod. Il sera alors nécessaire d'analyser le problème en passant en revue les logs. Ainsi on sera en mesure de remonter la piste pour réaliser les gestes correctifs ou faire intervenir un sevice tiers. J'ai pour reflexe de faire preuve de résilience et autonomie au quotidien et encore plus lors de périodes d'astreinte.
Documentation
Une infrastructure est une somme de détails, il est capital de rédiger et de faire évoluer les procédures pour consigner les gestes d'intervention. La documentation est un outil idéal pour passer l'information lors de l'intégration d'intervenant. Aussi la rédaction de post-mortem est incontournable afin de consigner les incidents et correctif majeurs ayant eu un impact sur la production avec un impact sur le service rendu.
Communication
La gestion de platefomres implique une communication exemplaire lors d'intervention technique ou d'une panne. Les services tiers s'appuyant sur les clusters/plateforme sont informés et peuvent prendre de leurs coté les dispositions nécessaires.
Troubleshooting
Etude des logs depuis le cluster de monitoring et ou directement sur les noeuds/instances.
Doc doc doc
Toujours instruire les documentations, pour historique, l'onborading des arrivants et llm / rag.
Informer
La qualité perçue des plateformes dépend fortement de la communication.