Stage¶
Vue d'ensemble¶
Le Stage est la zone de réception des données importées depuis les flux marchands.
Il constitue une étape essentielle du Pipeline, car il conserve les données dans un état proche de leur forme d'origine avant toute normalisation métier.
Son rôle est de fournir une base stable, traçable et auditable pour les traitements suivants.
Position dans le Pipeline¶
Ingestion des flux
│
▼
Stage
│
▼
Normalisation
│
▼
Enrichissement
Le Stage reçoit les données après l'ingestion et les rend disponibles pour la normalisation.
Mission¶
Le Stage permet de :
- conserver les données issues des marchands ;
- isoler l'import brut des traitements métier ;
- faciliter les audits ;
- permettre les comparaisons ;
- préparer les données pour la normalisation.
Il ne cherche pas à produire une vérité métier.
Pourquoi une étape Stage ?¶
Les flux marchands peuvent être incomplets, hétérogènes ou instables.
Sans étape intermédiaire, toute anomalie devrait être analysée directement dans le Pipeline de normalisation.
Le Stage permet au contraire de séparer clairement :
- ce que le marchand a fourni ;
- ce que la Platform a transformé ;
- ce que le Domain Core a interprété.
Cette séparation est indispensable pour diagnostiquer correctement les problèmes.
Responsabilités¶
Le Stage est responsable de la conservation des données importées.
Il peut notamment stocker :
- l'identifiant du flux ;
- l'identifiant marchand ;
- le titre produit ;
- les prix ;
- les catégories marchandes ;
- les identifiants fournis ;
- les attributs bruts ;
- les métadonnées d'import.
Ces informations servent ensuite aux traitements suivants.
Ce que le Stage ne fait jamais¶
Le Stage ne doit jamais :
- résoudre une identité produit ;
- décider d'une verticale ;
- enrichir les attributs ;
- calculer une projection ;
- corriger une donnée marchande ;
- appliquer une règle métier.
Toute logique métier appartient aux étapes ultérieures.
Traçabilité¶
Le Stage joue un rôle central dans la traçabilité.
Lorsqu'une anomalie est détectée dans une offre normalisée, il doit être possible de revenir à la donnée importée afin de comprendre son origine.
Cette capacité est essentielle pour :
- distinguer une erreur marchande d'une erreur Platform ;
- vérifier une hypothèse ;
- rejouer un traitement ;
- documenter un incident.
Relation avec les audits¶
De nombreux Read Services s'appuient sur les données du Stage.
Ils permettent notamment de comparer :
- les données brutes ;
- les données normalisées ;
- les projections ;
- les KPI obtenus après traitement.
Le Stage constitue donc une source d'observation fondamentale.
Invariants¶
Fidélité¶
Le Stage doit conserver une représentation fidèle des données reçues.
Séparation¶
Aucune logique métier ne doit être introduite dans cette couche.
Auditabilité¶
Chaque donnée normalisée doit pouvoir être reliée à son origine.
Rejouabilité¶
Dans la mesure du possible, les données du Stage doivent permettre de rejouer ou d'analyser un traitement.
Exemple¶
Un marchand fournit une offre avec :
- un titre incomplet ;
- une catégorie imprécise ;
- un prix valide ;
- un identifiant absent.
Le Stage conserve ces informations telles qu'elles ont été reçues.
La normalisation pourra ensuite tenter d'en extraire une représentation exploitable, mais le Stage reste la référence de ce que le marchand a réellement transmis.
Évolution¶
À mesure que de nouveaux flux seront intégrés, le Stage devra rester suffisamment générique pour accueillir des formats variés.
Son rôle ne doit toutefois pas s'étendre vers la normalisation.
Il reste une zone de conservation, d'observation et de traçabilité.