Améliore le bootstrap et les tests de non régression
Contexte
- il y a des jeux de données manquants quand on veut monter un environnement fromn scratch (cf. https://datahub.incubateur.tech/infrastructure/indicateurs/-/issues/236)
- les tests de non régression (qui font eux même un bootstrap) sont à moitié cassés (time out)
- on devrait pouvoir récupérer à la source les fichier du référentiel géo
Contenu
-
Remplace
make fetch_admin
parmake harvest_geo
Maintenant que l’on sait moissonner des fichiers zippés, on peut aller chercher les fichiers du référentiel géo à la source plutôt que de devoir les récupérer dans les archives du serveur.
-
CLI: n’affiche que les 100 premières lignes de logs à l’import
Pour certains jeux de données, on ignore ~30 000 lignes du fichier, et on produit un message de log pour chacune, ce qui met apparemment un temps délirant à formater avec
rich
.Je suspecte que c’est ce qui nous pourrit les tests de non régression.
-
Makefile: ne récupère que les jeux de données locaux manquants sur le serveur
Avant on récupérait tout en vrac dans
inbox
(où on avait peut être accumulé d’autres choses) et on importait ensuite tout le contenu du dossier.Maintenant on ne récupère que les jeux de données locaux manquants (à condition qu’ils soient présents sur le serveur) et on les importe individuellement.
Les jeux de données distants sont eux directement moissonnés à la source.
-
Makefile: ajoute une cible
migrate
distincteCela permet de faire un
make migrate
pour appliquer les migrations de schéma avec alembic. -
Parallélise le job
non-regression
On le sépare en deux jobs parallèles, dont le résultat est comparé par un troisième.