Volumes horaires
- CM 17.25
- Projet -
- TD 12.75
- Stage -
- TP -
- DS 1.0
Crédits ECTS
Crédits ECTS 3.0
Objectif(s)
Les étudiants découvriront les méthodes de préparation de données pour le machine learning, l’ingénierie de la connaissance et le text mining, et apprendront à les intégrer dans les projets de data sciences.
Les étudiants sauront gérer leurs données, les trier, les organiser efficacement. Ils sauront présenter des visualisations pertinentes de leurs données et résultats. Ils auront acquis un comportement d’ingénieur de la donnée, responsable et éthique.
Dans la seconde partir du cours, le cours présente les premiers outils de traitement des données quantitatives et qualitatives par apprentissage automatique.
Les méthodes d'analyse qui seront apprises permettent la classification automatique ; la construction de modèles prédictifs ; l'évaluation des performances des méthodes ; le diagnostic des limites des applications de ces méthodes.
Contenu(s)
B0 Introduction : Gestion de Projet de Data Sciences
Pilotage de projets sciences de données, en se basant sur CRISP-DM
B1 Manipulation de la donnée & Responsabilités du Data Engineer (éthique, sécurité, etc.)
B1.1 Gestion technique des données
Format de données, formats de variables ; opérations de base (lectures, écritures ; tris ; sélections, projections, filtres ; fusions)
B1.2 Gestion technique des résultats (visualisation)
Types de graphiques, principes d’une bonne visualisation
Faire techniquement et discuter les choix et les représentations
B1.3 Gestion sociétale
Aspects légaux (RGPD), durables (risques sur les personnes [client et personnel] comme coûts environnementaux), sécurité (qui détient les données, espionnage…).
B1.4 Mise en oeuvre : Micro-projet
.1 Enjeux de l'apprentissage automatique, apprentissage automatique supervisé (régression, classification)
méthodes supervisées vs méthodes non supervisées (présentation rapide de quelques méthodes non supervisées (k-means, dendrogrammes)).
.2 Méthode de régression et méthode de classification : Régression linéaire et régression logistique ; modèles, algorithmes et résolutions
.3 Évaluation interne de la régression et de la classification: Erreurs, résidus et évaluation des prédictions
.4 Évaluation externe : Hypothèses statistiques et évaluation des modèles
.5 Mise en oeuvre sur différentes bases de données
Les étudiants auront suivi et validé les cours : Probabilités et Statistiques; programmation avec R, programmation avec Python
Cette pondération est compatible avec une organisation des enseignements et des examens en distanciel
Notes de contrôle continu (au moins 2 notes de TP: TP1 et TP2)
Une note d'examen individuelle: E1
Note = 0.4*((TP1+TP2)/2) + 0.6*E1
Cette pondération est compatible avec une organisation des enseignements et des examens en distanciel
Notes de contrôle continu (au moins 2 notes de TP: TP1 et TP2)
Une note d'examen individuelle: E1
Note = 0.4*((TP1+TP2)/2) + 0.6*E1
Le cours est programmé dans ces filières :
- Cursus ingénieur - Master 1 GI GID - Semestre 7
- Cursus ingénieur - Master 1 GI SIE - Semestre 7
Code de l'enseignement : WGUS2092
Langue(s) d'enseignement :
Vous pouvez retrouver ce cours dans la liste de tous les cours.
Elff, (2020), Data Management in R , SAGE publication
Nicholas J. Horton and Ken Kleinman , (2016), Using R and RStudio for Data Management, Statistical Analysis, and Graphics (second edition)
J.H. McDonald, (2009), Handbook of Biological Statistics, Sparky House Publishing.
I.H. Witten et E. Frank, (2005), DataMining – Practical machine learning tools and technics, Elsevier.
Stéphane Tufféry, (2005), Datamining et statistique Décisionnelle – L’intelligence dans les bases de données, Ed. Technip.
Cornillon et al., (2008), Statistiques avec R, Presses Universitaires de Rennes.
Gaël Millot, (2011), Comprendre et réaliser les tests statistiques à l'aide de R, 2ème édition, Editions De Boeck, 767 pages
Hill, Griffiths and Lim, (2011), Principles of Econometrics, Fourth Edition