Volumes horaires
- CM 15.0
- Projet -
- TD 15.0
- Stage -
- TP -
- DS -
Crédits ECTS
Crédits ECTS 3.0
Objectif(s)
Comprendre les enjeux d'une analyse des données
Être capable de structurer l’information en vue d'une analyse adaptée
Être capable de choisir une méthodologie d'analyse adaptée au cas d'étude
Être capable de mettre en oeuvre une analyse professionnelle sur des jeux de données concrets
Être capable d'interpréter, comprendre et produire des résultats statistiques
Comprendre les limites de ces approches, et envisager des alternatives, extensions, etc.
Contenu(s)
Le cours propose d’analyser les données de façon systématique selon la démarche suivante : Description, Segmentation, Modélisation, Prédiction, Validation.
Après un rappel de statistique descriptive on s’attachera à faire une analyse de données univariées, bivariées, multivariées. L’enjeu est de mobiliser les méthodes les plus adaptées selon le type de données (qualitatives / quantitatives) et les questions qui se posent. Pour citer quelques outils standards :
- Méthode d’exploration des données : d'analyse de variance (ANOVA), Analyse de correspondances ou factorielle (ACP AFC), "Clusterisation", Data Envelopment Analysis, génération de règles, réseau de neurones
- Méthode de la statistique décisionnelle : Tests statistiques paramétriques et non paramétriques (tests sur des espérances et proportions, tests d’indépendance entre variables quantitatives et qualitatives, etc)
- Méthodes de modélisation par régression linéaire (variables continues) et régression logistique (variables discrètes).
Une attention sera portée à la question du traitement des données manquantes et aberrantes, à la détection des erreurs, au choix des variables et de leurs transformations, ainsi qu’à la validation et aux mesures de la qualité des modèles et de leurs prédictions.
Une partie du cours se fera en TP et/ou étude de cas.
Possibilité d'utiliser différents logiciels de statistiques, programmation linéaire, et fouille de données.
- Statistique (statistique descriptive ; estimation par la méthode des moments et du maximum de vraisemblance; intervalle de confiance ; test d'espérance et de proportion)
- Manipulation de la donnée
- Connaissance basique du langage R
CC : contrôle continu (études de cas en groupe ou individuelles)
EX : examen final individuel
UE : note final
Le jury peut décider le passage en année supérieure sous réserve de validation différée de cette UE. Cette décision reste exceptionnelle ; le jury est souverain pour chaque étudiant.
UE = 0.5*CC + 0.5*EX
Cette pondération est compatible avec une organisation des enseignements et des examens en distanciel
L'examen existe uniquement en anglais
Le cours est programmé dans ces filières :
- Cursus ingénieur - Master 1 GI SIE - Semestre 8 (ce cours est donné uniquement en anglais )
- Cursus ingénieur - Master 1 GI GID - Semestre 8 (ce cours est donné uniquement en anglais )
Code de l'enseignement : WGUS3022
Langue(s) d'enseignement :
Vous pouvez retrouver ce cours dans la liste de tous les cours.
I.H. Witten et E. Frank, (2005), DataMining – Practical machine learning tools and technics, Elsevier.
Stéphane Tufféry, (2005), Datamining et statistique Décisionnelle – L’intelligence dans les bases de données, Ed. Technip.
Cornillon et al., (2008), Statistiques avec R, Presses Universitaires de Rennes.
Gaël Millot, (2011), Comprendre et réaliser les tests statistiques à l'aide de R, 2ème édition, Editions De Boeck, 767 pages
J.H. McDonald, (2009), Handbook of Biological Statistics, Sparky House Publishing.