Aller au menu Aller au contenu
Une formation ambitieuse
Ecole de référence pour la formation d'ingénieurs en génie industriel
Une formation ambitieuse

> Formation > Cursus ingénieur

Traitement automatique du langage naturel et text-mining - 4GMC14C1

A+Augmenter la taille du texteA-Réduire la taille du texteImprimer le documentEnvoyer cette page par mail cet article Facebook Twitter Linked In
  • Volumes horaires

    • CM : 7.5
    • TD : 7.5
    • TP : -
    • Projet : -
    • Stage : -
    • DS : 1.0
    Crédits ECTS : 1.5

Objectifs

L'UE Traitement Automatique du Langage Naturel et Text Mining vise à découvrir, par la pratique, les fondamentaux (théoriques et logiciels) permettant d'analyser des données textuelles. L'organisation de l'UE repose sur une série de C-TD qui suivent un processus classique de fouille de données textuelles (text mining) : collecte des données textuelles, pré-traitement des données, représentation formelle du texte dans un langage machine, visualisation des données, traitement des données via les techniques d'apprentissage machine (classification, clustering, etc.), évaluation des performances et validation.

Contenu

1. Introduction au NLP (Natural Language Processing) et TM (Text-Mining) (1 C-TD)
2. Pré-traitement (2 C-TD): Parsing, tokenization, case folding, lemmatisation, stemming, POS-tagging, sentence splitting, stop words removal…
3. Représentation de textes (1 C-TD): Vector Space Model, Bag-of-words model, TF, TF-IDF, Word2vec, GLOVE…
4. Sélection des caractéristiques (1 C-TD): X², mutual information, information gain…
5. Classification de texte (2 C-TD): One VS. Multi class, Bias VS. Variance, Kappa test, training set, validation set, testing set, accuracy, validation set, leave-one-out cross-validation, K-fold cross-validation, precision, recall, F-Measure, confusion matrix…

Prérequis

Les étudiants auront suivi et validé les cours : Probabilités et Statistiques; programmation avec R, programmation avec Python

Contrôles des connaissances

Cette pondération est compatible avec une organisation des enseignements et des examens en distanciel

Session 1:
- Examen individuel (100 %)

Session 2:
- Examen individuel (100 %)

Cette pondération est compatible avec une organisation des enseignements et des examens en distanciel

N1 = E1
N2 = E2

Calendrier

Le cours est programmé dans ces filières :

  • Cursus ingénieur - Ingénieur ICL - Semestre 7
  • Cursus ingénieur - Ingénieur IdP - Semestre 7
cf. l'emploi du temps 2022/2023

Informations complémentaires

Code de l'enseignement : 4GMC14C1
Langue(s) d'enseignement : FR

Vous pouvez retrouver ce cours dans la liste de tous les cours.

Bibliographie

Manning, Christopher D., and Hinrich Schutze. 1999. Foundations of Statistical Natural Language Processing. The MIT Press. Cambridge, Mass.: MIT Press.

Benjamin Bengfort, Rebecca Bilbro, and Tony Ojeda. 2018. Applied Text Analysis with Python: Enabling Language-Aware Data Products with Machine Learning (1st. ed.). O'Reilly Media, Inc.

Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze. 2008. Introduction to Information Retrieval. Cambridge University Press, USA.

A+Augmenter la taille du texteA-Réduire la taille du texteImprimer le documentEnvoyer cette page par mail cet article Facebook Twitter Linked In

mise à jour le 14 juin 2021

diplôme d'ingénieur contrôlé par l'Etat

Programme pédagogique 2022-2023

Parcours ingénieur statut étudiant
Tronc commun 1ère année
Présentation
Semestre 5 | Semestre 6
Filière ICL
Présentation
Semestre 7 | Semestre 8 | Semestre 9 | Semestre 10
Filière IDP
Présentation
Semestre 7 | Semestre 8 | Semestre 9 | Semestre 10
Parcours ingénieur statut apprenti
Filière IPID
Présentation
Semestre 5 | Semestre 6 | Semestre 7 | Semestre 8 | Semestre 9 | Semestre 10

Contacts

Equipe académique
Equipe administrative
Université Grenoble Alpes