Bannière Faculté des sciences DIC
 
Description
Titre : SÉMINAIRE: Reconnaissance des entités nommées pour une langue peu dotée de ressources linguistiques
Auteur : Ngoc Tan Le
Nombre : 40/18
Etat : Possibilité de réserver
Début : Jeudi, 06 Décembre, 2018 à 10:30
Lieu : Salle PK-5115, Pavillon Président-Kennedy (PK), 201, avenue du Président-Kennedy, H2X 3Y7
Réservation : 12

Résumé

Les entités nommées (ENs), en particulier les noms de personne (PER), les noms de lieu (LOC) et les noms d'organisation (ORG), jouent un rôle important dans de nombreuses applications de TALN, notamment dans l'extraction d'informations, la recherche d'informations, le résumé automatique de texte et la traduction automatique. La reconnaissance des entités nommées (REN) est une tâche fondamentale du TALN. Depuis 1995, un grand nombre de systèmes de REN ont été développés pour de multiples langues (Palmer et al., 1997). Malgré sa longue histoire, la tâche de REN demeure encore l'une des tâches les plus difficiles à résoudre.

Tout d'abord, nous présentons l'état de l'art et les défis de cette tâche. Ensuite, nous abordons différentes approches proposées, notamment (1) approche statistique, en utilisant des traits linguistiques extraits des données d'apprentissage et (2) approche à base de réseaux de neurones, en utilisant des plongements de mots pré-entrainés.

En fait, ce type de ressources linguistiques (par exemple, textes formels) peuvent être facilement collectées par l'Internet. À partir de données textuelles non étiquetées, le principe consiste à entraîner un modèle de plongements de mots (Mikolov et al., 2013) permettant d'apprendre la représentation vectorielle de mots. Les vecteurs de mots peuvent ensuite être utilisés en tant que traits additionnels dans une architecture à base de réseaux de neurones afin d’améliorer les performances de cette architecture.

Dans ce travail de recherche, nous présentons une méthode originale supervisée pour cette tâche de reconnaissance des entités nommées, en combinant une petite quantité de ressources linguistiques annotées avec des plongements de mots pré-entraînés. Par la suite, nous allons comparer notre modèle avec plusieurs techniques de REN de l'état de l'art dans les études de cas d'une langue peu dotée de ressources linguistique, le vietnamien, et les messages de médias sociaux en français et en anglais. Les résultats obtenus, qui sont encourageants, montrent que notre méthode proposée est efficace.

Biographie

Ngoc Tan Le est étudiant au doctorat en informatique cognitive à l’UQÀM depuis 2014. Son domaine de recherche est lié au traitement automatique des langues naturelles (TALN), notamment la reconnaissance des entités nommées bilingues, la translittération des entités nommées bilingues, les relations linguistiques entre les langues français, anglais et vietnamien ainsi que la traduction automatique.