Bannière Faculté des sciences DIC
 
Description
Titre : PROJET DE THÈSE: Apprentissage machine du langage naturel par association de cooccurrence de stimuli perceptuels
Auteur : Jean-François Quintal
Nombre : 22/17
Etat : Possibilité de réserver
Début : Jeudi, 12 Octobre, 2017 à 10:00
Lieu : Local PK-4610
Pavillon Président-Kennedy (PK)
201, avenue du Président-Kennedy, H2X 3Y7
Réservation : 12

Résumé :

Les systèmes de traitements du langage naturel sont des systèmes permettant l’interaction entre l’humain et la machine en utilisant le langage naturel.  Ces systèmes utilisent plusieurs sous-systèmes pour arriver à décortiquer une phrase et la rendre « intelligible » pour le système. Ces sous-systèmes consistent en général d’un parseur et d’un désambiguïseur souvent utilisé un après l’autre ou plus récemment (et rarement) simultanément. Ces systèmes sont en général incapables d’effectuer une représentation sémantique complète d’un texte ou même d’inférer de façon pratique et consistante de nouvelles connaissances [1].  Un des problèmes majeurs à cet échec d’analyse est la polysémie des mots. En général, les désambiguïseurs utilisent des inventaires de sens tel que WordNet [2], BabelNet [3], ou encore des dictionnaires lisibles par la machine comme les dictionnaires produits par Oxford ou Longman. Le principal problème avec ces inventaires de sens est la nature discrète de chacun des sens d’un mot, ce qui signifie que l’utilisation d’un sens exclu l’utilisation des autres sens et peut forcer le mot d’être sur-défini ou sous-défini.  Aussi, ces inventaires de sens sont en général incomplets, ce qui signifie que certains sens qu’un mot a ne sont pas représentés dans ces inventaires.  Finalement, la plupart de ces inventaires de sens contiennent des définitions écrites en langue naturelle dont aucun mot n’est désambiguïsé ce qui les rends inutilisable pour effectuer de l’inférence.

Comme rapporter par Lieberman [4], plusieurs travaux en psycholinguistique ont démontré que l’analyse des phrases faites par les humains combine l’utilisation de la sémantique, de la syntactique et des probabilités d’utilisation, le tout regroupé dans les informations lexicales de la personne.  Aussi, il rapporte que les informations connues sur un mot sont contenues dans les structures neurologiques se rapportant aux expériences reçues avec ce mot. Ainsi, les informations se rapportant à des outils se retrouvent à la fois dans le cortex visuel (couleur et forme), cortex auditif (bruits produits par l’outil, ainsi que le nom de l’outil), et dans le cortex moteur (l’utilisation de l’outil). Chacun de ces endroits représente les parties du cerveau dont les expériences vécues avec l’outil ont été sollicitées.

Ceci démontre l’immensité voire l’impossibilité de la tâche à tenter de formaliser la sémantique, la syntactique et la probabilité d’utilisation selon le contexte des différents mots surtout si on considère que le nombre de mots qu’une langue comporte est impossible à calculer [5] considérant que la définition même de « mot » est ambigüe. Si l’on considère le mot « creuset » en français qui se traduit par « melting pot » en anglais, est-ce que ce dernier représente un seul mot ou deux mots différents.  Ceci démontre une faille majeure à l’approche traditionnelle qui utilise des inventaires de sens, soit que cette méthode nécessite d’avoir un inventaire de sens exhaustif pour être réalisable.

Le but visé de ce travail sera de développer un système qui permettra l’apprentissage de concepts par association de stimuli perceptuels cooccurrents similairement au processus utilisé chez l’humain. Pour cela :

1.         De nouveaux algorithmes seront développés pour permettre d’effectuer cette association de stimuli.

2.         Des algorithmes seront aussi développés pour permettre l’association de séquences à des concepts (ex. : concepts d’actions, concepts d’ordonnancement, etc.)

Références

1.         Liz Liddy and al., 2007, Natural Language Processing, In The National Institute of Standards and Technology En ligne < http://www.itl.nist.gov/iaui/894.02/minds.html> consulté le 26 novembre 2014

2.         Christiane Fellbaum (1998, ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press.

3.         R. Navigli and S. Ponzetto. . Artificial Intelligence, 193, Elsevier, 2012, pp. 217-250.

4.         Philip Lieberman, 2002, On the Nature and Evolution of the Neural Bases of Human Language, Yearbook of physicalanthropology 45:36 – 62

5.         Académie française, s.d., «Questions de langue», In Académie Française. En ligne. http://academie-francaise.fr/la-langue-francaise/questions-de-langue#56_strong-em-nombre-de-mots-de-la-langue-franaise-em-strong. Consulté le 26 novembre 2014.

Directeur : Roger Nkambou, département d’informatique

Codirecteur : Etienne Harnad,département de psychologie