Séminaire du DIC

Séminaire DIC-ISC-CRIA - 31 octobre 2024 par Tommaso TOSATO

Tommaso TOSATO - 31 octobre 2024 à 10h30 au local PK-5115

TITRE : Algorithmic Gap Between LMs and the Brain

RÉSUMÉ :

Les récents progrès des grands modèles linguistiques (LLM) ont amélioré leurs performances, mais ils diffèrent de la cognition humaine. Les comparaisons actuelles se concentrent souvent sur le comportement d’entrée-sortie ou les représentations intermédiaires, sans examiner les processus internes. Des concepts inspirés des neurosciences, comme la connectivité clairsemée et l’apprentissage incarné, pourraient rendre les LLM plus biologiquement plausibles. Les évaluations psychométriques montrent une grande variabilité des réponses, remettant en question la stabilité de la « personnalité » des LLM. Nous analyserons aussi comment la taille du modèle influence cette variabilité et la stabilité des traits de personnalité.

                        Abstract: Large language models (LLMs) produce impressive performance on linguistic tasks but diverges from human cognition in how they do it. Comparisons of LLMs and the brain often focus only on input-output behavior or intermediate representations. Beyond surface-level behavior are the internal processes driving transformations between these representations. Neuroscience-inspired features like sparse connectivity, modularity, internal states, and embodied and interactive learning lead to biologically more plausible language models. Human psychometric assessment of LLMs reveals substantial variability in LLM responses because of question order shuffling or paraphrasing. This challenges the notion of a stable LLM "personality". Personality trait scores are influenced by different persona prompts. We will describe the relationship between model size and personality trait stability.

BIOGRAPHIE :

Tommaso TOSATO est chercheur postdoctoral à l’Université de Montréal, au sein du Laboratoire de psychiatrie de précision et de physiologie sociale. Ses recherches portent sur l’intersection des neurosciences, de l’intelligence artificielle et de la modélisation computationnelle. Il a co-rédigé des études sur la relation algorithmique entre les modèles de langage et le fonctionnement cérébral.

RÉFÉRENCES:

Tosato, Tommaso, et al. (2024) "Lost in Translation: The Algorithmic Gap Between LMs and the Brain." arXiv preprint arXiv:2407.04680 (2024).

Séminaire DIC-ISC-CRIA - 24 octobre 2024 par Guy LAPALME

Guy LAPALME - 24 octobre 2024 à 10h30 au local PK-5115

TITRE : Génération bilingue de textes à partir de données

RÉSUMÉ :

Après avoir rappelé ce qu'est la génération de texte, nous présenterons une méthode pour créer un texte en anglais et un autre en français à partir d'une unique source de données.  Les étapes cruciales telles que la sélection des informations pertinentes et l'organisation du texte sont effectuées conjointement, tandis que le choix des termes et la structuration des phrases varient selon la langue. Les deux textes transmettront donc le même message. Cette approche s'appuie sur pyrealb, un réalisateur de phrases bilingue anglais-français. Son utilisation sera illustrée par quelques applications, p.ex. bulletins météo ou descriptions de matches sportifs. Nous terminerons en comparant ces résultats avec ceux obtenus avec un "grand modèle de langue"

BIOGRAPHIE :

Guy LAPALME est professeur à l’Université de Montréal, spécialisé en traitement automatique du langage naturel (TALN). Ses recherches portent sur la génération de texte, la traduction automatique et l’interaction homme-machine dans les technologies linguistiques. Il a contribué au développement de systèmes de TALN et est reconnu pour son travail sur les outils facilitant la communication entre humains et ordinateurs.

RÉFÉRENCES:

Lapalme, G. (2023). Data-to-Text Bilingual GenerationarXiv preprint arXiv:2311.14808.


Lapalme, G. (2020). The jsRealB Text Realizer: Organization and Use Cases--Revised versionarXiv preprint arXiv:2012.15425.

Séminaire DIC-ISC-CRIA – 17 octobre 2024 par Olaf SPORNS

Olaf SPORNS - 17 octobre 2024 à 10h30 au local PK-5115

TITRE: Le Connectome et l'IA [The Connectome and AI]

RÉSUMÉ:

Une nouvelle perspective domine en neurosciences : les cerveaux sont des réseaux complexes, et la structure de leur connectivité (le connectome) est cruciale pour leur fonctionnement. Comprendre l’organisation des graphes cérébraux (réseaux), leur architecture multi-échelle et leurs communautés, ainsi que la topologie temporellement variable de la connectivité fonctionnelle, est devenu un objectif de recherche clé en connectomique et en neurosciences des réseaux. Dans cette présentation, je passerai en revue quelques thèmes actuels et les orientations futures. Ceux-ci incluent la connectomique comparative entre les espèces, les relations structure/fonction révélées par les données de neuroimagerie, l’utilisation croissante de modèles computationnels pour cartographier les flux d’information et les dynamiques de communication, ainsi qu’une nouvelle approche centrée sur les arêtes pour suivre la connectivité fonctionnelle dynamique. Je relierai ces découvertes aux défis auxquels fait face l’IA moderne et j’identifierai certains enjeux clés autour de trois dimensions principals : les réseaux, les dynamiques et l’information.

          Summary: A new perspective has taken hold in neuroscience – brains are complex networks, and the structure of their connectivity (the connectome) is critical for how they function. Understanding the organization of brain graphs (networks), their multiscale architecture and communities, as well as the time-varying topology of functional connectivity have become key research objectives in connectomics and network neuroscience. In this presentation I will review a few current themes and future directions. These include comparative connectomics across species, structure/function relationships as disclosed in neuroimaging data, the growing use of computational models to map information flow and communication dynamics, and a novel edge-centric approach to track dynamic functional connectivity. I will connect to challenges facing modern AI and identify some key issues along three main dimensions: networks, dynamics, and information.

BIOGRAPHIE:

Olaf SPORNS est professeur distingué à l’Université de l’Indiana, connu pour ses travaux en neurosciences, en particulier dans le domaine de la connectomique—l’étude de la connectivité cérébrale. Il a contribué de manière significative à la cartographie du connectome cérébral, en soulignant son rôle dans la cognition et le comportement. Sporns est l’auteur de Networks of the Brain et cofondateur du Human Connectome Project.

           Olaf Sporns: Distinguished Professor at Indiana University, known for his work in neuroscience, particularly in connectomics—the study of brain connectivity. He has contributed significantly to mapping the brain’s connectome, emphasizing its role in cognition and behavior. Sporns authored Networks of the Brain and co-founded the Human Connectome Project.

RÉFÉRENCES:

Sporns, O. (2022). The complex brain: connectivity, dynamics, information. Trends in Cognitive Sciences, 26(12), 1066-1067.

Faskowitz, J., Betzel, R. F., & Sporns, O. (2022). Edges in brain networks: Contributions to models of structure and function. Network Neuroscience, 6(1), 1-28.

Séminaire DIC-ISC-CRIA - 10 octobre 2024 par Gulnara SHAYDULLINA

Gulnara SHAYDULLINA - 10 octobre 2024 à 10h30 au local PK-5115 (Le séminaire sera en anglais)

TITRE :   Plateforme d'apprentissage collaboratif avec les chatbots-étudiants

              [Collaborative learning platform with student-chatbots]

RÉSUMÉ

Malgré les avancées majeures réalisées dans le domaine des chatbots et des assistants virtuels, l’utilisation des chatbots dans l’éducation reste encore peu répandue. Dans mon exposé, basé sur ma thèse, je me pencherai sur le potentiel sous-exploité de la technologie des chatbots dans l’éducation : quels sont les avantages et les limites des chatbots éducatifs ? Quelles approches pédagogiques mettent en valeur leurs capacités et aident à surmonter leurs lacunes ? Quels sont les meilleurs scénarios pour leur intégration dans une plateforme éducative numérique ? Pour répondre à ces questions, je présenterai un prototype de plateforme d’apprentissage participatif avec des chatbots intégrés entre pairs qui a le potentiel de contribuer à un processus éducatif plus réussi.           

                          Summary: Despite major breakthroughs in chatbot and virtual assistant technology, the use of chatbots   in education is still insubstantial. In my talk, based on my thesis, I will delve into chatbot technology’s under-explored potential in education: What are educational chatbots’ advantages and limitations? What pedagogical approaches emphasize their capabilities and help overcome their shortcomings? What are the best scenarios for their integration into a digital educational platform? To explore answers to these questions, I will present a prototype of a crowd-learning platform with integrated peer-chatbots that has a potential to contribute to a more successful educational process.

BIOGRAPHIE

Gulnara SHAYDULLINA vient de soutenir sa thèse de doctorat au Département d’informatique cognitive de l’UQAM. Elle est diplômée de l’Université d’État de Bachkirie (aujourd’hui l’Université des sciences et technologies d’Oufa) avec des diplômes d’études supérieures en traduction, en enseignement de l’anglais langue seconde et en philologie et de l’Université McGill avec un diplôme d’études supérieures en traduction. Elle a obtenu sa maîtrise à l’UdeM, où sa thèse était une étude de cas sur le crowdsourcing en traduction. Ses intérêts actuels comprennent les méthodes d’enseignement innovantes, l’apprentissage collaboratif avec les chatbots et les nouvelles technologies en éducation.           

                          Gulnara SHAYDULLINA has recently defended her PhD thesis at the Department of Cognitive Informatics at UQAM. She graduated from Bashkir State University (nowadays Ufa University of Science and Technology) with Graduate Diplomas in Translation, ESL Teaching, and Philology and from McGill University with a Graduate Diploma in Translation. She obtained her Master’s degree at UdeM, where her thesis was a case study of crowdsourcing in translation. Her current interests include innovative methods of teaching, collaborative learning with chatbots, and new technologies in education.

RÉFÉRENCES

Kuhail, M. A., Alturki, N., Alramlawi, S., & Alhejori, K. (2023). Interacting with educational chatbots: A systematic review. Education and Information Technologies, 28(1), 973-1018 

Séminaire DIC-ISC-CRIA - 3 octobre 2024 par Rishabh AGARWAL

Rishabh AGARWAL - 3 octobre 2024 à 10h30 au local PK-5115

Titre : Many-Shot In-Context Learning

RÉSUMÉ :

Les grands modèles de langage (LLMs) excellent en apprentissage in-context (ICL) avec peu d’exemples. Les fenêtres de contexte élargies permettent d’explorer l’ICL avec des centaines ou milliers d’exemples : apprentissage à nombreux exemples. Cela améliore les performances sur des tâches variées. L’ICL à nombreux exemples peut être limité par le nombre d’exemples humains disponibles. Pour y remédier, nous explorons l’ICL renforcé et non supervisé. (1) L’ICL renforcé utilise des raisonnements générés par le modèle. (2) L’ICL non supervisé se base uniquement sur des questions spécifiques au domaine. Ces méthodes sont particulièrement efficaces pour les tâches de raisonnement complexe.

                               Abstract : Large language models (LLMs) excel at few-shot in-context learning (ICL): learning from a few examples provided in context at inference, without any weight updates. Newly expanded context windows allow us to investigate ICL with hundreds or thousands of examples: many-shot learning. Going from few-shot to many-shot yields significant performance gains across a wide variety of generative and discriminative tasks. Many-shot ICL can be bottlenecked by the available number of human-generated examples. To mitigate this, we explore Reinforced and Unsupervised ICL. (1) Reinforced ICL uses model-generated chain-of-thought rationales in place of human examples. (2) Unsupervised ICL removes rationales from the prompt altogether and prompts the model only with domain-specific questions. Both Reinforced and Unsupervised ICL can be quite effective in many-shot regime learning, particularly on complex reasoning tasks. Unlike few-shot learning, many-shot learning is effective at overriding pretraining biases; it can learn high-dimensional functions with numerical inputs, and it performs comparably to fine-tuning. Our analysis also reveals the limitations of next-token prediction loss as an indicator of downstream ICL performance.

BIOGRAPHIE:

Rishabh AGARWAL est chercheur principal chez Google DeepMind à Montréal et professeur adjoint à McGill. Après une année avec Geoffrey Hinton à Google Brain, il a fait son doctorat à Mila sous la direction d’Aaron Courville et Marc Bellemare. Ses recherches portent sur l’apprentissage par renforcement profond, avec des applications aux problèmes réels.

RÉFÉRENCES:

Agarwal, Rishabh, et al. "Many-shot in-context learning.arXiv preprint arXiv:2404.11018 (2024).


Agarwal, Rishabh, et al. (2021): "Deep reinforcement learning at the edge of the statistical precipice." Advances in neural information processing systems 34 29304-29320.

Soutenance de thèse - Francis LAREAU - 27 septembre 2024 - Doctorat en informatique cognitive

SOUTENANCE DE THÈSE   - Vous êtes cordialement invités en présentiel !

VENDREDI  27 septembre 2024

9h30

UQAM, Pavillon President-Kennedy, local PK-2265

TITRE : Lecture et Analyse Argumentaire de Texte Assistées par Ordinateur (LAATAO): Détection automatique d'argument dans les textes de haut niveau théorique.

Présenté par

Francis LAREAU, personne étudiante au doctorat en informatique cognitive, UQAM

Résumé

Ce travail de recherche vise à appliquer les méthodes de lecture et d'analyse de texte assistées par ordinateur (LATAO) à des textes de haut niveau théorique en explorant plus particulièrement les dimensions d'assistance à la fouille d'argument (argument mining). Il vise le développement d'un système informatique dont le but est d'effectuer la tâche de détection automatique d'arguments.  Dans un premier temps, nous présentons les assises théoriques d'un tel système dont, notamment, l'analyse du discours, la lecture et l'analyse de texte assistées par ordinateur, l'argumentation, les modèles computationnels de l'argumentation ainsi que leurs différentes applications.  Dans un deuxième temps, nous présentons le système de fouille d'argument de manière à saisir les différents objets informatiques en jeu ainsi que les étapes opératoires comme la définition du corpus, la préparation du corpus, la détection des arguments et la représentation des résultats.  Dans un troisième temps, nous explorons plus en détail l'étape de détection de composantes argumentatives et des relations à l'intérieur et entre les arguments en explicitant les différentes représentations et les divers outils informatiques permettant une telle détection.  Au terme de cette exploration, une théorie novatrice de l'argumentation est présentée ainsi que diverses hypothèses de recherche à propos de composantes argumentatives importantes telles que les contextes de citation et les thèses principales.  À cet effet,deux expériences sont effectuées afin de tester les hypothèses de recherche.  Les résultats de la première expérience montrent que la détection automatique de l'appartenance des contextes de citation à une structure argumentative particulière est possible.  La combinaison d'une représentation textuelle basée sur ChatGPT sans surentrainement et d'un classifieur de type SVM semble donner de bons résultats, mais l'approche la plus performante apparait être une combinaison de la représentation BERT de base surentrainée sur nos données de la régression logistique avec validation croisée.  Les résultats de la deuxième expérience montrent que la détection automatique de la thèse principale est possible.  L'approche la plus performante pour la détection de la thèse principale apparait être une modèle ensembliste combinant une mesure de similitude entre la section "introduction" et les énoncés de la section "discussion", l'emplacement de la thèse principale dans le texte et la présence (ou non) de certains connecteurs de discours.  Dans la structure du résumé, l'approche fondée sur l'emplacement s'est avérée plus performante.

Mots clés:

Argumentation; fouille d'arguments; texte de haut niveau théorique; analyse de discours; Lecture et Analyse de Texte Assistées par Ordinateur (LATAO); Lecture et Analyse Argumentaire de Texte Assistées par Ordinateur (LAATAO).

Jury d’évaluation : 

Marcello Vitali-Rosati, professeur titulaire au département des littératures de langue française de l'Université de Montréal, (membre externe)

Motasem Alrahabi, Coordonnateur scientifique en Humanités Numériques à l'Université de la Sorbonne (membre externe)

Hakim Lounis, professeur au département d'informatique de l'Université du Québec à Montréal (membre interne et présidente du jury)

Pierre Poirier, Professeur au département de philosophie de l'Université du Québec à Montréal

Roger Villemaire, professeur au département d'informatique de l'Université du Québec à Montréal (codirecteur de recherche)

Séminaire DIC-ISC-CRIA – 19 septembre 2024 par Mounir A. BOUKADOUM

Mounir A. BOUKADOUM - 19 septembre 2024 à 10h30 au PK-5115

TITRE: Le méta-apprentissage en quelques coups (few-shot learning)

RÉSUMÉ:

Grâce aux progrès réalisés dans l’architecture et l’entraînement des réseaux de neurones artificiels, l’intelligence artificielle a fait des bonds spectaculaires dans la résolution de problèmes complexes de classification, de prédiction et, dans une certaine mesure, de prise de décision. Cependant, cette prouesse impose souvent d’importantes contraintes à satisfaire au préalable, dont de grands ensembles d’entraînement des réseaux neuronaux. Cette condition est difficile à remplir dans de nombreux domaines de la science et de l’ingénierie où l’acquisition de données peut être difficile, coûteuse ou soumise à des règles. La présentation aborde les façons de travailler avec des ensembles de données d’entraînement de petite taille et comment le méta-apprentissage, une forme d’apprentissage par transfert où plusieurs petits modèles sont fédérés, peut conduire à des solutions efficaces. Elle présente l’apprentissage en quelques coups, un exemple de méta-apprentissage basé sur la comparaison, avec deux exemples d’application.

BIOGRAPHIE:

Mounir A. BOUKADOUM est professeur titulaire au Département d’informatique de l’Université du Québec à Montréal (UQÀM). Ses recherches se concentrent principalement sur l’ingénierie microélectronique et bio-inspirée, notamment l’intelligence artificielle et la modélisation de réseaux de neurones pour des fonctions d’apprentissage. Il est directeur du laboratoire MicroPro et du ReSMiQ, ainsi que co-fondateur de la conférence IEEE NEWCAS. Mounir Boukadoum a publié largement dans les domaines des systèmes neuronaux et des technologies bio-inspirées.

RÉFÉRENCES:

Souaker, F., & Boukadoum, M. (2024, February). Light Siamese Neural Network Architecture for Image Comparison. In 2024 IEEE 15th Latin America Symposium on Circuits and Systems (LASCAS) (pp. 1-5). IEEE.

S Tam, M Boukadoum, A Campeau-Lecours, B Gosselin (2022,June).Convolutional neural network and few-shot learning for embedded gesture recognition. In 2022 20th IEEE Interregional NEWCAS Conference (NEWCAS), pp. 114-118

Séminaire DIC-ISC-CRIA – 4 avril 2024 par Piek VOSSEN

Piek Vossen - 4 avril 2024

Titre : Referential Grounding

Résumé :

LLMs or “Foundation models” are good at generalizing from observations but are they also good at individuation, reference and remembering? Grounding is often interpreted as an association across modalities. Multimodal models learn through fusion and co-attention from paired signals such as images and textual descriptions. But if the representation of each modality is a generalization what does that tell us about the referential grounding of individual people and objects in specific situations? Explicit extensional individuation of things and situations is a fundamental problem for LLMs because they are continuous and not discrete. In my research, I focus on identity, reference and perspective by analyzing different ways of framing in text that describe the same referentially grounded events and by developing embodied conversational AI models that create an extensional memory by observation and communication within real world environments.

Biographie :

Piek Vossen is Professor of Computational Lexicology at the Vrije Universiteit Amsterdam, where he directs the Computational Linguistics and Text Mining Lab. His research focuses on modeling understanding of language by machines. Within the Hybrid Intelligence program, he currently investigates how human and AI memories can be aligned through communication and their differences can be leveraged for collaborative tasks.

Références :

L. Remijnse, P. Vossen, A. Fokkens, and S. Titarsolej, Introducing frege to fillmore: a framenet dataset that captures both sense and reference, 2022, Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022), pages 39–50

P. Vossen, F. Ilievski, M. Postma, A. Fokkens, G. Minnema, and L. Remijnse, “Large-scale cross-lingual language resources for referencing and framing,” in Proceedings of the 12th language resources and evaluation conference, 2020, p. 3162–3171

S. B. Santamaría, T. Baier, T. Kim, L. Krause, J. Kruijt, and P. Vossen, “EMISSOR: A platform for capturing multimodal interactions as episodic memories and interpretations with situated scenario-based ontological references,” Proceedings of the first workshop beyond language: multimodal semantic representations, in conjunction with iwcs2022, 2021.

P. Vossen, L. Bajčetić, S. Báez Santamaria, S. Basić, and B. Kraaijeveld, “Modelling context awareness for a situated semantic agent,” in Proceedings of 11th international and interdisciplinary conference on modeling and using context, context 2019, 2019

Séminaire DIC-ISC-CRIA – 28 mars 2024 par Matt FREDRIKSON

Matt Fredrikson - 28 mars 2024

Titre : Transferable Attacks on Aligned Language Models

Résumé :

Large language models (LLMs) undergo extensive fine-tuning to avoid producing content that contradicts the intent of their developers. Several studies have demonstrated so-called "jailbreaks", or special queries that can still induce unintended responses, these require a significant amount of manual effort to design and are often easy to patch. In this talk, I will present recent research that looks to generate these queries automatically. By a combination of gradient-based and discrete optimization, we show that it is possible to generate an unlimited number of these attack queries for open-source LLMs. Surprisingly, the results of these attacks often transfer directly to closed-source, proprietary models that are only made available through APIs (e.g. ChatGPT, Bard, Claude)--despite substantial differences in model size, architecture, and training. These findings raise serious concerns about the safety of using LLMs in many settings, especially as they become more widely used in autonomous applications.

Biographie :

Matt Fredrikson’s research aims to enable systems that make secure, fair, and reliable use of machine learning. His group group focuses on finding ways to understand the unique risks and vulnerabilities that arise from learned components, and on developing methods to mitigate them, often with provable guarantees.

Références:

Zou, A., Wang, Z., Kolter, J. Z., & Fredrikson, M. (2023). Universal and transferable adversarial attacks on aligned language models. arXiv preprint arXiv:2307.15043.

Papernot, N., McDaniel, P., Jha, S., Fredrikson, M., Celik, Z. B., & Swami, A. (2016, March). The limitations of deep learning in adversarial settings. In 2016 IEEE European symposium on security and privacy (EuroS&P) (pp. 372-387). IEEE.

Séminaire DIC-ISC-CRIA – 21 mars 2024 par Pierre-Yves OUDEYER

Pierre-Yves OUDEYER – 21 mars 2024

TITRE: Autotelic Agents that Use and Ground Large Language Models

RÉSUMÉ:

Developmental AI aims to design and study artificial agents that are capable of open-ended learning. I will discuss two fundamental ingredients: (1) curiosity-driven exploration mechanisms, especially mechanisms enabling agents to invent and sample their own goals (such agents are called ‘autotelic’; (2) language and culture enabling enabling agents to learn from others’ discoveries, through the internalization of cognitive tools. I will discuss the main challenges in designing autotelic agents (e.g., how can they be creative in choosing their own goals?) and how some of them require language and culture to be addressed. I will also discuss using LLMs as proxies for human culture in autotelic agents, and how autotelic agents can leverage LLMs to learn faster, but also to align and ground them on the dynamics of the environment they interact with. I will also address some of the current main limitations of LLMs.

BIOGRAPHIE:

Pierre-Yves OUDEYER and his team at INRIA Bordeaux study open lifelong learning and the self-organization of behavioral, cognitive and language structures, at the frontiers of AI and cognitive science. In the field of developmental AI, we use machines as tools to better understand how children learn, and to study how machines could learn autonomously as children do and could integrate into human cultures. We study models of curiosity-driven autotelic learning, enabling humans and machines to set their own goals and self-organize their learning program. We also work on applications in education and assisted scientific discovery, using AI techniques to serve humans, and encourage learning, curiosity, exploration and creativity.

T Karch, C Moulin-Frier, PY Oudeyer (2022) Language and Culture Internalisation for Human-Like Autotelic AI Nature Machine Intelligence 4 (12), 1068-1076 https://arxiv.org/abs/2206.01134

Carta, T., Romac, C., Wolf, T., Lamprier, S., Sigaud, O., & Oudeyer, P. Y. (2023). Grounding large language models in interactive environments with online reinforcement learning. ICML https://arxiv.org/abs/2302.02662

Colas, C., Teodorescu, L., Oudeyer, P. Y., Yuan, X., & Côté, M. A. (2023). Augmenting Autotelic Agents with Large Language Models. arXiv preprint arXiv:2305.12487. https://arxiv.org/abs/2305.12487

Suivez-nous