Séminaire DIC-ISC-CRIA - 3 octobre 2024 par Rishabh AGARWAL

Rishabh AGARWAL - 3 octobre 2024 à 10h30 au local PK-5115

Titre : Many-Shot In-Context Learning

RÉSUMÉ :

Les grands modèles de langage (LLMs) excellent en apprentissage in-context (ICL) avec peu d’exemples. Les fenêtres de contexte élargies permettent d’explorer l’ICL avec des centaines ou milliers d’exemples : apprentissage à nombreux exemples. Cela améliore les performances sur des tâches variées. L’ICL à nombreux exemples peut être limité par le nombre d’exemples humains disponibles. Pour y remédier, nous explorons l’ICL renforcé et non supervisé. (1) L’ICL renforcé utilise des raisonnements générés par le modèle. (2) L’ICL non supervisé se base uniquement sur des questions spécifiques au domaine. Ces méthodes sont particulièrement efficaces pour les tâches de raisonnement complexe.

                               Abstract : Large language models (LLMs) excel at few-shot in-context learning (ICL): learning from a few examples provided in context at inference, without any weight updates. Newly expanded context windows allow us to investigate ICL with hundreds or thousands of examples: many-shot learning. Going from few-shot to many-shot yields significant performance gains across a wide variety of generative and discriminative tasks. Many-shot ICL can be bottlenecked by the available number of human-generated examples. To mitigate this, we explore Reinforced and Unsupervised ICL. (1) Reinforced ICL uses model-generated chain-of-thought rationales in place of human examples. (2) Unsupervised ICL removes rationales from the prompt altogether and prompts the model only with domain-specific questions. Both Reinforced and Unsupervised ICL can be quite effective in many-shot regime learning, particularly on complex reasoning tasks. Unlike few-shot learning, many-shot learning is effective at overriding pretraining biases; it can learn high-dimensional functions with numerical inputs, and it performs comparably to fine-tuning. Our analysis also reveals the limitations of next-token prediction loss as an indicator of downstream ICL performance.

BIOGRAPHIE:

Rishabh AGARWAL est chercheur principal chez Google DeepMind à Montréal et professeur adjoint à McGill. Après une année avec Geoffrey Hinton à Google Brain, il a fait son doctorat à Mila sous la direction d’Aaron Courville et Marc Bellemare. Ses recherches portent sur l’apprentissage par renforcement profond, avec des applications aux problèmes réels.

RÉFÉRENCES:

Agarwal, Rishabh, et al. "Many-shot in-context learning.arXiv preprint arXiv:2404.11018 (2024).


Agarwal, Rishabh, et al. (2021): "Deep reinforcement learning at the edge of the statistical precipice." Advances in neural information processing systems 34 29304-29320.

Suivez-nous