[thèse] Populations neuronales et apprentissage guidé sur circuit neuromorphique

Encadrement

équipe BISCUIT, Loria
Encadrement : Bernard Girau (HDR)
Bernard.Girau@loria.fr

Mots clés

Réseaux de neurones, champs neuronaux, puces neuromorphiques, apprentissage par renforcement

Description

Contexte scientifique

L’équipe BISCUIT étudie des paradigmes de calcul adaptatifs, distribués et décentralisés, réalisés par des populations d’unités de calcul simples communiquant principalement avec leurs plus proches voisins. Ces propriétés sont compatibles avec la mise en œuvre de principes d’auto-organisation non supervisés – mais pas non guidés – pour résoudre des problèmes difficiles tels que le calcul cognitif situé, la robotique autonome, l’allocation adaptative de ressources de calcul, etc.

Parmi les différentes alternatives aux architectures standard de Von Neumann, les approches neuromorphiques bénéficient actuellement des récents succès applicatifs des méthodes d’apprentissage profond et de l’implication de grandes sociétés de semi-conducteurs à travers d’impressionnantes puces neuromorphiques telles que l’IBM TrueNorth ou le prototype de puce d’Intel appelé Loihi [7] (https://www.intel.com/content/www/us/en/research/neuromorphic-computing.html).

Le sujet proposé ici est lié à la définition et à la simulation matérielle de populations de neurones impulsionnels avec des connexions synaptiques hétérogènes et adaptatives sur une puce neuromorphique. Nos modèles privilégiés de populations neuronales sont le modèle DNF (Dynamic neural fields) de l’interaction continue entre neurones excitateurs et inhibiteurs dans une population corticale, et le modèle SOM de l’auto-organisation au sein des colonnes corticales. Les DNF ont été appliqués avec succès à des tâches de mémoire visuelle, de suivi, de sélection, d’exploration de scènes, de discrimination des mouvements humains, etc. Les SOM ont également été appliqués à une grande variété de problèmes de quantification vectorielle où leurs propriétés topologiques apportent une valeur ajoutée significative, comme la visualisation de données, la compression d’images, la détection de nouveauté, etc. Les exigences de calcul en termes de bande passante et de besoins de colocalisation des resources de calcul et mémoire rendent ces modèles difficiles à mettre en œuvre dans des scénarios réels sur des ordinateurs conventionnels lorsque des contraintes de calcul temps réel ou de faible consommation existent. Il est donc tentant de les implémenter sur du matériel spécialisé. Plusieurs tentatives existent déjà sur des puces neuromorphes, utilisant des DNF classiques avec des noyaux de connexion homogènes et pré-fixés. Nous proposons d’explorer comment l’apprentissage embarqué et les populations neuronales peuvent coexister sur la puce neuromorphique récente Loihi, en utilisant une version de STDP (spike timing dependent plasticity, [9]) modulée par une récompense, tirant ainsi parti du fait que cette puce incorpore des spikes de récompense ainsi que des mécanismes d’apprentissage STDP.

Description détaillée

L’objectif de cette thèse est d’adapter différents modèles de populations neuronales aux puces neuromorphes numériques, et plus particulièrement à l’architecture Loihi, tout en prenant en compte un apprentissage guidé par une récompense dans le calcul des poids de connexion latéraux. Ce travail peut être divisé en deux tâches complémentaires.

1- Définition et analyse de modèles de populations neuronales, y compris DNF et SOM, compatibles avec Loihi. Ces modèles doivent utiliser le type de calcul impulsionnel  implémenté dans les noyaux neuromorphiques du circuit Loihi. Dans le domaine de la vision, nous avons déjà montré que les DNF impulsionnels sont capables de sélectionner et de suivre des centres d’intérêt dans les scènes visuelles, malgré la présence d’un niveau élevé de bruit ou de distracteurs (cf. [1]), et nous en avons dérivé une mise en œuvre sur FPGA couplée à une caméra événementielle DVS dans [2]. Nous avons également défini une version impulsionnelle de SOM qui utilise un codage temporel [5]. En termes de communication des neurones au sein des noyaux neuromorphiques et entre eux, une première approche peut s’appuyer sur le protocole AER. Pour garantir des propriétés de passage à l’échelle, des protocoles de communication plus cellulaires et distribués doivent être explorés. Pour les DNF, nous avons déjà exploré leur combinaison avec les principes du calcul cellulaire, en montrant tout d’abord qu’une propagation aléatoire de spikes permet de simuler le même type de poids synaptique que dans les DNF habituels même lorsque les neurones ne sont connectés qu’à leurs 4 voisins immédiats [3] , puis en mélangeant cette approche de spikes aléatoires avec les principes de l’arithmétique bit-stream pour définir des opérateurs de flux impulsionnels compacts [4]. Pour les SOM, nous avons défini une version cellulaire de leur apprentissage pour s’adapter à une architecture manycore bio-inspirée [6]. La combinaison de ces principes cellulaires avec les communications sur puce neuromorphique peut être étudiée dans la perspective de l’intégration de très grandes populations neuronales.

2- La puce Loihi dispose d’un apprentissage de poids synaptiques basé sur la STDP. Bien que la plupart des applications de DNF utilisent des poids prédéfinis, nous avons développé des modèles DNF multi-cartes qui apprennent leurs poids synaptiques latéraux en fonction de la tâche visuelle à effectuer. Ces modèles n’ont pas encore été adaptés aux calculs impulsionnels, contrairement à notre modèle impulsionnel de SOM qui utilise également une forme d’apprentissage STDP, mais avec des besoins de calcul assez différents des ressources disponibles sur les puces neuromorphes comme le circuit Loihi. La capacité d’apprentissage embarqué de la puce Loihi motive la définition d’algorithmes efficaces pour apprendre les poids synaptiques de DNF et SOM impulsionnels au moyen de la STDP et pour les implanter sur des puces neuromorphiques. De plus, notre approche d’apprentissage non supervisé mais guidé coïncide avec la présence de spikes de récompense spécifiques dans la puce Loihi. Ainsi, nous proposons l’utilisation de mécanismes à la croisée du calcul neuro-inspiré et de l’apprentissage par renforcement (ou RL our reinforcement learning [10]) afin de guider les processus d’auto-organisation dans les DNF et SOM. Les algorithmes RL classiques sont principalement dédiés à des approches discrètes et centralisées peu compatibles avec nos paradigmes de calcul. Pour les rendre compatibles avec les ressources neuromorphiques, nous proposons de moduler la STDP avec de l’apprentissage RL. Plusieurs études ont déjà été menées dans ce sens (voir, par exemple, [8]), mais ces travaux sont encore peu nombreux et limités à des versions de STDP avec récompense mais sans réelle notion de renforcement pour améliorer les récompenses à long terme. Cette partie de la thèse explorera la capacité des modèles STDP modulés par une récompense existants à apprendre nos modèles de populations neuronales, puis proposera des adaptations de ces algorithmes compatibles avec les contraintes imposées par les processeurs neuromorphiques, et enfin adaptera ces algorithmes pour s’appuyer sur des récompenses et des calculs localisés assurant un apprentissage global par renforcement.

Compétences requises

Outre des compétences informatiques avancées de niveau master, nous attendons des bases solides sur les concepts mathématiques associés (en particulier les probabilités et les équations différentielles). Le candidat doit avoir une certaine appétence pour l’intelligence artificielle et le calcul numérique distribué. Une connaissance adéquate de la conception numérique matérielle sera appréciée, ainsi qu’une expérience en conception logicielle. Le candidat doit parler couramment l’anglais et / ou le français.

Bibliographie

[1] R. Vazquez, B. Girau, J.-C. Quinton. Visual attention using spiking neural maps. International Joint Conference on Neural Networks IJCNN 2011, Ali Minai, Hava Siegelmann, Jul 2011, San José, United States.

[2] B. Chappet de Vangel, C. Torres-Huitzil, B. Girau. Event based visual attention with dynamic neural field on FPGA. International Conference on Distributed Smart Camera, Sep 2016, Paris, France.

[3] B. Chappet de Vangel, C. Torres-Huitzil, B. Girau. Randomly spiking dynamic neural fields. Journal of Emerging Technologies in Computing Systems, ACM, 2014.

[4] B. Chappet de Vangel, C. Torres-Huitzil, B. Girau. Stochastic and Asynchronous Spiking Dynamic Neural Fields. International Joint Conference on Neural Networks (IJCNN 2015), Jul 2015, Killarney, Ireland.

[5] A. Fois and B. Girau. A Spiking Neural Architecture for Vector Quantization and Clustering. In: ICONIP 2020, 27th International Conference on Neural Information Processing.

[6] B. Girau and A. Upegui. Cellular Self-Organising Maps – CSOM. In: WSOM’19 – 13th International Workshop on Self-Organizing Maps and Learning Vector Quantization, June 2019.

[7] Davies, M., Srinivasa, N., Lin, T., Chinya, G., Cao, Y., Choday, S. H., Dimou, G., Joshi, P., Imam, N., Jain, S., Liao, Y., Lin, C., Lines, A., Liu, R., Mathaikutty, D., McCoy, S., Paul, A., Tse, J., Venkataramanan, G., Weng, Y., Wild, A., Yang, Y., and Wang, H. (2018). Loihi : A
neuromorphic manycore processor with on-chip learning. IEEE Micro, 38(1) :82–99.

[8] Florian, R. V. (2007). Reinforcement learning through modulation of spike-timing-dependent synaptic plasticity. Neural Computation, 19(6):1468–1502.

[9] Markram, H., Lübke, J., Frotscher, M., and Sakmann, B. (1997). Regulation of synaptic efficacy by coincidence of postsynaptic aps and epsps. Science, 275(5297) :213–215.

[10] Sutton, R. and Barto, A. (1998). Reinforcement Learning. Bradford Book, MIT Press, Cambridge, MA.

Comment candidater

Date limite: 20 mai 2021 (Minuit heure de Paris)
Les candidatures doivent être envoyées dans les plus brefs délais.

Envoyez un fichier avec les pièces suivantes.

  • Votre CV;
  • Une lettre de motivation / de motivation décrivant votre intérêt pour ce sujet;
  • Une brève description (une page maximum) de votre mémoire de Master (ou équivalent) ou du travail en cours s’il n’est pas encore terminé;
  • Vos diplômes et relevés de notes pour la Licence et le Master (ou les 5 dernières années);

De plus, une lettre de recommandation de la personne qui encadre ou a encadré votre mémoire de Master (ou projet de recherche ou stage) est la bienvenue.

Logo d'Inria