Waterwave pourrait étancher la soif de mémoire GPU des IA
Waterwave pourrait étancher la soif de mémoire GPU des IA

L’approche divise le processus de formation à l’IA en « sous-modèles » gérables
L’une des (nombreuses) façons dont l’IA fait des vagues réside dans sa capacité à analyser d’immenses ensembles de données . Mais la formation de ces programmes d’IA devient de plus en plus intensive en termes de calcul , ce qui souligne la nécessité de trouver des moyens plus efficaces de traiter les données.
Dans une étude publiée le 22 mai dans IEEE Transactions on Computers , les chercheurs décrivent une nouvelle approche, appelée Waterwave, pour augmenter l’efficacité de la formation simultanée et efficace de plusieurs modèles d’IA sur le même GPU. Leurs résultats montrent que, dans les scénarios à forte demande de mémoire, Waterwave est 12 fois plus rapide que le partage spatial existant sur un GPU et 1,49 fois plus rapide que le partage de mémoire temporelle existant.
Lorsqu’un modèle d’IA nécessite initialement une formation, certains calculs et méthodes sont utilisés pour trouver les modèles optimaux ou sous-optimaux pour l’analyse des données. De cette façon, les « bons » ou « mauvais » modèles d’analyse sont identifiés le plus tôt possible pour accélérer considérablement le processus global de formation.
Cependant, la plupart des méthodes actuelles de formation de modèles d’IA à l’aide de GPU doivent malheureusement évaluer les modèles un par un, plutôt que simultanément, en raison de contraintes de mémoire. En conséquence, chaque tâche d’apprentissage doit être mise en file d’attente l’une après l’autre, avec la possibilité que le modèle souhaité se trouve en queue de file d’attente.
« Dans le pire des cas, toutes les tâches de formation doivent être terminées une par une, ce qui prend beaucoup de temps », explique Xuan Peng , doctorant à l’école d’informatique et de technologie de l’Université des sciences et technologies de Huazhong .
Une approche de type diviser pour mieux régner
L’équipe de Xuan Peng a conçu Waterwave de manière à diviser les modèles en «sous-modèles» plus gérables et de taille uniforme. Plusieurs sous-modèles de différents modèles peuvent être traités simultanément sur le même GPU, et dès que le GPU a fini de calculer un sous-modèle, l’espace mémoire est libéré pour le sous-modèle suivant dans la file d’attente.
« En atteignant des tailles de mémoire similaires, cela augmente la probabilité que la mémoire libérée du sous-modèle précédent soit suffisante pour le sous-modèle suivant qui nécessite une allocation de mémoire. Cette approche permet à la mémoire libérée par un modèle d’être utilisée efficacement par un autre modèle », souligne Xuan Peng.
Peng et ses collègues ont testé Waterwave en utilisant plusieurs réseaux de neurones populaires utilisés pour les applications de vision par ordinateur et de traitement du langage naturel, et l’ont comparé à une autre approche de flux de mémoire développée par NVIDIA , appelée Multi-Process Service (MPS), qui évalue également simultanément plusieurs modèles sur un GPU. .
Les résultats montrent que, dans l’ensemble, Waterwave fait preuve d’une excellente efficacité de partage de mémoire lorsqu’il gère plusieurs tâches de formation, en utilisant 76,4 % à 96,8 % de la mémoire GPU pour chaque tâche.
En comparant Waterwave et MPS, les chercheurs ont constaté que MPS surpasse Waterwave par une petite marge lorsque la mémoire GPU n’a pas sursouscrit les tâches informatiques. Cependant, MPS subit une dégradation significative des performances (supérieure à 90%) lorsque la mémoire GPU est sursouscrite, et ce niveau de dégradation n’a pas été observé dans la même mesure avec Waterwave.
Cependant, Peng note plusieurs limitations avec Waterwave. Notamment, si une tâche informatique échoue, cela entraîne l’échec simultané des autres tâches informatiques. De plus, pour les modèles à forte demande de calcul GPU, l’amélioration des performances obtenue en exécutant des tâches en parallèle est marginale.
« Par conséquent, notre prochain objectif de recherche se concentre sur l’optimisation du parallélisme des modèles de pipeline pour atteindre un débit de formation plus élevé », conclut Xuan Peng.