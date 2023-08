Google profite de sa conférence Next ’23 pour présenter ses nouveaux TPU de 5e génération : les v5e. Ils ne misent pas sur la performance brute (ils sont d’ailleurs en dessous des v4), mais sur la rentabilité avec une forte amélioration du rapport performances/prix. On a aussi les TPU v4e et v5 sur Google Kubernetes Engine et Multislice.

C’est quoi un TPU ?

Avant d’entrer dans le vif du sujet, un rappel important sur les TPU (Tensor Processing Unit) de Google. Ce sont « des circuits intégrés spécifiques aux applications (ASIC) conçus par Google pour accélérer les charges de travail de machine learning ». On peut les utiliser via des frameworks tels que TensorFlow, Pytorch et JAX.

Dans chaque TPU, on retrouve un ou plusieurs TensorCore (cela évolue en fonction des générations et des versions), eux-mêmes constitués d'une ou de plusieurs unités matricielles, d'une unité vectorielle et d'une unité scalaire. Plusieurs puces TPU peuvent aussi être interconnectées entre elles pour former un pod, que l’on peut de nouveau assembler. De plus amples détails sont disponibles sur cette page

Les premiers TPU ont été annoncés par Google en 2016, puis nous avons eu les v2 (2017), v3 (2018) et v4 (2021). Cette année, le géant du Net présente le premier représentant de sa 5e génération de Tensor Processing Unit : le v5e. Selon Google, il s’agit du « compromis idéal entre performances et rentabilité ».

Voici les TPU v5e, avec un meilleur ratio perfs/dollar

À défaut de détails techniques, on a droit à quelques promesses dans le communiqué : « par rapport aux TPU v4, les v5e offrent des performances sur l’entrainement des modèles jusqu'à deux fois supérieures par dollar et des performances d'inférence jusqu'à 2,5 fois supérieures par dollar pour les LLM et les modèles d’IA générative ».

On avait droit à un discours bien différent lors du passage de la v3 à la v4 : « Les TPU v4 surpassent les v3 de 2,1 fois en moyenne par puce et améliore le ratio performances/watt de 2,7 fois ». Il était alors question de performances brutes et d’efficacité énergétique. Avec les v5e, Google met en avant la rentabilité. Nous allons voir que la nuance est importante.

TPU v5e du côté technique : un TensorCore, quatre MXU