Microsoft a annoncé mises à jour de l’infrastructure de recherche de Bing intégrant de grands modèles de langage (LLM), de petits modèles de langage (SLM) et de nouvelles techniques d’optimisation.
Cette mise à jour vise à améliorer les performances et à réduire les coûts de livraison des résultats de recherche.
Dans un communiqué, la société déclare :
« Chez Bing, nous repoussons toujours les limites de la technologie de recherche. L’exploitation des grands modèles linguistiques (LLM) et des petits modèles linguistiques (SLM) marque une étape importante dans l’amélioration de nos capacités de recherche. Même si les modèles Transformer nous ont bien servi, la complexité croissante des requêtes de recherche a nécessité des modèles plus puissants.
Gains de performances
L’utilisation de LLM dans les systèmes de recherche peut créer des problèmes de rapidité et de coût.
Pour résoudre ces problèmes, Bing a formé des SLM, qui, selon lui, sont 100 fois plus rapides que les LLM.
L’annonce se lit comme suit :
« Les LLM peuvent être coûteux à gérer et lents. Pour améliorer l’efficacité, nous avons formé des modèles SLM (amélioration du débit d’environ 100 fois par rapport à LLM), qui traitent et comprennent les requêtes de recherche plus précisément.
Bing utilise également NVIDIA TensorRT-LLM pour améliorer le fonctionnement des SLM.
TensorRT-LLM est un outil qui permet de réduire le temps et le coût d’exécution de grands modèles sur les GPU NVIDIA.
Impact sur la « recherche approfondie »
Selon une étude technique rapport de Microsoft, l’intégration de la technologie TensorRT-LLM de Nvidia a amélioré la fonctionnalité « Recherche approfondie » de l’entreprise.
Deep Search exploite les SLM en temps réel pour fournir des résultats Web pertinents.
Avant l’optimisation, le modèle de transformateur d’origine de Bing avait une latence du 95e centile de 4,76 secondes par lot (20 requêtes) et un débit de 4,2 requêtes par seconde et par instance.
Avec TensorRT-LLM, la latence a été réduite à 3,03 secondes par lot et le débit augmenté à 6,6 requêtes par seconde et par instance.
Cela représente un 36% réduction de la latence et un 57% diminution des coûts opérationnels.
La société déclare :
«… notre produit est construit sur la base de la fourniture des meilleurs résultats, et nous ne ferons aucun compromis sur la qualité au profit de la vitesse. C’est là que TensorRT-LLM entre en jeu, réduisant le temps d’inférence du modèle et, par conséquent, la latence de l’expérience de bout en bout sans sacrifier la qualité des résultats.
Avantages pour les utilisateurs de Bing
Cette mise à jour apporte plusieurs avantages potentiels aux utilisateurs de Bing :
- Des résultats de recherche plus rapides avec une inférence optimisée et des temps de réponse plus rapides
- Précision améliorée grâce aux capacités améliorées des modèles SLM, fournissant des résultats plus contextualisés
- Rentabilité, permettant à Bing d’investir dans d’autres innovations et améliorations
Pourquoi le passage de Bing aux modèles LLM/SLM est important
Le passage de Bing aux modèles LLM/SLM et à l’optimisation TensorRT pourrait avoir un impact sur l’avenir de la recherche.
À mesure que les utilisateurs posent des questions plus complexes, les moteurs de recherche doivent mieux comprendre et fournir rapidement des résultats pertinents. Bing vise à y parvenir en utilisant des modèles de langage plus petits et des techniques d’optimisation avancées.
Bien que nous devions attendre et voir le plein impact, la décision de Bing ouvre la voie à un nouveau chapitre dans la recherche.