La hausse fulgurante des dépenses liées à l'intelligence artificielle pousse de nombreuses entreprises à explorer des modèles moins onéreux. Selon Kevin Simback, un spécialiste de l'incubateur Delphi Labs, l'époque de 'l'intelligence subventionnée' est révolue, marquée par l'essor de ChatGPT et la vague d'IA générative.
Les acteurs majeurs du secteur, notamment OpenAI, avaient inauguré cette tendance avec des tarifs particulièrement attractifs, créant même des pertes dans leur activité. « Mais la situation change », alerte Simback.
Les géants de l'IA ajustent leurs prix pour qu'ils reflètent plus fidèlement l'utilisation des ressources informatiques essentielles à l'exploitation de leurs modèles. L'émergence des agents d'IA, capables d'exécuter des tâches complexes plutôt que de simples requêtes, a également entraîné une demande accrue pour des infrastructures informatiques performantes.
Pour accomplir une tâche, plusieurs agents peuvent intervenir, chacun jouant un rôle spécifique, ce qui augmente exponentiellement le volume de 'tokens' – unité mesure de la production d'IA – par rapport à une simple interaction avec ChatGPT.
Dans un contexte où l'offre peine à répondre à la demande croissante, les coûts d'accès aux infrastructures informatiques s'intensifient. Mark Barton, de la société numérisée Omniux, souligne que les coûts d'utilisation de l'IA pour la programmation ont explosé, impactant directement les développeurs.
Cette inflation des coûts incite certaines grandes entreprises, telles que Target, Starbucks et Uber, à reconsidérer leur recours à l'IA. « Dans certains cas, les coûts peuvent dépasser ceux d'un employé après quelques mois d'utilisation », note Jack Gold, président de J.Gold Associates.
Le besoin de prudence se fait sentir. Meta, autrefois fervente partidiaire de l'usage intensif de tokens, a revu sa position. Andrew Bosworth, responsable technologique de l'entreprise, a récemment exhorté les équipes à éviter de recourir à des outils d'IA sans un objectif clair, comme rapporté par le Wall Street Journal.
Pour rester compétitives, les entreprises cherchent à s'orienter vers des alternatives moins coûteuses, notamment les modèles 'open weights', gratuits et ne nécessitant que l’achat de ressources de calcul. Par ailleurs, les 'small language models' (SLM) gagnent en popularité, se révélant plus économiques que les grands modèles linguistiques comme ChatGPT, Claude et Gemini.
Ces SLM peuvent être exécutés sur des serveurs internes ou même directement sur des ordinateurs personnels, permettant de réaliser des économies substantielles en évitant les frais de cloud. Adrian Balfour, consultant chez Enverso, explique que segmenter une demande unique en plusieurs étapes permettra de l'optimiser et de minimiser les coûts.
« Utiliser un grand modèle peut coûter environ 15 dollars pour un million de tokens, tandis qu’avec des mini-modèles, ce coût pourrait chuter à 5 cents », prévient-il.
Cette reconfiguration du secteur pourrait marquer le début d'une normalisation des modèles, appelés à devenir interchangeables sans perte de performance. Les plateformes dédiées à la sélection de ces modèles prennent donc de l'importance. John Belton, d'une société d'investissement, souligne la concurrence croissante entre startups et géants du cloud, comme Amazon avec sa plateforme Bedrock.
Des entreprises telles qu'Anthropic et OpenAI développent également des options économiques pour attirer des clients soucieux de leur budget. Cependant, Belton anticipe que les clients expérimentés seront toujours prêts à investir dans les meilleures solutions, avec un marché en pleine croissance.







