in

La nouvelle approche d'AWS en matière d'évaluation RAG pourrait aider les entreprises à réduire leurs dépenses en IA

La nouvelle théorie d'AWS sur la conception d'un mécanisme d'évaluation RAG automatisé pourrait non seulement faciliter le développement d'applications génératives basées sur l'IA, mais également aider les entreprises à réduire leurs dépenses en infrastructure de calcul.

La génération augmentée de récupération (RAG) est l'une des nombreuses techniques utilisées pour traiter les hallucinations, qui sont des réponses arbitraires ou absurdes générées par de grands modèles linguistiques (LLM) lorsqu'ils deviennent plus complexes.

RAG fonde le LLM en alimentant les faits du modèle à partir d'une source de connaissances ou d'un référentiel externe pour améliorer la réponse à une requête particulière.

Il existe d'autres moyens de gérer les hallucinations, comme le réglage fin et l'ingénierie rapide, mais l'analyste principal de Forrester, Charlie Dai, a souligné que RAG est devenu une approche essentielle pour les entreprises pour réduire les hallucinations dans les LLM et générer des résultats commerciaux à partir de l'IA générative.

Cependant, Dai a souligné que les pipelines RAG nécessitent une gamme de blocs de construction et de pratiques d'ingénierie substantielles, et les entreprises recherchent de plus en plus des approches d'évaluation robustes et automatisées pour accélérer leurs initiatives RAG, c'est pourquoi le nouveau document AWS pourrait intéresser les entreprises.

L'approche définie par les chercheurs d'AWS dans le document pourrait aider les entreprises à créer des solutions plus performantes et plus rentables autour de RAG qui ne reposent pas sur des efforts de réglage fin coûteux, des flux de travail RAG inefficaces et un apprentissage en contexte excessif (c'est-à-dire en maximisant les grandes fenêtres de contexte), a déclaré Bradley Shimmin, analyste en chef d'Omdia.

Quel est le mécanisme d’évaluation RAG automatisé d’AWS ?

L'article intitulé « Évaluation automatisée des modèles de langage augmentés par récupération avec génération d'examens spécifiques aux tâches », qui sera présenté lors de la conférence ICML 2024 en juillet, propose un processus automatisé de génération d'examens, amélioré par la théorie de la réponse aux items (IRT), pour évaluer l'exactitude factuelle des modèles RAG sur des tâches spécifiques.

La théorie de la réponse aux items, également connue sous le nom de théorie de la réponse latente, est généralement utilisée en psychométrie pour déterminer la relation entre les caractéristiques non observables et les caractéristiques observables, telles que la production ou les réponses, à l'aide d'une famille de modèles mathématiques.

L'évaluation du RAG, selon les chercheurs d'AWS, est réalisée en le notant sur un examen synthétique généré automatiquement composé de questions à choix multiples basées sur le corpus de documents associés à une tâche particulière.

« Nous utilisons la théorie de la réponse aux items pour estimer la qualité d'un examen et son contenu informatif sur la précision de la tâche spécifique. L'IRT fournit également un moyen naturel d'améliorer l'examen de manière itérative en éliminant les questions d'examen qui ne sont pas suffisamment informatives sur la capacité d'un modèle », ont déclaré les chercheurs.

Le nouveau processus d'évaluation de RAG a été testé sur quatre nouvelles tâches de questions-réponses ouvertes basées sur des résumés Arxiv, des questions StackExchange, des guides de dépannage AWS DevOps et des dépôts SEC, ont-ils expliqué, ajoutant que les expériences ont révélé des informations plus générales sur les facteurs ayant un impact sur les performances de RAG tels que la taille, le mécanisme de récupération, l'invite et le réglage fin.

Une approche prometteuse

L'approche évoquée dans le document AWS présente plusieurs points prometteurs, notamment la capacité à relever le défi des pipelines spécialisés nécessitant des tests spécialisés, selon Joe Regensburger, expert en IA de la société de sécurité des données Immuta.

« C’est un point essentiel, car la plupart des pipelines s’appuieront sur des modèles LLM commerciaux ou open source prêts à l’emploi. Ces modèles n’auront pas été formés sur des connaissances spécifiques au domaine, de sorte que les ensembles de tests conventionnels ne seront pas utiles », a expliqué Regensburger.

Cependant, Regensburger a souligné que même si l'approche est prometteuse, elle devra encore évoluer au niveau de la génération d'examens, car le plus grand défi n'est pas de générer une question ou la réponse appropriée, mais plutôt de générer des questions de distraction suffisamment stimulantes.

« Les processus automatisés ont en général du mal à rivaliser avec les questions générées par les humains, notamment en ce qui concerne les questions de distraction. C'est donc le processus de génération de distractions qui pourrait bénéficier d'une discussion plus détaillée », a déclaré Regensburger, en comparant les questions générées automatiquement avec les questions générées par les humains posées dans les examens AP (Advanced Placement).

Selon Regensburger, les questions des examens AP sont définies par des experts du domaine qui continuent à définir, à réviser et à répéter les questions tout en préparant l'examen.

Il est important de noter que des tests basés sur des examens pour les LLM existent déjà. « Une partie de la documentation de ChatGPT mesure les performances du modèle par rapport à une batterie de tests standardisés », a déclaré Regensburger, ajoutant que le document AWS étend le principe d'OpenAI en suggérant qu'un examen pourrait être généré à partir de bases de connaissances spécialisées, souvent privées.

« En théorie, cela permettra d’évaluer comment un pipeline RAG pourrait se généraliser à des connaissances nouvelles et spécialisées. »

Dans le même temps, Shimmin d'Omdia a souligné que plusieurs fournisseurs, dont AWS, Microsoft, IBM et Salesforce, proposent déjà des outils ou des cadres axés sur l'optimisation et l'amélioration des implémentations RAG, allant des outils d'automatisation de base comme LlamaIndex aux outils avancés comme le nouveau GraphRAG de Microsoft.

RAG optimisé contre modèles de langage très volumineux

Choisir les bons algorithmes de récupération conduit souvent à des gains de performances plus importants que la simple utilisation d'un LLM plus grand, cette dernière approche pouvant être coûteuse, ont souligné les chercheurs d'AWS dans l'article.

Bien que les avancées récentes telles que la « mise en cache contextuelle » avec Google Gemini Flash permettent aux entreprises d'éviter facilement la nécessité de créer des processus complexes et pointilleux de tokenisation, de découpage et de récupération dans le cadre du pipeline RAG, cette approche peut entraîner un coût élevé en termes d'inférence des ressources de calcul pour éviter la latence, a déclaré Shimmin d'Omdia.

« Des techniques comme Item Response Theory d'AWS promettent d'aider à résoudre l'un des aspects les plus délicats du RAG, à savoir mesurer l'efficacité des informations récupérées avant de les envoyer au modèle », a déclaré Shimmin, ajoutant qu'avec de telles optimisations prêtes, les entreprises peuvent mieux optimiser leurs frais généraux d'inférence en envoyant les meilleures informations à un modèle plutôt que de tout envoyer au modèle en même temps.

D'autre part, la taille du modèle n'est qu'un des facteurs influençant la performance des modèles de fondation, a déclaré Dai de Forrester.

« Les entreprises doivent adopter une approche systématique pour l'évaluation des modèles de base, couvrant les capacités techniques (modalité du modèle, performances du modèle, alignement du modèle et adaptation du modèle), les capacités commerciales (support open source, rentabilité et disponibilité locale) et les capacités de l'écosystème (ingénierie rapide, support RAG, support des agents, plugins et API, et ModelOps) », a expliqué Dai.

Droits d'auteur © 2024 IDG Communications, Inc.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

GIPHY App Key not set. Please check settings

    Miss Cameroon 2024 : Première sortie médiatique validée

    Parfait pour l’été, ce parfum Versace à la senteur florale et fruitée est en promotion chez Sephora