”Der Artikel beschreibt die neuesten Verbesserungen in Amazon SageMaker AI im Bereich der Inferenzoptimierung für generative KI-Modelle. Insbesondere wird die Einführung von EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) hervorgehoben, das eine adaptive spekulative Dekodierung ermöglicht, um die Geschwindigkeit und Effizienz der Inferenz zu erhöhen, ohne die Ausgabequalität zu beeinträchtigen.\n\nEAGLE verbessert die Dekodierung von großen Sprachmodellen, indem es zukünftige Tokens direkt aus den versteckten Schichten des Modells vorhersagt. Diese Technik lässt sich an die spezifischen Anwendungsmuster anpassen, was zu einer schnelleren Inferenz führt, die die tatsächlichen Arbeitslasten besser widerspiegelt. Nutzer können ihre eigenen Datensätze zur Feinabstimmung des Modells verwenden, was eine iterative Leistungssteigerung ermöglicht.\n\nSageMaker AI unterstützt nun die spekulative Dekodierung mit EAGLE 2 und EAGLE 3, wobei jede Modellarchitektur die am besten geeignete Technik anwenden kann. Nutzer können bestehende Modelle importieren oder mit einer Curated Dataset-Option von SageMaker trainieren. Die beschriebenen Methoden versprechen erheblich höhere Durchsatzraten (ca. 2,5-fache Steigerung) und schnellere Antwortzeiten.\n\nDie Optimierung erfolgt über bestehende Schnittstellen und automatisierte Benchmark-Tools, die Einblicke in Latenz und Durchsatz sowie die Verwendung gängiger Trainingsdatenformate bieten. Der Preis für diese Optimierungsjobs basiert auf den verwendeten Trainingsinstanzen und der Jobdauer. \n\nZusammenfassend bietet die Einführung von EAGLE in Amazon SageMaker AI Unternehmen eine effizientere und anpassungsfähigere Möglichkeit, die Leistung generativer KI-Modelle zu optimieren.