Moderne KI-Anwendungen erfordern schnelle und kosteneffiziente Reaktionen von gro\u00dfen Sprachmodellen (LLMs), insbesondere bei langen Dokumenten oder mehrteiligen Konversationen. Mit zunehmender Kontextl\u00e4nge kann die LLM-Inferenz jedoch langsam und teuer werden, mit exponentiell steigender Latenz und wachsenden Kosten.

\n\n

Die Inferenz erfordert eine Neuberechnung der Aufmerksamkeitsmechanismen f\u00fcr vorherige Token, was zu hohem Rechenaufwand und Latenz f\u00fcr lange Sequenzen f\u00fchrt. Key-Value (KV)-Caching adressiert dieses Problem, indem es Schl\u00fcssel-Wert-Vektoren aus vorherigen Berechnungen speichert und wiederverwendet. Intelligente Routingeinstellungen optimieren den Prozess, indem sie Anfragen mit gemeinsamen Eingabeaufforderungen an dasselbe Inferenz-Exemplar senden, wodurch die Effizienz des KV-Caches maximiert wird.

\n\n

Wir freuen uns, die neue Unterst\u00fctzung f\u00fcr Managed Tiered KV Cache und intelligente Routing-Funktionen im Amazon SageMaker HyperPod anzuk\u00fcndigen. Diese Funktionen verbessern die Leistung erheblich, verringern die Zeit bis zur ersten Antwort um bis zu 40 % und senken die Computerkosten um bis zu 25 % bei l\u00e4ngeren Kontextabfragen und mehrteiligen Dialogen.

\n\n

Die effiziente Kombination von KV-Caching und Routing maximiert die Cache-Hits und sorgt f\u00fcr h\u00f6here Durchsatzraten und niedrigere Kosten bei Modellbereitstellungen. Diese Funktionen sind besonders vorteilhaft f\u00fcr Anwendungen, die lange Dokumente verarbeiten oder in mehrteiligen Gespr\u00e4chen den Kontext aufrechterhalten m\u00fcssen, wie etwa in der Rechtsberatung oder im Kundenservice.

\n\n

Optimierung der LLM-Inferenz

\n

    \n

  • Managed Tiered KV Cache: Automatische Verwaltung der Aufmerksamkeitszust\u00e4nde \u00fcber CPU-Speicher und verteilte tiered Speicherung.
  • \n

  • Intelligentes Routing: Konfigurierbare Anfragesteuerung zur Maximierung der Cache-Hits.
  • \n

  • Beobachtbarkeit: Integration f\u00fcr Metriken und Protokolle in Amazon Managed Grafana.
  • \n

\n\n

Beispielablauf f\u00fcr Inferenzanfragen

\n

Bei einer Inferenzanfrage wird die Anfrage an den Load Balancer weitergeleitet, der sie an den intelligenten Router innerhalb des HyperPod-Clusters verteilt, um die beste Leistung sicherzustellen.

\n\n

Bereitstellung der L\u00f6sung

\n

Um die Funktionen zu aktivieren, erstellen Sie ein HyperPod-Cluster. N\u00e4heres finden Sie in der AWS-GitHub-Repository.

\n\n

Die Managed Tiered KV Cache und intelligentes Routing erm\u00f6glichen es Ihnen, die Leistung und die Kosten der LLM-Inferenz durch effizientes Speichermanagement und intelligentes Routing zu optimieren. Weitere Informationen finden Sie in der Amazon SageMaker HyperPod-Dokumentation.

\n\n

F\u00fcr mehr Details besuchen Sie bitte den Blog: Link.