”Der Blogbeitrag behandelt die neuen Funktionen zur Modellbewertung von Amazon Nova, die in Amazon SageMaker AI eingeführt wurden. Diese Verbesserungen umfassen die Unterstützung benutzerdefinierter Metriken, LLM-gestütztes Präferenz-Testing, die Erfassung von log-Wahrscheinlichkeiten, die Analyse von Metadaten und die Skalierung über mehrere Knoten für umfangreiche Bewertungen.\n\nWesentliche Funktionen sind:\n\n1. **Benutzerdefinierte Metriken (BYOM)**: Benutzer können spezifische Bewertungsmaßstäbe definieren, die auf ihren Anwendungsfall zugeschnitten sind.\n2. **LLM-as-a-Judge**: Diese Funktion führt subjektive Bewertungen durch A/B-Vergleiche durch und gibt Gewichts- und Erfolgsquoten mit Erklärungen für jedes Urteil aus.\n3. **Token-Level Log-Wahrscheinlichkeiten**: Diese geben Aufschluss über das Vertrauen des Modells in seine Vorhersagen und unterstützen die Kalibrierung.\n4. **Metadata Passthrough**: Bewahrt Metadaten pro Zeile für die Analyse ohne zusätzliche Verarbeitungen.\n5. **Multi-Node-Ausführung**: Aufteilung von Arbeitslasten zur effizienten Verarbeitung großer Bewertungsdatensätze.\n\nDer Artikel erläutert, wie Teams Modellbewertungen mit JSONL-Dateien in Amazon S3 definieren und diese als SageMaker-Trainingsjobs ausführen können. Die Ergebnisse werden in strukturiertem JSONL geliefert und können mit Analyse-Tools wie Amazon Athena integriert werden.\n\nDer Beitrag enthält auch eine Fallstudie zur Klassifizierung von IT-Supporttickets, in der die neuen Funktionen demonstriert werden. Die Verwendung von Metadaten zur Verbesserung der Analyse und der log-Wahrscheinlichkeiten zur Fehleranalyse bei Vorhersagen mit geringer Zuverlässigkeit werden hervorgehoben.\n\nInsgesamt zeigt der Beitrag, wie die neuen Funktionen die Entscheidungsfindung bei der Modellauswahl und -optimierung in Produktionsumgebungen verbessern können.