”Der Blogbeitrag stellt die neuen Funktionen zur Modellauswertung in Amazon Nova und Amazon SageMaker AI vor. Zu den Neuerungen gehören die Unterstützung benutzerdefinierter Metriken, LLM-gestütztes Präferenz-Testing, die Erfassung von Log-Wahrscheinlichkeiten, die Analyse von Metadaten und die Skalierung über mehrere Knoten für umfangreiche Auswertungen.\n\n**Die neuen Features umfassen:**\n- **Benutzerdefinierte Metriken (BYOM)**: Anpassung der Bewertungsstandards durch Integration eigener Metriken.\n- **LLM-as-a-Judge**: Automatisierte Bewertung von Modellen durch Vergleich von Antworten und Ermittlung von Vorlieben mit Erklärungen für die getroffenen Entscheidungen.\n- **Token-Level Log-Wahrscheinlichkeiten**: Analyse des Vertrauensniveaus des Modells, nützlich für Entscheidungen über Kalibrierung und Routen.\n- **Metadaten-Passthrough**: Beibehaltung von pro-Zeilen-Daten für eine differenzierte Analyse ohne zusätzliche Verarbeitung.\n- **Multi-Knoten-Ausführung**: Verteilung von Arbeitslasten über mehrere Knoten bei gleichzeitiger Stabilität der Aggregation.\n\nTeams können Modellbewertungen über JSONL-Dateien in Amazon S3 definieren und sie als SageMaker-Trainingsjobs ausführen. Ergebnisse werden als strukturierte JSONL-Dateien bereitgestellt, die sich gut in Analysewerkzeuge integrieren lassen.\n\n**Anwendungsbeispiel**: Eine Fallstudie zur Klassifizierung von IT-Support-Tickets zeigt die Anwendung dieser Funktionen. Die Studie umfasst die Erstellung von Datensätzen mit strukturierten Metadaten, die Implementierung benutzerdefinierter Metriken und die Durchführung von Multi-Knoten-Bewertungen zur Verbesserung der Effizienz.\n\nZusammenfassend bietet der Beitrag einen detaillierten Überblick über die neuen Funktionen, eine Schritt-für-Schritt-Anleitung zur Umsetzung und die Möglichkeiten, wie diese in realen Anwendungen angewendet werden können, um bessere Ergebnisse und tiefere Einblicke in die Modellleistung zu erzielen.