Bleib mit dem News-Stream von uNaice immer auf dem neuesten Stand – erfahre als Erster alles rund um die neuesten Entwicklungen in der Künstlichen Intelligenz!
”Der Blogbeitrag stellt die neuen Funktionen zur Modellauswertung in Amazon Nova und Amazon SageMaker AI vor. Zu den Neuerungen gehören die Unterstützung benutzerdefinierter Metriken, LLM-gestütztes Präferenz-Testing, die Erfassung von Log-Wahrscheinlichkeiten, die Analyse von Metadaten und die Skalierung über mehrere Knoten für umfangreiche Auswertungen.\n\n**Die neuen Features umfassen:**\n- **Benutzerdefinierte Metriken (BYOM)**: Anpassung der Bewertungsstandards durch Integration eigener Metriken.\n- **LLM-as-a-Judge**: Automatisierte Bewertung von Modellen durch Vergleich von Antworten und Ermittlung von Vorlieben mit Erklärungen für die getroffenen Entscheidungen.\n- **Token-Level Log-Wahrscheinlichkeiten**: Analyse des Vertrauensniveaus des Modells, nützlich für Entscheidungen über Kalibrierung und Routen.\n- **Metadaten-Passthrough**: Beibehaltung von pro-Zeilen-Daten für eine differenzierte Analyse ohne zusätzliche Verarbeitung.\n- **Multi-Knoten-Ausführung**: Verteilung von Arbeitslasten über mehrere Knoten bei gleichzeitiger Stabilität der Aggregation.\n\nTeams können Modellbewertungen über JSONL-Dateien in Amazon S3 definieren und sie als SageMaker-Trainingsjobs ausführen. Ergebnisse werden als strukturierte JSONL-Dateien bereitgestellt, die sich gut in Analysewerkzeuge integrieren lassen.\n\n**Anwendungsbeispiel**: Eine Fallstudie zur Klassifizierung von IT-Support-Tickets zeigt die Anwendung dieser Funktionen. Die Studie umfasst die Erstellung von Datensätzen mit strukturierten Metadaten, die Implementierung benutzerdefinierter Metriken und die Durchführung von Multi-Knoten-Bewertungen zur Verbesserung der Effizienz.\n\nZusammenfassend bietet der Beitrag einen detaillierten Überblick über die neuen Funktionen, eine Schritt-für-Schritt-Anleitung zur Umsetzung und die Möglichkeiten, wie diese in realen Anwendungen angewendet werden können, um bessere Ergebnisse und tiefere Einblicke in die Modellleistung zu erzielen.