Glossar

BLEU

Was ist BLEU?

BLEU, oder Bilingual Evaluation Understudy, ist eine Metrik zur Bewertung der Qualität maschineller Übersetzungsergebnisse. Sie misst, wie genau eine maschinell erzeugte Übersetzung mit einer oder mehreren menschlichen Referenzübersetzungen übereinstimmt.

BLEU wird in Forschung und Entwicklung der maschinellen Übersetzung häufig eingesetzt, um Übersetzungsmodelle zu benchmarken und die Leistung von Systemen zu vergleichen.

So funktioniert BLEU

BLEU bewertet die Übersetzungsausgabe, indem es Wortsequenzen zwischen der maschinellen Übersetzung und Referenzübersetzungen vergleicht.

N-Gramm-Vergleich Die Metrik vergleicht Wortfolgen zwischen der generierten Übersetzung und der Referenzübersetzung.

Präzisionsmessung BLEU berechnet, wie viele Wörter oder Phrasen der maschinellen Übersetzung im Referenztext vorkommen.

Punkteberechnung Das Ergebnis ist ein numerischer Score, typischerweise zwischen 0 und 100, wobei höhere Werte auf eine größere Ähnlichkeit hinweisen.

Benchmarking von Übersetzungsmodellen Forscher nutzen BLEU-Werte, um die Leistung verschiedener maschineller Übersetzungssysteme zu vergleichen.

Grenzen von BLEU

Obwohl BLEU weit verbreitet ist, weist es mehrere Einschränkungen auf.

Erfasst Bedeutung oder Kontext nicht vollständig
Kann gültige alternative Übersetzungen benachteiligen
Fokussiert auf Wortüberschneidung statt auf sprachliche Qualität
Erfordert Referenzübersetzungen zum Vergleich

Aufgrund dieser Einschränkungen kombinieren viele moderne Systeme BLEU mit zusätzlichen Bewertungsmethoden.

BLEU in der modernen Übersetzungsbewertung

BLEU bleibt ein gängiger Benchmark in der Entwicklung der maschinellen Übersetzung, insbesondere bei der Bewertung von Modellverbesserungen. Allerdings ergänzen Unternehmen BLEU zunehmend um weitere Metriken und menschliche Bewertung, um die Übersetzungsqualität besser zu beurteilen.

Die KI-gestützte Übersetzungsplattform von LILT nutzt fortschrittliche Evaluierungsansätze und menschliches Feedback, um Übersetzungsgenauigkeit und -leistung über mehrsprachige Workflows hinweg kontinuierlich zu verbessern.

BLEU

Was ist BLEU?

Bereit, Evaluationssignale über alle Sprachen hinweg vergleichbar zu machen?

Produkte

Entwickelt für

Anwendungsfälle

Ressourcen

Unternehmen