Erklärung VoIP Messverfahren
Zur Bewertung der Sprachqualität von VoIP-Gesprächen nutzten die Messtools von Nextragen Solutions GmbH, TraceSim NX Check Cloud, NX Check on Premise und NX Xheck Mon on Premise verschiedene Messmethoden.
Beschreibung
Messmethoden für die VoIP Qualität
Zur Bewertung der Sprachqualität von VoIP-Gesprächen nutzten die Messtools von Nextragen Solutions GmbH, TraceSim NX Check Cloud, NX Check on Premise und NX Xheck Mon on Premise verschiedene Messmethoden. Diese unterscheiden sich fundamental und führen zu abweichenden Qualitätswerten. Zudem ist nicht jedes Verfahren für jede Aufgabenstellung gleich geeignet. Der Beitrag erklärt die Grundzüge und wesentlichen Unterschiede der beiden gebräuchlichsten Verfahren, die als „E-Model“ und „PESQ“ bezeichnet werden.
Bewertung von Telefongesprächen nach Schulnoten-System
Allgemein gesprochen versuchen alle Messmethoden ein Telefongespräch nach einem Schulnoten ähnlichen System zu bewerten, welches als Mean Opinion Score (MOS) bezeichnet wird. MOS ist von der ITU-T im Standard P.800 definiert. Bei diesem Bewertungsschema werden die Noten – die MOS-Werte – auf einer Bewertungsskala zwischen 1 (ungenügend) und 5 (sehr gut) vergeben.
Die Angabe eines MOS-Werts, beispielsweise in einer Ausschreibung, einem Messprotokoll oder einem Service-Level-Agreement (SLA) stellt jedoch nur dann eine klare und nachvollziehbare Aussage dar, wenn das zugrunde liegende Verfahren bekannt ist. Denn je nach Verfahren können sich verschiedene MOS-Werte ergeben. Das gilt auch für die beiden heute gebräuchlichsten Messmethoden E-Model und PESQ. Zudem sind die, nach dem jeweiligen Verfahren ermittelten MOS-Werte nur sehr bedingt miteinander vergleichbar. Es sollte also immer eindeutig klargestellt werden, welcher MOS-Wert gemeint ist. Man kann dies beispielsweise durch einen einfachen Zusatz ausdrücken:
- MOSE-model = MOS-Wert, ermittelt nach E-Model,
- MOSPESQ = MOS-Wert, ermittelt nach PESQ.
Es kann auch auf andere Art präzisiert werden, welcher MOS-Wert gemeint ist. So beschreiben die Normen der ITU-T ein noch breiteres Spektrum, um verschiedene MOS-Werte zu charakterisieren. Für die messtechnische Praxis im Bereich der Unternehmenskommunikation sind die hier genannten Zusätze allerdings typischerweise ausreichend. Im Folgenden betrachten wir zunächst die MOS-Wertermittlung nach dem E-Model-Verfahren.
Die korrekte Messung der Sprachqualität bei VoIP
Die Implementierung von Breitband-Sprach-Codecs (in den Frequenzbereichen von 50 Hz bis 7000 Hz) trägt dazu bei, die Sprachqualität bei VoIP (Voice over IP) erheblich zu verbessern. Um eine hohe Güte der Sprachübermittlung zu erhalten, muss der im Netzwerk zu erreichende Quality of Service (QoS) jedoch überprüft werden. Aus diesem Grund wurden für die Nutzung der Breitband-Codecs neue Messmethoden entwickelt. Die QoS Messmethoden unterteilen sich im Wesentlichen in folgende zwei Kategorien:
- Signal-basierte und
- Parameter-basierte Verfahren
Zur ersten Kategorie gehören der PESQ Algorithmus (Perceptual Evaluation of Speech Quality) und dessen Nachfolger, POLQA (Perceptual Objective Listening Quality Analysis). Die auf diesen Algorithmen aufbauenden Messmethoden bieten den Vorteil, dass diese objektive Messergebnisse und eine sehr genaue Analyse der Sprachqualität liefern. Im Gegensatz dazu sind die Parameter-basierten Messverfahren (beispielsweise das E-Modell oder EIP-Modell) einfach zu bedienen und daher kostengünstig. Die meisten Parameter-basierten Verfahren sind jedoch relativ unzuverlässig und die ermittelten Ergebnisse können erheblich von den tatsächlichen QoS Werten abweichen.
Beschreibung MOS (E-Modell)
MOS – E-Model betrachtet nur Paketparameter!
Das E-Model ist im Standard ITU-T Rec. G.107 beschrieben. Bei Messungen nach diesem Verfahren zeichnet das VoIP-Messgerät die von dem Telefon oder der Telefonanlage übermittelten Datenströme der RTP-Pakete (RTP-Streams) auf und bewertet diese anhand des Verhaltens der Paketparameter. Zu den für die Beurteilung berücksichtigten Parametern gehören:
- Packet loss: die beim Transport über das Netz verloren gegangenen Pakete
- Jitter: als Maß, ob die Pakete in zeitlich korrekten Abständen hintereinander eingegangen sind
- Delay: Die Verzögerung vom Sender zum Empfänger
- Codierung: Es wird der für die Codierung der Sprache genutzte VoIP-Codec ermittelt.
Die vier Parameter werden anschließend dem E-Model Algorithmus zur Verfügung gestellt, welcher daraus den MOS-Wert des RTP-Streams errechnet.
Vollständigkeit und zeitliche Eigenschaften
Beim E-Model werden die Pakete auf deren Vollständigkeit und zeitliche Eigenschaften untersucht. Damit lassen sich in einfachen Netzsituationen ohne Medienübergänge (!) Abschätzungen erreichen. Nimmt man beispielsweise ein LAN erstmals in Augenschein und ein nach dem E-Model ermittelter MOS-Wert ist sehr negativ, so ist schnell offenkundig, dass die RTP-Streams zu gestört sind, um eine akzeptable, beziehungsweise die gewünschte Sprachqualität zu realisieren. Ebenfalls kann nach der Durchführung von Maßnahmen eine Wiederholung der Messung zeigen, ob Verbesserungen in den RTP-Streams erreicht wurden.
In dieser einfachen Methodik liegen aber auch die Grenzen des E-Models begründet. Es wird lediglich die Qualität des Transportes in einem LAN festgestellt. Das Messverfahren ist nicht dafür ausgelegt, die Inhalte der RTP-Pakete – also die Sprache – für die Beurteilung zu berücksichtigen. Ebenfalls ist eine Messung im Rahmen des E -Models nicht in der Lage, über mehrere Netzsegmente hinweg sinnvolle Aussagen zu erzeugen.
Veranschaulichung Abbildung 1 veranschaulicht diese methodisch bedingten Grenzen einer Messung nach dem E-Model.
Als Szenario sind drei miteinander gekoppelte Kommunikationssegmente (IP – ISDN/WAN – IP) dargestellt. Bei einem solchen Kommunikationsgebilde handelt es sich beispielsweise um ein Unternehmen mit zwei VoIP Standorten. An den Netzübergängen bedient man sich heute typischerweise Gateways zur Umwandlung der VoIP-Pakete in ISDN-Date bzw. zur Wandlung des Codec von G.711 in G.726 oder G.729.
Erläuterung
Abbildung 1: Die MOS-Wert-Ermittlung nach E-model berücksichtigt nur die Fehler von RTP-Paketen im jeweiligen Netzsegment. Vererbte Fehler aus vorgelagerten Segmenten werden ignoriert, da sie durch Korrekturpakete ohne Sprachinformation ersetzt werden. (Hier dargestellt am Beispiel des Parameters Packet loss.) Mediengateways z.B. ersetzen verlorene Pakete mit Leerpaketen.
Will man in einem solchen Netzkonstrukt den MOS-Wert und somit die VoIP-Qualität auf Basis des E-Models ermitteln, so erhält man keine Aussage über die gesamte Verbindung (Ende-zu-Ende). Für den Standort A und den Standort B werden getrennte MOS-Werte ermittelt. Treten beispielsweise im Gateway Codec-Fehler oder auf dem ISDN-Netzwerk Übermittlungsfehler auf, dann werden diese auf der Paketschicht nicht sichtbar.
Die Gründe hierfür sind:
- beim Umpaketieren eines VoIP-Pakets in ein anderes Format werden die Zeitstempel neu generiert,
- die Paketfehler (Jitter und Packet loss) werden dabei zurückgesetzt
Da man bei diesem Beurteilungsverfahren nur die Paketebene betrachtet und die Paketinhalte (die eigentliche Sprache) außer Acht lässt, erhält man immer nur einen Messwert vom jeweiligen Messpunkt bis zum Gateway. Das E-Model scheitert daran, eine Ende-zu-Ende Sprachqualität zu errechnen und die ermittelten Messwerte geben nur einen Teil der Wahrheit wieder.
Beschreibung MOS (PESQ)
MOS – PESQ betrachtet die übermittelte Sprache
Ganz anders arbeitet das PESQ-Messverfahren gemäß der Spezifikation ITU-T Rec. P.862. Der PESQ-Algorithmus setzt bei den Sprachsignalen an: Zur Berechnung des MOS-PESQ Wertes wird ein Referenzsignal (RTP Sprachfile) mit dem entsprechenden, nach der Übertragung empfangenen Signal (RTP Strom) direkt verglichen. Bei diesem Verfahren wird somit zwischen dem Sender und dem Empfänger die Sprachqualität auf einer Ende-zu-Ende-Basis betrachtet.
Erläuterung
Abbildung 2: MOS-Wert-Ermittlung nach PESQ. Anhand eines Referenzsignals werden alle auf der Übertragungsstrecke aufgetretenen Veränderungen und Beeinträchtigungen des beim Empfänger ankommenden Vergleichssignals erkannt. Es wird genau ein MOS-Wert ermittelt, der die Gesamtbewertung der Sprachqualität der Ende-zu-Ende-Beziehung darstellt.
Da der Algorithmus direkt auf das Sprachsignal aufsetzt, bietet dieser den Vorteil, dass jede Signalveränderung beziehungsweise jeder Fehler auf der Strecke bemerkt wird. Während das E-Model nur die reinen Transportfehler (Paketverluste, Jitter, Delay etc.) in jeweils einem Segment der Übertragungsstrecke betrachtet, liefert PESQ eine Bewertung über die gesamte Ende-zu-Ende-Kommunikationsstrecke. Auch die Qualitätseinflüsse aus der Wandlungen der Sprachsignale an den Netzübergängen werden einbezogen (Codec-Wandler, Fehler in der Codec-Wandlung, Wandlung von IP in ISDN, ISDN-Fehler).
Unterschied zwischen MOS (E-Modell) und MOS (PESQ)
Fazit
Der Unterschied zwischen den beiden Bewertungsmethoden ergibt sich aus den Parametern, die bei der Ermittlung des MOS-Werts berücksichtigt werden. Das MOS E-Model bezieht sich ausschließlich auf Eigenschaften der RTP-Pakete, während PESQ zur Berechnung die Daten aus den realen Sprachsignalen gewinnt. Insbesondere, wenn eine Kommunikationsstrecke aus mehreren Segmenten mit Medienwandlern besteht, führt die Verwendung des E-Models zu mehrdeutigen Aussagen und einer systematischen Überschätzung der tatsächlichen Sprachqualität.
Die dennoch weite Verbreitung des E-Models dürfte drei Gründe haben:
- in einfachen Situationen kann man damit brauchbare Abschätzungen erreichen,
- er Algorithmus kann ohne Lizenzkosten in Messgeräten implementiert werden (anders als bei anderen Verfahren) und
- es dürfte wohl auch Unverständnis für den messtechnischen Aussagegehalt eine Rolle spielen. Gänzlich sinnlos sind jedoch in Ausschreibungen oder SLAs die Forderungen eines bestimmten MOS-Wertes, wenn dieser nicht präzisiert wird, beispielsweise durch den Zusatz „nach E-Model“ oder „nach PESQ“.
Zukunftsausblick
PESQ bildet heute den Marktstandard in der fachkundigen Messtechnik für Sprachqualität. Allerdings wird auch PESQ zukünftig nicht alle relevanten Szenarien abdecken können. Seit 2011 steht als ITU-T Rec. P.863 ein neues Bewertungsmodell unter dem Namen „Perceptual Objective Listening Quality Analysis“ (POLQA) zur Verfügung. POLQA ist eine Weiterentwicklung von PESQ und erlaubt unter anderem auch die Untersuchung von übermittelten Sprachsignalen im „Ultra-Breitband“ (50 – 14.000 Hz). Es dürfte aber im Zuge des schrittweisen Ausbaus der Next-Generation-Networks noch einige Jahre dauern, bis die Verwendung von POLQA über einen engen Anwenderkreis unter den großen Festnetz- und Mobilfunknetzbetreibern hinaus praktische Relevanz erlangt.
Beschreibung PESQ und POLQA
Beschreibung PESQ und POLQA
Das Unternehmen Nextragen Solutions GmbH hat den PESQ-Algorithmus bereits seit mehreren Jahren in sein Simulationswerkzeug TraceSim, NX Check Cloud, NX Check on Premise und NX MON on Premise implementiert. TraceSim und seine Schwester Prdukte unterstützen Breitband-Codecs und die, für die Messungen notwendige Referenz-Datei mit einer 16 kHz Sampling-Frequenz. Außerdem unterstützt TraceSim und NX MON on Premise den PESQ- Nachfolger. Dieser neue Algorithmus heißt „Perceptual Objective Listening Quality Analysis“ (POLQA). Die neue Messmethode ist für Netzwerktests auf einer Ende-zu-Ende-Basis für Super-Breitband Codecs (50 bis 14.000 Hz) konzipiert. Hierfür wird bei der Messung eine Referenz-Datei mit Samplingrate von 48 kHz genutzt. Das neue Mess- und Prüfverfahren eröffnet völlig neue Möglichkeiten bei der Durchführung von QoS-Messungen in VoIP-Umgebungen.
Der PESQ-Algorithmus
Mit dem Aufkommen von Voice over IP (VoIP) wurde die Messung der Sprachqualität eine noch wichtigere, aber auch schwierigere Aufgabe. Anders als in den leitungsgebundenen Telefonnetzen und in den klassischen Mobilfunknetzen schwanken bei Voice over IP die Verzögerungen der Sprachdatenpakete.
Je nachdem an welchem Messpunkt des Endgeräts die Sprachsignale abgegriffen werden (beispielsweise an der Schnittstelle zum IP-Netz oder am Telefonhörer), wirken sich diese Verzögerungsschwankungen (Jitter) mehr oder weniger stark auf das aufgezeichnete Signal aus. Dadurch wird bei Messverfahren mit Eingangs- und Ausgangssignal die Bestimmung der Verzögerung zwischen dem eingespeisten Testsignal und dem Ausgangssignal schwieriger und damit die Analyse der Veränderungen des aufgezeichneten Sprachsignals in Bezug auf das Testsignal.
Die ITU-T hat deshalb im Jahr 2001 in der Empfehlung ITU-T P.862 das PESQ (Perceptual Evaluation of Speech Quality) Verfahren verabschiedet. PESQ ist eine Methode zur objektiven Qualitätsbewertung von Sprache die per Voice over IP über ein Netzwerk übermittelt wird. Dabei werden der klassische Frequenzbereich der Telefonie von 300 bis 3.400 Hz (Schmalband) bzw. die erweiterten Übermittlungsbereiche von 50 bis 7.000 Hz (Breitband) überprüft.
Die wichtigsten Eigenschaften des PESQ-Algorithmus sind:
- arbeitet nach dem Standard ITU-T P.862.
- bewirkt eine objektive Bewertung von Telefonverbindungen.
- basiert auf den psychoakustischen Eigenschaften des menschlichen Gehörs.
- ist für Ende-zu-Ende-Messungen („Full Reference“) von VoIP-Verbindungen geeignet.
- ist ein anerkannter Standard zur Messung der Sprachqualität in VoIP-Netzen.
Der PESQ-Algorithmus berechnet die Sprachqualität auf einer Skala von „- 0,5“ bis „4,5“. Werte in der Region „- 0,5“ weisen auf eine sehr schlechte Sprachqualität hin, während Werte im Bereich von „4,5“ eine exzellenter Sprachqualität darstellen. Die PESQ-Skala lässt sich als MOS (Mean Opinion Score gemäß ITU-T Rec. P.862.1 und P.862.2.) in den Wertebereichen von „1“ bis “ 5 “ ausdrücken. Die PESQ/MOSMapping-
Funktion für Schmalband-Codecs lautet:
Für Breitband-Codecs lautet die Gleichung:
Der POLQA-Algorithmus
Das Messverfahren Perceptual Objective Listening Quality Analysis (POLQA) ist der Nachfolger des PESQ-Algorithmus. Das neue Messverfahren basiert auf dem Standard ITU-T P.863. Der neue Algorithmus wurde zur Qualitätsprüfung von Sprachverbindungen entwickelt und eignet sich sowohl für die schmalbandige (300 – 3.400 Hz) als auch für die breitbandige (50 – 14.000 Hz) Untersuchung der übermittelten Sprachsignale.
Der POLQA- Algorithmus besitzt zwei Modi
- Schmalband (Referenzsignal: Abtastrate von 8 kHz) und
- Superbreitband (Referenzsignal: Abtastrate von 48 kHz)
Der MOS-LQO-Wert
Der Superbreitband-Modus der POLQA-Bewertungsmethode ermöglicht die Bewertung beider Signalklassen auf ein und derselben Skala. Die verminderten Signale, die sich aus der Verwendung eines Codecs mit einer Abtastrate von normalerweise < 48 kHz ergeben, werden intern neu berechnet, um einen Vergleich der beiden Eingangssignale zu ermöglichen. Das heißt, um eine Messung in Übereinstimmung mit dem POLQA Superbreitband-Modus durchführen zu können, muss das Testsignal durch eine Neuberechnung aus dem 48-kHz-Referenzsignal gewonnen werden. Das endgültige Ergebnis der POLQA-Messmethode wird als MOS-LQO-Wert ausgedrückt.
Durch die unterstützten Bandbreiten (Schmalband, Breitband, Superbreitband) der POLQA-Messmethode und der ausschließlichen Verwendung der MOS-Skala (1,0 bis 4,5 für den Schmalband-Modus und 1,0 bis 4,75 für den Superbreitband-Modus) ergeben sich MOS-LQO Werte (gemäß der Norm P.863), die gegenüber den MOSLQO Werten (gemäß Standard P.862) um ca. 0,5 MOS ausgeglichen werden müssen. Aus diesem Grund lassen sich die beiden Algorithmen auch schwer miteinander vergleichen. Deshalb wird vom POLQA-Algorithmus eine Neuberechnung der MOSLQO Werte vorgenommen, bevor der endgültige Messwert ausgegeben wird.
Die Neuberechnung erfolgt im Schmalbandbereich nach folgender Formel:
- a) MOS LQO = 0,79 + 0,0036 ⋅ MOS P.863 + 0,2117 ⋅ MOS P.863 – 0,0065 ⋅MOS P.863
und im Breitbandbereich lautet die Formel:
- b) MOS LQO = 0,276 + 0,7203 ⋅ MOS P.863 + 0,00756 ⋅ MOS P.863 – 0,01141 ⋅MOS P.863
Vergleich PESQ und POLQA
Vergleich beider Algorithmen PESQ und POLQA
In der Praxis benötigt man für eine PESQ- oder POLQA-Messung eines 8 Sekunden langen Referenzsignals die Übertragungszeit plus die Verarbeitungszeiten, was sich auf 1 Minute ausdehnen könnte. Um die Messzeiten zu reduzieren, bedient man sich eines Software-Tools, das die Berechnungen numerisch durchführt. Die folgende Skizze zeigt das Blockschaltbild dieses Werkzeugs.
Nachfolgend wird der grundsätzliche Programmablauf dargestellt, mit dem, in realen Systemumgebungen, die jeweiligen Messverfahren miteinander verglichen werden:
- zuerst wird eine Referenzdatei (analoges Sprachsignal) geladen.
- dieses Signal wird in Einklang mit dem verwendeten Codec (beispielsweise G.711, GSM, etc.) codiert.
- die kodierten Digitaldaten werden entsprechend der gewählten Größe des Sprach-Samples segmentiert und in RTP (Real-Time Transport Protocol)- Paketen verpackt.
- der Baustein „Error“ generiert das gewünschte Maß an Beeinträchtigungen (Fehlern) im Netzwerk.
- die empfangenen Pakete werden zunächst im Jitter-Buffer zwischengespeichert und anschließend so bearbeitet, dass in Übereinstimmung mit der Norm ITU-T G.113 die zeitlichen Funktionen angepasst werden.
- die paketierten Sprach-Samples werden entsprechend dem genutzten Sprach-Codec decodiert.
- schließlich werden die Sprachdaten und die Sprachreferenzdatei geladen und an den PESQ- oder POLQA-Algorithmus weitergeleitet.
- zum Abschluss erfolgt die Berechnung der entsprechenden PESQ- oder POLQA-Messwerte.
Detailvergleich der beiden Messalgorithmen
PESQ vs. POLQ beim Einsatz im Schmalbandbereich Die folgenden Parameter werden für ordnungsgemäße Analysen vorausgesetzt:
- nichtdeterministische (Binomialverteilung) Verteilung der Paketverluste im Bereich von 0 bis 20 Prozent.
- nichtdeterministische (Exponentialverteilung) Verteilung der Burst-Größe mit einem Mittelwert von 1.
- 8-kHz-Signal (Schmalband-Modus)
- 48-kHz-Signal (Superbreitband-Modus)
- Schmalband-Codec G.711.1 mit einer Bitrate von 80 Kbit/s (Mode R2a) und Sample-Längen von 10, 20 und 30 ms.
- 31 Messungen für jeden Performance-Wert. Auf diese Weise ist es möglich, ein Konfidenzintervall von weniger als 10 Prozent des geschätzten Durchschnitts (mit einer Fehlerwahrscheinlichkeit von 5 Prozent) zu erreichen
- QoS-Werte auf der MOS-LQO Skala.
- „Silence Insertion“-Methode in Fällen von aufgetretenen Paketverlusten.
Exemplarische Ergebnisse für das Messszenario
Die folgenden Abbildungen 1 bis 3 zeigen die Ergebnisse für das erste Messszenario. Die QoS-Kurven entwickeln sich exponentiell. In Fall von Superbreitband-POLQA fallen die Signalflanken steiler ab und erreichen den niedrigen MOS-Wert von ca. 1. Alle drei Algorithmen bestätigen die Qualität des R2a Modus (ca. 4,4 MOS). Auch ist auffällig, dass der Superbreitband-POLQA Modus sensitiver in Bezug auf die Sample Längen reagiert als die anderen Algorithmen. Jedoch liefern alle drei Techniken im Großen und Ganzen vergleichbare Ergebnisse und eignen sich gleichermaßen für die Bewertung QoS im Schmalband-Bereich.
Abbildung 1 MOS-LQO Werte ermittelt von Schmalband-PESQ als Funktion der Paketverluste und Länge der Messprobe für den Codec G.711.1 R2a
Abbildung 2 MOS-LQO Werte ermittelt von Schmalband-POLQA als Funktion der Paketverluste und Länge der Messprobe für den Codec G.711.1 R2a
Abbildung 3 MOS-LQO Werte ermittelt von Superbreitband-POLQA als Funktion der Paketverluste und Länge der Messprobe für den Codec G.711.1 R2a
Die QoS-Kurven weisen ebenfalls einen exponentiellen Charakter auf. Beide Algorithmen bestätigen die sehr gute Qualität des R2b-Modus (Breitband-PESQ: MOS ca. 4,0, und Superbreitband-POLQA: MOS ca. 4,4). Der Unterschied von 0,4 MOS ergibt sich aus der Umwandlung der oben dargestellten Formeln (1) und (2), und dem Versuch, die POLQA ermittelten Schmal- und Breitband-Signale in einem einzigen Maßstab darzustellen. Auch hier wird deutlich sichtbar, dass Superbreitband-POLQA sensitiver als Breitband-PESQ auf Probenlänge reagiert. Im Großen und Ganzen jedoch ergeben beide Algorithmen vergleichbare Ergebnisse und eignen sich gleichermaßen für die Bewertung QoS in Breitband-Umgebungen.
Effekte der Pegel
PESQ ist nahezu unempfindlich gegen Niveauunterschiede zwischen dem Referenz und dem abgeschwächten Empfangssignal. Außerdem werden die Wahrnehmungs-Effekte der Niveauunterschiede bei PESQ oft unterschätzt. Beide Faktoren wurden bei POLQA korrigiert und die Effekte entsprechen somit den subjektiven Hörtests.
Hierzu müssen einige Regeln beachtet werden, damit korrekte Ergebnisse erzielt werden:
- POLQA geht strikt davon aus, dass die Referenzsignale über einen aktiven Sprachpegel von – 26dBov (gemessen nach P.56) verfügen und dieser mit einem nominalen Pegel von 73dB SPL im Bezugspunkt für beide Ohren im Super-Breitband-Modus und 79dB SPL im Bezugspunkt eines Ohres im Schmalband-Modus bereit steht.
- In Super-Breitband-Modus müssen die reduzierten Signale zur Validierung mit POLQA einen aktiven Pegelbereich zwischen – 21dBov bis -46dBov aufweisen. Nur dann arbeitet POLQA zuverlässig. Ein Pegelniveau von -26dBov repräsentiert die ideale Normallautstärke.
- Im Schmalband-Modus sollte das verminderte Signal ebenfalls 26dBov entsprechen.
Es ist zu beachten, dass das häufig verwendete, zur Referenzmessung genutzte „Cool Edit Pro“ Werkzeug nicht gemäß P.56 misst und deshalb die daraus resultierenden Messwerte um bis zu 3 dB variieren können.
Schmalband – Breitband – Super-Breitband
Bei PESQ gibt es nur zwei Betriebsarten
- Schmalband (300 – 3400 Hz) und
- Breitband (100 – 7000 Hz)
Für POLQA sind ebenfalls zwei Modi definiert. Diese decken jedoch den Schmalband und den Super-Breitband- (50 -14000 Hz) Bereich ab.
Dadurch entsteht eine Überschneidung zwischen PESQ und POLQA im Schmalbandbereich, aber im Breitband- und Super-Breitband-Bereich gibt es bei PESQ keine direkte Entsprechung.
Unterschiedliche Voraussetzungen der individuellen Schmalband-, Breitband- und Super-Breitband-Modi
Aufgrund der genutzten Algorithmen liefern PESQ und POLQA im Schmalband zwar in der Regel ähnliche Ergebnisse, ein direkter Vergleich sollte aber vermieden werden. Der Breitbandmodus von PESQ wird vollständig vom POLQA Super-Breitband-Modus ersetzt. In der Konsequenz heißt dies für die korrekte Anwendung von POLQA für Breitband-Szenarien: Es müssen immer die Super-Breitband-Referenz-Dateien für die Tests verwendet werden. Die dadurch erreichbaren Ergebnisse werden im Gegensatz zum Breitband-Modus von PESQ auf einem anderen Bereich der MOS-Skala abgebildet.
Dies hat seine Ursache in den unterschiedlichen Voraussetzungen der individuellen Schmalband-, Breitband- und Super-Breitband-Modi und der daraus resultierenden unterschiedlichen Abbildung auf der MOS-Skala. Bei der Entwicklung des POLQA-Algorithmus wurde darauf geachtet, dass eine Messung mit POLQA unter typischen Breitband-Bedingungen einen ähnlichen Wertebereich (Maximalwert 4,5) ergibt, wie Messungen von PESQ im Breitband-Bereich. Zum direkten Vergleich zwischen PESQ- und POLQA-Ergebnisse muss eine Transformationsskala angewendet werden. Dabei werden die POLQA-Werte an den anderen Kontext (Breitband vs. Super Breitband) angepasst.
MOS-Wertebereiche
Die Tabelle 1 zeigt die Grenzen der MOS Skala bei PESQ (P.862.1/2) und bei POLQA in Abhängigkeit von der jeweiligen Betriebsart und des eingesetzten Algorithmus. Dabei ist zu beachten, dass es keine Überschneidungen für den Breitband und den Super Breitband-Modus gibt. Im Super Breitband-Modus wird POLQA bei einem ausgezeichneten Breitbandsignal im Vergleich zu einem Super Breitband-Referenzsignal einen Messwert von ca. 4,5 liefern. In gleicher Weise wird ein perfektes Schmalbandsignal im Vergleich zu einem entsprechenden Super Breitband- Referenzsignal einen MOS-Wert von ca. 4,0 ermitteln.
PESQ ist sehr unempfindlich gegenüber linearen Verzerrungen des Frequenzgangs. Diese hatten jedoch nur Auswirkungen auf die Messergebnisse in Extrembereichen. Mit POLQA wurde dieser Problembereich behoben und die Verzerrungen entsprechen jetzt der menschlichen Wahrnehmung.
PESQ ist sehr tolerant gegenüber falschen Aufnahmepegeln. Dagegen sorgt POLQA für die genaue Einhaltung der Pegel. PESQ reagiert auch sehr empfindlich auf Taktunterschiede zwischen D/A- und A/D-Wandler im Übertragungspfad. Dies führt in der Praxis oft zu schlechteren Messergebnissen. POLQA dagegen ist in der Lage, solche Probleme zu korrigieren bzw. zu kompensieren.
Zusammenfassung und Ausblick
Die neue ITU-T Recommendation P.863 „POLQA“ stellt ein Technologie-Update für den Standard P.862 „PESQ“ da und verbessert die Qualität einer Ende-zu-Ende Messung im VoIP-Bereich signifikant. Da POLQA die gleichen Skalen und Bewertungsmechanismen wie PESQ benutzt, sind die jeweiligen Messergebnisse miteinander vergleichbar. Somit lassen sich ältere PESQ-Messreihen auf Basis von neueren POLQA-Messreihen fortsetzen. Die Messprodukte der Nextragen GmbH unterstützen beide Messverfahren und können deshalb in jeder VoIP-Umgebung eingesetzt werden.
Angebot, Anfrage / Teststellung