Donnerstag, 12. März 2015

Sprachkompression bei SSB - Teil 1



In der Zeit als Telefone eine Wählscheibe hatten und oft noch an der Wand hingen, war bereits klar, dass man für eine gute Sprachkommunikation den Bereich 300 bis 3400 Hertz übertragen musste. Damit ließen sich Frauen- und Männerstimmen unterscheiden und man konnte in der Regel den Sprecher, bzw. die Sprecherin anhand der Stimme identifizieren. Dies obwohl sonore Sprecher Frequenzen bis zu 200 Hz hinunter und brillante Sprecherinnen Frequenzen bis 4000 Hz benutzen.
Im Amateurfunk wird bei SSB in der Regel oben noch etwas abgezwackt und man begnügt sich mit 300 bis 2800 Hz - also einer Bandbreite von 2500 Hz. Trotzdem können so die Sprecher – und in einem etwas geringeren Mass auch die Sprecherinnen – noch identifiziert werden. Dank der „Interpretationsfähigkeit“ unseres Gehirns.
Darum muss man bei SSB zum nächstgelegenen QSO mindestens einen Abstand von 2.5 kHz einhalten. Höfliche Amateure halten 3 kHz Abstand.

Unsere Sprache weist eine sehr hohe Dynamik auf. Also einen großen Unterschied zwischen leisen und lauten Passagen. Gelingt es, die Dynamik zu verringern, steigt die Verständlichkeit unter schwierigen Bedingungen (kleiner Signal-Rauschabstand, QRM, QRN).
Mit dieser Erkenntnis wurde das „Clipping“ geboren. Man schnitt im Sender die höchsten Sprachspitzen ab und erhöhte dann den durchschnittlichen Pegel. Doch je mehr man abschneidet, desto grösser werden die Verzerrungen.
Daher suchte man nach anderen Verfahren um die Dynamik des Sprachsignals zu verringern. Aus Clippern wurden Kompressoren und schließlich sogar Sprachprozessoren. Sie alle taten vor allem eins: sie reduzierten die Dynamik der Sprache. Sie machten leise Stellen lauter und laute leiser.
Doch die Lautstärke (Sprachenergie) ist im Frequenzband nicht gleich verteilt. Vokale (die stimmhaften Laute i, u, a, o etc.) sind am stärksten und sie befinden sich im unteren Teil des Frequenzbandes, meistens unter 500 Hz. Darum sind Hundenamen reich an Vokalen ;-)
Die Konsonanten wie B, K, T, L sitzen im mittleren Teil des Sprachbandes bei etwa 1000 bis 2500 Hz. Sie sind wesentlich schwächer als die Vokale. Doch gerade sie sind essentiell für die Verständlichkeit.
Dann gibt es noch die Sibilanten, die Zischlaute. Sie sind für die Verständlichkeit weniger wichtig und liegen im oberen Teil des Sprachbandes, zum großen Teil über 3000 Hz. Während sie beim Telefon noch teilweise durchkommen, werden sie im SSB-Sender meistens abgeschnitten. Unser Gehirn rekonstruiert sie aber aus dem Kontext des Gesprochenen.
Bei der Sprachkompression im SSB-Sender muss man also darauf achten, die Konsonanten zu bevorzugen. Sie brauchen die meiste Unterstützung, damit das Sprachsignal auch unter widrigen Umständen verständlich wird.

Wer an seinem Transceiver über einen ZF-Shift verfügt oder sogar die untere und obere Grenzfrequenz des Filters einstellen kann wie z.B. bei TS-590, kann leicht feststellen, wie sich die Beschneidung der Bandbreite auswirkt. Erstaunlich wie schmal man das Frequenzband machen kann, ohne viel an Verständlichkeit zu verlieren – solange man die Konsonanten „leben lässt“.

Bild: Ja so warn's die alten Rittersleut