Videostandards: Wie das Bild auf den Schirm kommt

Hier wird das Techie-Herz erwärmt: Diese Serie ist für alle von euch, die sich jeden Tag eine kleine Auszeit von der Weltlage wünschen. Es gibt täglich eine Geschichte für euch aus unserem Archiv - geeignet für ein wenig fröhlichen Eskapismus. Viel Spaß!
Wer heute einen Bildschirm anschließt - egal ob Fernseher oder Computermonitor - tut dies mittels HDMI oder Displayport. Ältere Verbindungen wie DVI oder der alte 15-polige VGA-Anschluss sind fast verschwunden. Zumindest benutzt sie kaum noch jemand. Digitale Schnittstellen haben damit einen ihrer letzten analogen Vorläufer abgelöst. In diesem Artikel verfolgen wir die technische Entwicklung der Video-Schnittstellen.
Dass die Verbindung zum Bildschirm lange analog blieb, hat einen einfachen Grund: Röhrenmonitore waren bis weit in die 2000er(öffnet im neuen Fenster) Jahre ein verbreitetes Anzeigegerät - einerseits, weil sie günstiger waren als Flüssigkristallmonitore, andererseits aufgrund technischer Überlegenheit bei der Anzeige schneller Bewegungen ( der einige noch immer hinterhertrauern(öffnet im neuen Fenster) ).
Zwar existierten auch für Röhrenmonitore bereits digitale Schnittstellen. Das mag seltsam klingen, überstreicht hier doch der Elektronenstrahl kontinuierlich(öffnet im neuen Fenster) die Bildröhre, weshalb es keine individuellen Pixel gibt. Ein digitales Signal zwischen Grafikkarte und Monitor hat aber zwei Vorteile: Das Kabel entfällt als Störquelle, die Grafikkarte kommt ohne Digital-Analog-Wandler aus.
Für ein Flüssigkristalldisplay ist dagegen wegen der diskreten Pixel eine digitale Anbindung eigentlich die naheliegende Wahl. Allerdings waren günstige Modelle lange ausschließlich analog angebunden. Daher konnte selbst die für digitale Bilddatenübertragung ausgelegte DVI-Buchse analoge Signale ausgeben. Ausschließlich digital war dann erstmals HDMI.
Differenzielle Leitungen für schnelle Signale
HDMI und Displayport sehen auf den ersten Blick recht gleich aus. Beide nutzen wie alle modernen Schnittstellen (g+) differenzielle Signalleitungen. Dabei werden für jedes Signal zwei Leiter genutzt, die Differenz der Spannungen codiert entweder eine 0 oder 1. Daten werden seriell, also als Strom einzelner Bits übertragen. Wie bei seriellen Hochgeschwindigkeitsverbindungen üblich, werden die zu übertragenden Daten zudem codiert.
Die Codierung verringert die Datenrate, bringt aber Gleichstromfreiheit, reduziert elektromagnetische Abstrahlung und ermöglicht die Rückgewinnung des Sendertakts. Sowohl HDMI als auch Displayport nutzten lange die einfachere 8b10b-Codierung. Dabei werden acht Datenbits durch ein zehn Bit langes Sendewort codiert. Mittlerweile kommen effizientere Codes zum Einsatz, Displayport nutzt wie PCI Express 128b130b-Codierung(öffnet im neuen Fenster) , HDMI ist mit 16b18b(öffnet im neuen Fenster) konservativer.
Auch nutzen beide für die Übertragung von Video- und Audiodaten vier Leiterpaare - Displayport schon immer, HDMI seit der aktuellen Version 2.1 . Das funktioniert, da die Verbindung unabhängig von der Auflösung des Bildes immer mit dem gleichen Takt läuft. Ist der einmal ausgehandelt, genügen für die Synchronisation regelmäßig auftretende, eindeutig erkennbare Signalwechsel.
Hallo, Displayport-Paket!
Dass der Verbindungstakt von der Auflösung unabhängig ist, macht eine logische Verbindungsschicht ( Logical Link Layer, LLC(öffnet im neuen Fenster) ) erforderlich. Der Empfänger muss schließlich erkennen können, wann Daten ankommen - und ob es sich um Bild oder Ton handelt. Ähnlich wie PCI Express definieren beide ein Paketformat. Das ist bei Displayport von Beginn an recht komplex, da beispielsweise mehrere Ströme von Video- und Audiodaten unterstützt werden.
Die Komplexität ist hier vergleichbar mit den unteren Ebenen von Netzwerkprotokollen wie dem Internet Protocol (IP). Leider sind die Spezifikationen von HDMI und Displayport nicht öffentlich zugänglich. Ältere Versionen finden sich zwar leicht, die neuere Entwicklung lässt sich aber nicht im Detail nachvollziehen. HDMI nutzt zumindest in alten Versionen ein sehr einfaches Paketformat, grundsätzlich werden nur Videoinformationen, sogenannte Dateninseln (für Audiodaten) und Kontrollbereiche (für die Synchronisation), unterschieden.
Mit Version 2.1 hat sich HDMI wie zuvor Displayport vom realen Display entfernt. Dessen Anforderungen wie Synchronisationspunkte sind eingebettet in einen gleichmäßigen, digitalen Datenstrom. Displayport startete hier von Null als komplett neuer Entwurf, während HDMI eine lange Geschichte hat. Gehen wir eine Version zurück, sah HDMI noch ganz anders aus.
Das Bild gibt den Takt vor
Bis einschließlich Version 2.0b orientierte sich HDMI noch an den Anforderungen des übertragenen Bildes. Das bedeutete, dass die Datenverbindungen nur so schnell getaktet wurden, wie es zur Übertragung der Bildinformation erforderlich war. Diese umfasst dabei nicht nur die Pixeldaten, sondern auch die horizontale Synchronisation zwischen zwei Bildzeilen sowie die vertikale zwischen zwei Bildern.
Bei Röhrenmonitoren wurde in dieser Zeit der Elektronenstrahl ans andere Ende der Bildröhre bewegt. Aber auch bei Flüssigkristall-Bildschirmen sind gelegentliche Pausen unverzichtbar. Denn auch wenn es einen Referenztakt gibt (eine der vier Datenleitungen war bei HDMI vormals hierfür vorgesehen(öffnet im neuen Fenster) ), muss der Empfänger die eingehenden Bitströme synchronisieren. Über den Referenztakt teilt die Grafikkarte dem Monitor die Frequenz mit, mit der Pixel übertragen werden.
Für jedes Pixel werden im einfachsten Fall pro Farbkomponente zehn Bit seriell übertragen. Aus dem Pixeltakt kann die Elektronik im Monitor also einfach den Bittakt der Datenleitungen erzeugen. Um den Beginn der Datensymbole sicher erkennen zu können, darf der Bittakt des Monitors allerdings nicht zu stark von dem der Grafikkarte abweichen.
Pausensymbole
Um sicherzustellen, dass Sender- und Empfängertakt nicht zu sehr abweichen - und um überhaupt erst einmal zu wissen, wo ein Datensymbol beginnt - werden regelmäßig Trainingssymbole in den Datenstrom eingefügt. Die haben einen festen Aufbau und machen auch bei DVI und HDMI längere Synchronisationspausen erforderlich. Ganz so lang wie beim älteren VGA-Standard müssten sie nicht sein, aber die Entwickler von HDMI und Displayport fanden eine sinnvolle Verwendung für die Synchronisationszeiten: Hier lassen sich Audiodaten übertragen.




Um die Logik der Grafikhardware einfach zu halten, sind die Synchronisationsintervalle ein Vielfaches der Pixel- bzw. Zeilendauer lang. Damit ergibt sich für jedes Bild eine virtuelle Auflösung, die größer ist als die auf dem Bildschirm dargestellte. Für die Hardware bedeutet das: Es genügen zwei Zähler für Zeile und Spalte sowie acht Komparatoren, die auf den Beginn des Synchronisationsbereichs und das Zeilen- oder Bildende testen. Vor und nach dem Synchronisationsbereich befindet sich noch eine Pause, die historische Gründe hat - wir kommen noch einmal darauf zurück. Daher werden Zeilen- und Spaltenindex insgesamt je viermal verglichen.
Das lange Erbe der Röhre
Die Synchronisationsintervalle haben zumindest bei HDMI eine lange Geschichte: Sie sind vom Vorgänger DVI(öffnet im neuen Fenster) geerbt - zu dem ist HDMI voll kompatibel. DVI wiederum übernahm sie unverändert von den Röhrenmonitoren. Das dürfte die Grafikkarten weniger verkompliziert haben, da ein VGA-Ausgang natürlich Pflicht blieb.
Dass HDMI- und DVI-Verbindungen relativ langsam takten, ist auch für ambitionierte Bastler interessant: Die Schnittstellen sind selbst mit einem Einsteiger-FPGA umzusetzen, da die normalen Ausgaberegister ausreichend schnell sind. Displayport hingegen ist auf schnelle serielle Transceiver - spezielle Hardwareblöcke - angewiesen, die günstigen FPGAs fehlen. Selbst für den Raspberry Pi Pico hat Entwickler Luke Wren eine HDMI-Ausgabe realisiert(öffnet im neuen Fenster) . Beim aktuellen RP2350 auf dem Raspberry Pi Pico 2 gibt es dafür sogar Hardware-Unterstützung . Wie bei vielen DIY-Lösungen wird allerdings nur ein DVI-Signal über eine HDMI-Buchse ausgegeben, was aufgrund der Verwandtschaft möglich ist.
Jeder Farbe ihren Link
Die Gemeinsamkeiten der älteren HDMI-Versionen mit VGA gehen sogar noch weiter: Jede der drei seriellen Datenverbindungen ist einer Farbkomponente zugeordnet - Rot, Grün und Blau. Während Displayport vier Pixel parallel überträgt (im einfachsten Fall je eine Folge von 24 Bit), ist bei HDMI jede Folge auf acht Bit begrenzt. Das ergibt eine wunderbar einfache Logik, da jedes übertragene 10-Bit-Symbol acht Bit an Daten enthält.
Ein wenig Logik ist noch für Codierung und Scrambling nötig. Letzteres sorgt für pseudo-zufällige Bitfolgen, was die elektromagnetische Abstrahlung minimiert. Das macht zum Ausprobieren einen FPGA erforderlich, ein VGA-Signal lässt sich aber sogar auf einem Steckbrett erzeugen.
Zurück zur Röhre
Gehen wir zurück zum alten, 1987 von IBM(öffnet im neuen Fenster) eingeführten 15-poligen D-Sub-Verbinder(öffnet im neuen Fenster) , wird alles noch einmal einfacher. Zumindest, solange wir die Ebene der Signalerzeugung nicht verlassen. Hier gibt es keinen Pixeltakt - wie anfangs erwähnt kennt ein Röhrenbildschirm keine Pixel.
Da Grafikkarten allerdings nur über eine endliche Menge an Speicher verfügen, sind sie zu einem diskreten Raster von Bildpunkten gezwungen. Gab es anfangs nur wenige Bildformate, so wurden es mit der Zeit und fortschreitender Technik immer mehr. Das bedeutet: Grafikkarte und Monitor mussten sich irgendwie austauschen, wie der Elektronenstrahl über die Röhre zu bewegen ist - die Bild- und Zeilenfrequenz.
Dazu gibt es zwei Möglichkeiten: Der Monitor enthält eine feste Taktquelle und unterstützt so nur einige wenige Frequenzen. Diese werden über die Polarität der Synchronisationsleitungen ausgewählt. Davon gibt es zwei, um den horizontalen und vertikalen Strahlrücklauf auszulösen. Die auf ihnen übertragenen Spannungsimpulse synchronisieren zudem die Taktquelle des Monitors mit der der Grafikkarte.
Die sogenannten Multi-Sync-Monitore(öffnet im neuen Fenster) kommen hingegen mit einem wesentlich breiteren Spektrum an Bild- und Zeilenfrequenzen klar. Hier ist eine einstellbare Taktquelle verbaut, deren Frequenz auf die Synchronisationspulse angepasst wird.
Woher kennt Windows meinen Monitor?
Als Computer für mich noch Neuland waren, gab es diverse Dinge, die nach Magie aussahen. Beispielsweise dass Windows wusste, welche Auflösungen und Bildfrequenzen mein Monitor unterstützt. Natürlich ist auch das ziemlich einfach erklärbar: Mit der Zunahme an Auflösungen und Bildfrequenzen und dem Trend zu Plug-and-Play führte die Video Electronics Standards Association (VESA), die den VGA-Standard entwickelte (heute verwaltet sie Displayport), ein zusätzliches Feature ein.
Ein kleiner Speicher im Monitor enthält eine standardisierte Datenstruktur namens Extended Display Identification Data (EDID)(öffnet im neuen Fenster) . Dafür wurden zwei Pins des 15-poligen Steckers umgenutzt. Über sie identifizierten sich die Anzeigegeräte bereits zuvor, allerdings waren maximal vier Bit nutzbar. Zwei der ehemaligen ID-Pins wurden zu einer I 2 C-Verbindung, über die der Speicher ausgelesen werden kann, über den zuvor ungenutzten Pin 9 wird er mit Spannung versorgt. Fun Fact: Damit lässt sich auch ein OLED-Display als Monitor nutzen .
In der EDID-Struktur sind neben den unterstützten Bildformaten auch ein Hersteller- und Produktcode gespeichert. Der sogenannte Display Data Channel (DDC) existiert noch immer, sowohl HMDI als auch Displayport haben hierfür zwei Signalleitungen.
Die Farbsignale
Die Kontinuität von DVI und HDMI wird beim Blick auf die Farbsignale deutlich: Auch beim VGA-Standard hat jede Farbe ihre eigenen Leitungen. Pro Farbe sind zwei Leiter vorhanden, die allerdings kein Differenzsignal übertragen. Der zweite Leiter ist jeweils eine eigene Masse-Verbindung, die das gesendete Signal zur Grafikkarte zurückführt. Das ist wichtig, um unabhängig vom Kabel eine definierte Impedanz einzuhalten.
Der sogenannte RAMDAC(öffnet im neuen Fenster) wandelt die digitale Farbinformation der Pixel im Bildspeicher in ein analoges Spannungssignal. Die Spannung codiert die Intensität jeder der drei Farbkomponenten - je höher die Spannung, desto stärker der jeweilige Elektronenstrahl. Und je mehr Elektronen auf einen Phosphorpunkt geschossen werden, desto intensiver leuchtet er. Der erlaubte Spannungsbereich ist allerdings begrenzt - gängig sind 0 Volt für "Elektronenstrahl aus" und 0,7 Volt für "maximale Leuchtstärke". Die Synchronisationssignale arbeiten mit TTL-Pegel, also 0 und 5 Volt.
Spezielle Computermonitore sind allerdings eine verhältnismäßig neue Entwicklung. Bis in die 1980er Jahre wurden andere Geräte zweckentfremdet, um mit Computern Bilder darzustellen. Waren es anfangs Oszilloskope, setzte sich nach und nach ein anderes Medium durch: der Fernseher. Diesen Vorfahr lässt der VGA-Modus noch erahnen, er leitet sich direkt vom NTSC-Format ab.
Die Urzeit: Fernseher
Der direkte Vorgänger des Computermonitors ist der Farbfernseher. Viele Heimcomputer der 1980er Jahre gaben hierauf ihr Bild aus, codiert als NTSC- oder PAL-Signal. Trotz verschiedener Namen - NTSC steht für National Television System Committee (hier wurde der Standard entwickelt), PAL für Phase Alternating Line - sind diese verwandt.
Beide Signalformate - eine umfassende Beschreibung findet sich hier (PDF)(öffnet im neuen Fenster) - wurden als Erweiterung eines Schwarz-Weiß-Vorgängers entwickelt. Dadurch konnten Farbprogramme weiterhin mit alten Schwarz-Weiß-Fernsehern angesehen werden. Bei PAL und NTSC sind die Anzahl an Bildzeilen und die Bildwiederholrate festgelegt, verschiedene Auflösungen gibt es also nicht. PAL sendet 625 Zeilen in Form von 50 Halbbildern pro Sekunde, NTSC nur 525 Zeilen, dafür aber in jeder Sekunde knapp 60 Halbbilder. Beide Formate übertragen Bilder im sogenannten Interlaced-Format(öffnet im neuen Fenster) - zuerst alle Zeilen mit ungerader Nummer, dann alle mit gerader.
Wer nachrechnet, merkt, dass die Übertragung einer Bildzeile bei PAL und NTSC annähernd gleich lang dauert - bei PAL exakt 64 μs, bei NTSC etwas weniger. Auch der Aufbau der horizontalen und vertikalen Austastlücke(öffnet im neuen Fenster) (die geläufige Übersetzung von Blank ) ist annähernd gleich. Deren Strukturen sind deutlich komplizierter als bei VGA, wo ein einfacher Spannungsimpuls genügt.
Funkhaus an alle Geräte: Strahlrücklauf!
Die Austastlücke ist zudem mehr als nur ein Synchronisationspuls zum Auslösen des entsprechenden Strahlrücklaufs. Dieser Puls ist von einer vorderen und hinteren sogenannten Schwarzschulter(öffnet im neuen Fenster) , auf Englisch front und back porch , umgeben. Während dieser Zeiten werden keine Bilddaten übertragen, stattdessen liegt der Schwarzpegel an - daher der deutsche Name.




Die Schwarzschultern haben mehrere Gründe: Der Empfänger kann den Schwarzpegel erkennen, sie geben ausreichend Zeit für den horizontalen Strahlrücklauf und vermeiden große Spannungssprünge. Bei den Fernsehformaten existieren nämlich keine Synchronisationsleitungen. Bei PAL muss daher der Sender die anliegende Spannung auf 0,3 Volt unter den Schwarzpegel absenken. Weiß, also maximale Leuchtstärke, liegt übrigens bei 0,7 Volt über dem Schwarzpegel.
Der vertikale Strahlrücklauf hat ebenfalls eine komplexere Struktur. Zwar gibt es keine Schwarzschultern, dafür müssen feste Folgen von Synchronisationssymbolen übertragen werden. Davon gibt es zwei: die Equalizing- und Serration-(Verzahnungs-)Pulse. Die Synchronisationssequenz besteht bei PAL und NTSC aus fünf Equalizing-, fünf Serration- und noch einmal fünf Equalizing-Pulsen. Die unterschiedlichen Synchronisationspulse bei beiden Formaten sowie halbe Zeilen machen die Erzeugung der Signale komplizierter als bei VGA.




Und die Farbe?
Bislang kam Farbinformation noch gar nicht vor. Da PAL und NTSC für Rundfunk konzipiert waren, existieren natürlich keine separaten Leitungen für die Farbinformation. Sie wurde in das Vorgängerformat hineingebastelt. Die komplette Bildinformation wird über ein Medium - Funkwellen oder den Composite-Eingang - übertragen.
Da die bestehende Signalstruktur erhalten bleiben musste, wurde die Farbe über einen sogenannten Farbträger ergänzt. Dabei handelt es sich um eine Schwingung mit sehr genau vorgegebener Frequenz, die mit zwei Farbdifferenzsignalen moduliert wird. Da die Helligkeitsinformation bereits vorhanden ist, genügt die Übertragung eines Rot- und Blau-Differenzsignals. Die Umrechnung zwischen Helligkeits- und Farbdifferenzinformation (bezeichnet mit YUV) und RGB-Format erfolgt mit einfachen Formeln.
Zwei Signale lassen sich mit einer Trägerwelle übertragen, wenn Quadratur-Amplituden-Modulation genutzt wird. Eines der Signale moduliert den Sinus, das andere den Cosinus der Welle, die Ergebnisse werden addiert. Das ergibt für jede Farbe eine charakteristische Phasenverschiebung des Farbträgers. Der Empfänger decodiert das eingehende Signal mithilfe eines Oszillators, der sehr genau mit der Trägerfrequenz schwingt.
Um den Oszillator mit dem gesendeten Trägersignal zu synchronisieren, werden während der hinteren Schwarzschulter einige Perioden der unmodulierten Trägerschwingung übertragen. PAL bedient sich zudem noch eines kleinen Tricks: Zur Minimierung von Übertragungsfehlern wird die Cosinus-Komponente des Farbträgers nach jeder Zeile um 180° phasenverschoben - daher der Name. Darüber hinaus ist die Frequenz des Farbträgers so gewählt, dass jede Zeile zu einer Verschiebung der Trägerphase um -90° führt - das macht die Erzeugung eines PAL-Signals (g+) recht herausfordernd.




Auch über die Anforderungen der Röhrentechnik hinaus haben die alten Fernsehformate ihre Nachfolger beeinflusst.
Der lange Arm der Geschichte
Videostandards sind ein schönes Beispiel dafür, dass sich in aktueller Technik noch immer Teile der DNA ihrer Vorgänger finden. Während Displayport einen vollständigen Neuanfang markiert, gehen die Wurzeln von HDMI bis in die Display-Vorzeit zurück.
Über DVI erbte HDMI viele Eigenschaften von VGA, das wiederum in direkter Nachkommenschaft zu NTSC steht: Das Bildformat des ursprünglichen VGA-Standards, 640 x 480 Pixel, ist direkt von NTSC abgeleitet(öffnet im neuen Fenster) . Auch hier sind lediglich 480 der 525 Zeilen eines Bildes sichtbar. Zwischen zwei Halbbildern fallen jeweils acht Zeilen für die vertikale Synchronisation weg. Die Elektronik der Anfangstage benötigte zudem einige Zeit(öffnet im neuen Fenster) , um die Synchronisationspulse zu erkennen und den Elektronenstrahl neu zu positionieren.
Die Übernahme von Teilen der alten Standards hat zwei Gründe. Der erste Grund ist technischer und wirtschaftlicher Natur: Neben einer neuen Schnittstelle mussten Hardwarehersteller stets auch mindestens einen Vorgänger anbieten. Zwei vollständig verschiedene Ausgabestandards hätten die Hardware deutlich komplizierter - und teurer - gemacht.
Vorhandene Hardware lässt Standards lange leben
Der zweite Grund liegt in den bereits vorhandenen Geräten: Kaum jemand musterte beispielsweise einen gut funktionierenden Röhrenmonitor aus, um auf einen TFT-Bildschirm umzusteigen. Hardware wird über Jahre genutzt, was den entsprechenden Schnittstellen und Formaten ein langes Leben beschert. Alte Technik musste also weiter funktionieren - und die neue auf deren Bedürfnisse Rücksicht nehmen.
Aber ein Gutes haben die Relikte aus der Computer-Urzeit: Dank ihnen war genügend Spielraum, um neben dem Bild weitere Daten zu übertragen - ich persönlich mag es, wenn auch der Ton gleich mit über das Videokabel kommt. Und noch viel mehr mag ich es, mit Technik experimentieren zu können, ohne auf ein Hardwaremuseum angewiesen zu sein. Ein HDMI-Signal, das zur ersten Version des Standards kompatibel ist, kann ich problemlos im FPGA erzeugen. Auch ein 8k-Monitor, den ich heute kaufe, kann das darüber übertragene Bild darstellen - auch wenn er damit weit hinter seinen Möglichkeiten bleibt.
Update:
Der Artikel wurde auf seine Aktualität überprüft und entsprechend angepasst.



