Der Fall der verschwindenden Daten
Jesse Dunietz ist Ph.D. Student der Informatik an der Carnegie Mellon University und Gründungspräsident des Programms Public Communication for Researchers.
Die 1990er Jahre waren eine harte Zeit. Es gab Crystal Pepsi. Da war die Macarena. Und reden wir gar nicht erst von Tickle Me Elmo. Aber eines der frustrierendsten Dinge, an die ich mich erinnern kann, war die wahnsinnige Trägheit des Internets. Jedes Mal, wenn ich eine PowerPoint-Präsentation für die Schule per E-Mail verschicken musste, schaltete ich das Modem ein, wartete auf die Pieptöne und Pfiffe, startete den Upload und ging zu Abend essen, und vielleicht hatte ich bis zu meiner Rückkehr meine einzige miese E-Mail gesendet.
Wenn ich wirklich in Eile war, hatte ich einen Trick im Ärmel: die Datei zu „zippen“ oder zu komprimieren. Programme wie WinZip können eine 80-MB-PowerPoint-Präsentation abrufen, für einen Moment davon tuckern und sie in eine ZIP-Datei packen, die genau dieselbe PowerPoint-Datei enthält, die jetzt auf ein Drittel der Größe reduziert ist.
Als ich diesen Trick zum ersten Mal lernte, dachte ich mir nichts dabei. Je länger ich jedoch darüber nachdachte, desto mehr kam mir das Komprimieren von Dateien wie schwarze Magie vor. Die Datei war kleiner, aber offensichtlich verschwanden tatsächlich keine Daten, da der Empfänger das Original immer noch wiederherstellen konnte. Es war, als könnte man ein 6-Fuß-Paket nehmen, es für den Versand in einen 2-Fuß-Karton legen und am anderen Ende das ursprüngliche 6-Fuß-Paket herausnehmen. Wo sind in der Zwischenzeit alle Daten geblieben?
Luft absaugen
Die Paketanalogie weist auf eine mögliche Antwort hin. Schließlich erscheint es durchaus vernünftig, dass Sie Ihr Paket verkleinern könnten, wenn es etwas Aufblasbares enthalten würde – beispielsweise einen großen Gymnastikball. Anstatt den Ball so zu versenden, wie er ist, können Sie einfach die Luft aus dem Ball ablassen und ihn in eine kleinere Schachtel stecken, mit Anweisungen zum erneuten Aufblasen auf der anderen Seite. Leider bringt uns diese Analogie nur bis zu einem gewissen Punkt: Der Ball besteht größtenteils aus Luft, die niemandem etwas ausmacht, wenn er verloren geht, aber ich wäre sehr verärgert, wenn WinZip anfangen würde, Teile der Präsentation herauszuschneiden, die ich gerade zwei Tage lang erstellt habe. Welche Luft kann aus einer PowerPoint-Datei abgesaugt werden?
Um dies zu erreichen, nutzen Computer einige der gleichen Tricks, auf die wir Menschen angewiesen sind, um die Welt um uns herum zu verarbeiten. Stellen Sie sich zum Beispiel eine Situation vor, in der ein Mensch viele Daten merken muss: das Erlernen eines Musikstücks. Stellen Sie sich konkret vor, Sie wären der Snare-Drummer von Ravels berühmtem „Boléro“:
Ein paar Momente des Hörens dieses Stücks sollten deutlich machen, dass es eine Menge Trommelschläge gibt – 4.050, um genau zu sein. Das ist eine Menge Timing, an das man sich erinnern sollte. Ihre Arbeit wird jedoch viel einfacher, sobald Sie feststellen, dass der Snare-Drum-Part eine fast unerträgliche Redundanz aufweist. Bis zu den letzten Sekunden besteht der gesamte Teil aus einer einzigen Sequenz von 24 Schlägen, die immer wieder wiederholt wird. Aus psychologischer Sicht gibt es nur eine Informationseinheit – einen Chunk – den Sie im Auge behalten müssen. Anstatt sich jede Note des gesamten Stücks zu merken, können Sie die Sequenz einfach auf „Chunk Chunk Chunk…“ reduzieren.
Dies ist identisch mit der Art und Weise, wie Ihr Computer eine Datei komprimiert. So wie ein Musiker nach Struktur in einem Musikstück sucht, sucht ein Komprimierungsprogramm nach Abschnitten, die sich in der gesamten Datei wiederholen, und ersetzt sie alle durch Kurzschriften. Nehmen wir zum Beispiel an, dass in meiner Schulpräsentation der alte Zungenbrecher stand: „Wie viel Holz könnte ein Waldmurmeltier fressen, wenn ein Waldmurmeltier Holz fressen könnte?“ (Ich war ein seltsames Kind, okay?) Das Programm würde bemerken, dass „wood“, „could“ und „chuck“ sich alle in der Phrase wiederholen, also würde es jedes einzelne durch einen Chunk-Namen ersetzen – zum Beispiel „X“, „Y“ und „Z“ (siehe Abbildung unten). Diese überflüssigen Teile sind die Luft, die aus dem Dokument gesaugt wird.
© Quelle: Jesse Dunietz
Natürlich muss der empfangende Computer immer noch wissen, was jede dieser Abkürzungen bedeutet, daher speichert das Komprimierungsprogramm auch eine Tabelle, die jede Kurzschrift definiert – eine Symboltabelle (rechts im Diagramm dargestellt). Diese Tabelle entspricht den Anweisungen zum erneuten Aufblasen des Balls: Sie sagt dem Computer am anderen Ende, wie er das Originaldokument rekonstruieren soll.
Redundanz erklärt das Geheimnis der Komprimierung und schlägt viele Möglichkeiten vor, die über Symboltabellen hinausgehen, um Daten weiter zu komprimieren. Tatsächlich ist unsere Angewohnheit, riesige Mediendateien wie Lieder und Videos zu verschicken, nur möglich, weil clevere Methoden zur Beseitigung weiterer Redundanzen zum Einsatz kommen. Aber hinter dieser Erklärung verbirgt sich noch ein weiteres Geheimnis. Wenn so viel Redundanz herausgedrückt werden muss, wirken meine ursprünglichen PowerPoint-Dateien unverzeihlich ausführlich. Warum eine 80-Megabyte-Datei speichern, wenn 30 Megabyte ausreichen?
Natürlich waren sich die PowerPoint-Designer darüber im Klaren, dass sie die Dateien komprimieren konnten, aber die Größe war nicht das Einzige, worüber sie sich Sorgen machen mussten. Stellen Sie sich vor, Sie müssten Ihren Gymnastikball jedes Mal, wenn Sie ihn verwenden möchten, zuerst aufpumpen und dann wieder ablassen. Das wäre äußerst platzsparend, aber nicht besonders praktisch. Mit unseren kognitiven Ressourcen stehen wir vor dem gleichen Kompromiss zwischen Raumeffizienz und Bequemlichkeit: Man könnte jedes Mal, wenn man kocht, herausfinden, wie viele Tassen ein Pint enthält, aber irgendwann wird es einfacher, es sich einfach zu merken. Wenn Ihr Computer eine Datei jedes Mal dekomprimieren müsste, wenn er sie liest, würde sich jede Aktivität auf dem Computer ähnlich anfühlen wie in diesen 56-KB-Modem-Tagen. Die Redundanz beizubehalten bedeutet mehr Daten, aber auch viel weniger Aufwand.
Für Computer ist Redundanz genau wie für Menschen ein Kompromiss. Zu wenig Redundanz und Sie müssen nicht alle zwei Sekunden die gleichen Informationen neu ableiten. Zu viel Redundanz, und der Feuerwehrschlauch eines Netflix-Videos sprengt Ihren Gartenschlauch einer Internetverbindung.
Es ist gut, dass wir normalerweise die richtige Balance finden – nur dank Redundanz und Komprimierung kann ich eine Kopie von Shawshank Redemption herunterladen und reibungslos auf meinem Laptop abspielen. Ohh, und Braveheartund The Matrix und Schindlers Liste auch. Vielleicht waren die 90er doch gar nicht so schlimm.
flickr/bootload
Dieser Artikel wurde ursprünglich am 1. Oktober 2014 veröffentlicht