Vochlea Dubler (Foto: Vochlea)
Kurz vor Jahresende kursierten faszinierende Videos im Netz, in denen zu sehen und zu hören war, wie auf geradezu magische Weise Beatboxing-und Gesangseinlagen offensichtlich in Midi-Daten umgewandelt werden. Folgt man den Links, gelangt man zur Homepage des englischen Startups Vochlea, die diese Zauberei mit ihrem Dubler StudioKit Wirklichkeit werden lassen. Wir haben uns natürlich sofort ein Testgerät reserviert, um den Trick für euch nachvollziehbar zu machen.
Dubler Studio Kit
Ursprünglich sind Vochlea als Kickstarter-Kampagne angetreten und konnten mit rund 1128 Unterstützer*innen die Anfangsfinanzierung locker stemmen. Zwischenzeitlich wird das Produkt regulär über den Webshop vertrieben und Gespräche mit Vertrieben sind bereits am Laufen. Bestellt man das – inklusive Versand – rund dreihundert Euro teure StudioKit, bekommt man nach einigen Tagen eine ausgesprochen hübsch gestaltete kleine Kiste ins Haus, in der sich ein dynamisches USB-Mikrofon samt Kabel sowie eine Download-Code-Karte für die eigentliche Dubler-Software findet. Da ich mir gut vorstellen kann, dass euch (mir auch) diese Frage direkt in den Sinn kommt: Das Mikrofon ist ein ganz normales USB-Mikrofon und hat nichts mit der Audio-To-Midi-Konvertierung zu tun. Entsprechend funktioniert Dubler auch mit anderen Mikrofonen. Vochlea weisen ausdrücklich darauf hin, dass sie eine zuverlässige Funktion des Systems nur im Zusammenspiel mit dem mitgelieferte Mikrofon gewährleisten können.
Dubler
Das Herzstück der gesamten Audio-to-Midi-Konvertierung ist die App Dubler (PC/MAC). In ihr passiert die Zuordnung von Audio-Events zu Midi-Daten. Praktischerweise haben Vochlea sie so konzipiert, dass sie Audiomaterial von jedem (!) an den Rechner angeschlossenem Audiointerface entgegen nimmt und nicht nur vom mitgelieferten Mikrofon. Das bekommt von mir ein dickes Plus, denn so lässt sich mit verschiedenen Setups experimentieren. Aber wie schon gesagt: das läuft dann gewissermaßen auf eigene Gefahr, da Dubler – laut Hersteller – auf die Zusammenarbeit mit dem inkludierten Mikrofon optimiert ist. Ein im Test heran gezogenes Headset-Mikrofon von „Teenage Engineering“ (M-1) funktionierte dennoch einwandfrei.
Die Dubler-App unterscheidet zwischen zwei verschiedenen Arten von Audio-Events: Kurze, atonale Trigger und lineare Noten. Entsprechend findet sich in der linken Hälfte des Bildschirms eine Sektion, in der Trigger definiert werden können, in der rechten sieht man dagegen ein großes Skalenrad, das die erkannte Note visualisiert und vier klein Anzeigen, die darstellen, wie groß die Wirkung der Vokale A,E,O und die Lautheit ist.
Trigger
Damit Trigger – beispielsweise zur Steuerung von Drumsounds – erkannt werden, müssen sie zunächst einmal definiert und „angelernt” werden. Zum Hinzufügen eines neuen Triggers klickt man einfach auf das zentrale Plus-Symbol, woraufhin eine neues Trigger-Symbol erscheint. Dieses kann nun mit zwölf Samples „angelernt” werden. Das können alle möglichen Audio-Ereignisse sein: von einem guturalen Umpf, über ein Fingerschnippen bis hin zum Klopfen auf dem Tisch. Danach legt man noch fest, auf welche Midi-Note der Trigger übersetzt werden soll und ob auch die registrierte Lautheit einbezogen wird. Auf diese Weise baut man sich relativ zügig ein Set zusammen, das auf einem der sechzehn Midi-Kanäle an die DAW weiter gereicht wird. Je nachdem wie eindeutig die Trigger sind – sowohl bei der Definition, wie auch bei der anschließenden Performance – funktioniert das erstaunlich gut. Man muss hier allerdings anfänglich ein bisschen probieren: Definiert man ein guturales Umpf als Kick und plosives Dunt als Snare und verwischen beide dann beim anschließenden Beatboxen zu irgendwelchen tieffrequenten Lauten, fällt auch Dubler die Unterscheidung schwer, und es spuckt mal eine Kick und ein anderes Mal eine Snare aus. Hat man dagegen eine eindeutige klangliche Trennung, beispielsweise, indem man einen plosive Untz-Beatbox-Laut als Kick, ein zwischen den Zähnen gezischeltes Ts als Hihat und ein Fingerschnippen als Snare definiert und performt das anschließend auch sauber, liegt die Trefferquote von Dubler bei rund achtzig Prozent. Aber: das Mikro in einer Beatbox-Session weiter zu reichen, so dass der/die Nächste hier weiter die Drums triggert, funktioniert nicht so einfach – es sei denn, beide Beatboxer*innen geben wirklich die gleichen Laute von sich. Überhaupt empfand ich es eigentlich als am Faszinierendsten (mehr noch als der Transfer von Beatbox-Sounds), Alltagsgegenstände mit klanglicher Drum-Funktionalität auszustatten. So wurde beispielsweise aus einem kleinen Küchenensemble aus zwei Gläsern, einer Plastikschüssel und einer Kiste, in Verbindung mit zwei Chopsticks, ein virtuelles Drumset. Und wenn im Ergebnis dann beim Anschlagen der simplen Plastikbox ein mächtiger 808-Kick getriggert wird und der Karton eine staubtrockene Snare auslöst (die Gläser übernahmen in diesem Setup die Hihat), ist das schon ziemlich abgefahren. Schwierig wird es auch hier, wenn Sachen gleichzeitig erklingen – liegen sie akustisch nah beieinander (wie im Beispiel die Plastikbox und der Karton) kommt es häufiger zu Fehl-Triggern. Wie auch beim Beatboxing sollte man hier immer im Hinterkopf behalten, dass ein einmal angelerntes Trigger-Set auf die exakte Reproduktion der Trigger-Sounds angewiesen ist, um zu funktionieren. Tauscht man im o.g. Beispiel etwa das Sieb gegen eine Flasche, funktioniert die Sache nicht mehr richtig.
Skalen
Natürlich lässt sich Dubler auch mit tonalem Material füttern. Das muss übrigens nicht zwingend Gesang sein: Von der Trompete, über die Blockflöte bis hin zum Synthesizer kommt hier so ziemlich jede monophone – also einstimmige – Klangquelle in Betracht. Da ich mich in Bezug auf die Intonationssicherheit noch ein gutes Stück weit unterhalb von Neil Young auf Harvest Moon bewege (was der Großartigkeit des Albums natürlich keinen Abbruch tut – im Gegenteil), war mein Gesang natürlich kein guter Referenzpunkt, um die Genauigkeit der Tonanalyse auf den Prüfstand zu stellen. Um die Tonhöhenerkennung also verlässlich auf ihre Treffsicherheit zu testen, nahm ich die gute alte Honer-Harmonika aus der Hochphase meiner Dub-Leidenschaft zur Hand, respektive in den Mund. Dabei zeigt sich, dass Dubler eine gewisse Gemütlichkeit und Schlunzigkeit an den Tag legt, wenn es um die Entscheidung für eine Note geht. Triller oder kurze Vorhalte „überhört” die Software häufiger mal. Dafür verweilt sie bisweilen mit störrischer Standhaftigkeit auf falsch erkannten Noten. Und das auch dann, wenn man den Parameter Stickiness – also die Trägheit, mit der Noten adaptiert werden – auf das Minimum dreht. Um Fehlanalysen dennoch zu reduzieren, bietet Dubler verschiedene Filter. Das ist zum einen die Erkennung bestimmter Noten, zum anderen gibt es unterschiedliche Skalen-Eingrenzungen. Ist diese Funktion aktiviert, werden Skalen-fremde Noten auf die nächstgelegene Note quantisiert. Wählt man eine pentatonische Skala, ist auch die automatische Generierung von Akkorden möglich. In der Summe zeigt sich auch hier, dass der Algorithmus gerne „klare Ansagen” hat. Zaghaftes Ansingen und unentschiedenes Mäandern zwischen den Noten mag er gar nicht. Singt man Töne dagegen mit einem deutlichen Pah oder Bah an, liefert Dubler überwiegend die zutreffende Note.
Zusätzlich zur Tonhöhe hört Dubler auch auf die Lautstärke und die Vocale a, e, o, die sich aus der App heraus auf beliebige Controller-Werte adressieren lassen und im Anschluss in der DAW auf Modulationsziele gemappt werden können. Der erste Gedanke, den die meisten User hier wohl haben werden, ist, das Filter eines Synthesizers über die Klangformung mit dem Mund zu steuern – so auch bei mir. Und ja: der Trick funktioniert. Mit ein bisschen Parameter-Tweaking (u. a. Wertebereich eingrenzen) und durch Hinzunahme des Lautstärke-Parameters (Env) bekommt man so wirklich dynamische Steuerungen allein mit der Vocalformung der Stimme zum Laufen. Komplette Setups aus Triggern, Skalen und Midi-Zuweisungen lassen sich in Form von Profilen verwalten. Überhaupt ist die Dubler-App grundsätzlich eine sehr gelungene Software: Sie ist optisch ansprechend, funktional gut strukturiert und im Handling selbsterklärend. Will sagen: Sie ist als Plattform zur Weiterentwicklung der Fähigkeiten des Algorithmus gut geeignet.
Praxis
Egal, ob man nun mit Triggern oder Melodien arbeitet: Kopfhörer sind bei der Benutzung von Dubler Pflicht, denn alles, was man über Lautsprecher in den Raum gibt, wird von der Software natürlich entgegen genommen und führt zu Fehl-Auslösern von Noten. Mein Versuch, mich am akustischen Piano zu begleiten, während ich mit der Stimme einen Lead-Sound steuere, schlug entsprechend fehl, weil Dubler die vom Piano kommenden Noten dem Lead-Sound zuzuordnen versucht. Also: Kopfhörer auf, damit Dubler nur das wirkliche Nutzsignal zu hören bekommt. Eine weitere Einschränkung, auf die man achten sollte: Dubler selbst benötigt – je nach CPU-Power (in unserem Test i7 2,8 Ghz) – einige Millisekunden zum Transfer der Noten, wenn dann noch ein hoch eingestellter Audio-Buffer dazu kommt, weil man gerade an einem ziemlich komplexen Projekt arbeitet, kann der Versatz zwischen Audiosignal und Midi-Event so hoch werden, dass die Latenz unangenehm wird. In meinem weitgehend leeren Demo-Arrangement (Puffergröße: 256 Samples) ließ sich mit Dubler dagegen mit befriedigender Responsivität arbeiten.
Fazit
Dubler liegt ohne Frage eine faszinierende Idee zu Grunde und Vochlea haben mit Dubler eine gelungene App programmiert, um den Transfer von Geräuschen und Melodien in Midi-Noten zu steuern. Wer glaubt, er müsse nur die Software installieren, das Mikro anschließen und könne auf Anhieb seine perkussive und tonale Darbietung in den Rechner verfrachten, wird allerdings enttäuscht. Man muss Dubler gewissermaßen zeigen, was man macht und dann die Zuweisung vornehmen, was mit den Midi-Events in der DAW passieren soll. Danach sollte die Performance – im Sinne des Gelernten – „richtig” und „eindeutig” sein, damit man zu den gewünschten Ergebnissen kommt. Es geht also mehr darum, die eigene Artikulation den Bedürfnissen des Algorithmus anzupassen und nicht umgekehrt. Das bewirkt allerdings auch, dass man zu keinem Zeitpunkt vergisst, hier in Interaktion mit dem Rechner zu sein. Trotz dieser Einschränkungen geht von dem Transfer realer Geräusche und Töne in Midi-Daten eine hohe Faszination aus. Auch kann ich mir gut vorstellen, dass die Technologie hinter Dubler längerfristig auch für Menschen mit Behinderungen sehr hilfreich bei der kreativen Arbeit sein kann. Und wo die Reise in Bezug auf Erkennungsgenauigkeit noch hingeht, ist letztlich nur durch die Prozessorleistung und die Raffinesse der Algorithmen begrenzt – Vochlea haben den ersten Schritt jedenfalls gemacht. Das ist im Ergebnis noch nicht perfekt, aber es funktioniert.
Herstellerwebsite: vochlea.com
Plugin-Format: WINDOWS/MAC OS X (64-Bit), Standalone App
Preis: rund 300 Euro