News

In der Entwicklung bei Adobe: VoCo

In der Entwicklung bei Adobe: VoCo
Gesprochenes in Audiodateien per Texteingabe ändern

So richtig lässt mich die Adobe MAX dann doch nicht los, schließlich gibt es in den Präsentationen der Veranstaltung noch mehr zu entdecken. Daher soll es nochmals weitergehen mit Inhalten, die auf der Adobe-Veranstaltung präsentiert wurden. Was das letzte CC-Update gebracht hat, wissen wir nun. Doch wie geht es weiter? Was darf künftig erwartet werden?

Das Unternehmen hat auf der Adobe MAX insgesamt elf „Sneaks“ vorgestellt, also sich in der Entwicklung befindliche Projekte, die möglicherweise auch irgendwann den Weg zu uns finden werden. Schauen wir uns diese einmal genauer an. Starten möchte ich hier mit „VoCo“:

Das Programm eignet sich zur einfachen Bearbeitung von Stimmaufnahmen. So können gesprochene Wörter per Texteingabe ganz einfach ausgetauscht werden. Im ganz unten stehenden Video erläutert der Vortragende auf der Adobe MAX das Vorgehen und die Möglichkeiten anhand des Beispielsatzes: „And I kissed my dogs and my wife.“

Die Audiodatei wird nun nach VoCo geladen, wo sowohl die Tonspur als auch die Transkription des Gesprochenen als Text angezeigt wird. Spielt man das Ganze ab, wird in beiden Bereichen live angezeigt, an welcher Stelle man sich gerade befindet.

Adobe VoCo
VoCo im Einsatz (das graue Fenster): Zu sehen ist sowohl die Tonspur als auch die vertextlichte Variante des Gesprochenen, die editiert werden kann (Bildquelle: Screenshot aus dem Video "VoCo" von der Adobe MAX 2016)

Problematisch an dem Beispielsatz ist nun, dass der Sprecher vielleicht doch lieber seine Frau küssen möchte, bevor er sich den Hunden zuwendet. Um dies zu gewährleisten, kann natürlich wie üblich das entsprechende, gesprochene Wort „wife“ aus der Waveform ausgeschnitten und an die Stelle der „dogs“ gesetzt werden.

Doch VoCo macht die Sache noch einfacher: Hier ist es möglich, den transkribierten Text zur Bearbeitung der Audiodatei zu nutzen. Bedeutet: Man markiert das geschriebene Wort „wife“ und tauscht es per Copy & Paste aus mit dem geschriebenen Wort „dogs“. Im Ergebnis sagt der Sprecher nun: „And I kissed my wife and my wife.“

Gut, das könnte nun auch zu Missverständnissen mit der Ehefrau führen. Wo sind die Hunde geblieben? Oder, um es mit den Worten des Präsentierenden zu sagen: „How can we let the dogs out?“ Ganz einfach, indem man das Wörtchen „dogs“ eintippt.

Bislang ist das kein wirkliches Hexenwerk, wird der Text doch ganz einfach nur den entsprechenden Zeitpunkten in der Waveform der Audiodatei zugeordnet (so vermute ich zumindest) und es werden bislang nur Abschnitte verwendet, die so als gesprochener Text in der Aufnahme sowieso vorhanden sind („wife“ und „dogs“). Bis dahin lässt sich das also auch mit der Waveform und üblichen Verfahren halbwegs gut bearbeiten.

Das wirkliche Highlight des Programms folgt jedoch noch: Man kann nämlich auch Texte einfügen, die so gar nicht gesagt wurden. Und so wird im Video dann auch der ursprüngliche Satz abgeändert in: „And I kissed Jordan and my wife.” Wie sich das dann anhört, hört ihr bei Minute 3:52. Das geht auch mit mehreren Worten: „And I kissed Jordan three times.“ (zu hören bei Minute 4:39).

Man könne gar noch längere Textabschnitte bearbeiten. Notwendig hierfür ist ein Audio-File des Sprechers mit typischerweise mindestens 20 Minuten Laufzeit, die das Programm nutzt, um die Charakteristik der Aussprache der Person zu analysieren und dann auf neue Worte anzuwenden. Geeignet ist VoCo damit vor allem für die nachträgliche Glättung von zum Beispiel Hörbüchern oder – das fiele mir jetzt noch ein – Video-Tutorials.

Hier die durchaus unterhaltsame Präsentation des Programms:
 

Wer sich bereits vorab über weitere Entwicklungen informieren möchte, der kann sich auf die Sneaks-Seite im Adobe-Blog klicken. Ansonsten habe ich aber anvisiert, die Dinge in kommenden News einmal nach und nach zu betrachten.

Euer Jens

Bildquelle Vorschau und Titel: Screenshot aus dem Video "VoCo" von der Adobe MAX 2016

Was sagst du dazu?

Teile deine Meinung oder Erfahrung mit anderen Mitgliedern und sichere dir jeweils 5 Punkte!

Weiter zu den Kommentaren

Ähnliche Artikel

Lernen wir bald alle nur noch über YouTube?

Lernen wir bald alle nur noch über YouTube?

Vor wenigen Tagen konnte ich auf Spiegel Online lesen, dass fast jeder zweite Schüler YouTube-Videos gezielt zum Lernen nutzt. Wow....

Weiterlesen

Natural Instincts – zurück zum Wesentlichen

Natural Instincts – zurück zum Wesentlichen

Auch 2019 präsentiert Adobe Stock die Trends des Jahres. Den Beginn machen die „Natural Instincts“. Lasst euch von emotional...

Weiterlesen

Logo-Trends 2018

Logo-Trends 2018

Farbverläufe, Serifen, Gold und zerschnittene Schriftzüge – der Logo-Trend-Report der LogoLounge steckt voller Inspiration. Mit...

Weiterlesen

Kommentare
Achtung: Du kannst den Inhalt erst nach dem Login kommentieren.
Portrait von LikeLowLight
  • 16.11.2016 - 06:29

Fälschung ist Fälschung. Für Hörbücher werden ausgebildete Sprecher verwendet, außer es handelt sich um sogenannte Autorenlesungen, bei denen Autoren i.a. entweder ihre Fähigkeiten überschätzen oder sich kein Produzent fand, der einen Sprecher bezahlen wollte.
Dass Video-Tutorials meist von Leuten präsentiert werden, die weder die didaktischen noch die sprachliche Fähigkeiten besitzen, ist leider gängige Praxis. Das gilt nicht nur für YouTube-Selbstdarsteller, sondern auch für solche, die sich ihr Produkt bezahlen lassen. Doch scheinen Leute durch die 50x7x24 Fernsehstunden daran so gewöhnt zu sein, dass ihnen dies nicht mehr auffällt, hauptsächlich in jedem verhaspelten Satz kommen ein oder zwei denglische Wörter vor.

Alternative Portrait
-versteckt-(Autor hat Seite verlassen)
  • 13.11.2016 - 18:06

Ja, wer braucht das schon?

Ein Staatsanwalt eventuell - zur Harmonisierung nicht ganz geglückter Überwachungsvideos,
oder ein kleiner Gauner - zur Untermauerung seines Erpresserbriefes,
oder die Politik ganz allgemein - zur Verunglimpfung der jeweils anderen Meinung ...

da sind noch viele Tummelfelder ...

Portrait von Nedsch
  • 12.11.2016 - 13:24

Ganz interessant. Wobei diese amerikanischen Präsentationen ja schon leicht nervig sind. Das Publikum ist mir in der Regel etwas zu euphorisch. Na, andere Länder andere Sitten. In Deutschland würde vermutlich keiner eine Miene verziehen.
Vor allem weil der Nutzen der Software ja sehr speziell ist. Wer braucht das schon außer Ton-Leuten?

x
×
×