Die künstliche Intelligenz hat bereits seit einigen Jahren Einzug gehalten, in das Leben des Menschen. Bedingt durch die stetige Weiterentwicklung der künstlichen Intelligenz ist es bereits möglich, in vielen Bereichen den Menschen regelrecht zu ersetzen. Diese Entwicklung kann sicherlich mit zwiespältigen Gefühlen betrachtet werden, da der Einsatz der KI auch immer ein Stück weit den Verlust des Bedarfs an menschlicher Arbeitskraft entspricht. Bei aller Einsatzvielfalt der KI gibt es aber immer noch Bereiche, in denen der Mensch der KI überlegen ist. Wer eine Audiodatei in schriftlicher Form wiedergeben möchte, der wird nicht selten vor große Herausforderungen gestellt, bei denen die KI nur sehr eingeschränkt weiterhelfen kann.
Die Schwächen der KI
In erster Linie sollte niemals vergessen werden, dass eine KI immer auch von einem Menschen programmiert und entwickelt wurde. Dies bedeutet, dass auch die beste programmierte KI auf gar keinen Fall den Status der Perfektion erreicht hat. Überdies ist auch das Wissen um die Arbeitsweise der KI in diesem Zusammenhang sehr wichtig, da dieses Wissen die Ergebnisse der KI ein Stück weit erklärt. Jede KI beruht auf einem sogenannten Algorithmus, welcher die Verhaltensmuster der KI vorschreibt. Dieser Code ist sozusagen der Handlungsrahmen der KI. Jede noch so gute KI kann diesen Handlungsrahmen nicht eigenständig verlassen, sodass der Handlungsrahmen auch die Grenzen der KI definiert. Dies wird besonders deutlich im Bereich der Transkriptionen.
Die Grundproblematik bei der Transkription
Heutzutage ist es für Studenten sowie auch für Journalisten nicht mehr so einfach, eine erfolgreiche Arbeit abzuliefern. Die wissenschaftlichen Anforderungen an die Qualität der Arbeiten ist gestiegen und es wird überdies auch wesentlich genauer hingeschaut. Eine KI kann transkribieren, jedoch kann sie die Kernaussage bzw. Botschaft des Textes nicht erfassen. Der Grund hierfür ist logisch nachvollziehbar. Die KI arbeitet rein auf der Basis der technischen Fakten. Die Sprache jedoch ist etwas urmenschliches und dazu hat jede Sprache ihre gänzlich eigenen Regeln und Gewohnheiten. Ein Text hat neben der reinen Botschaft auch immer einen Sinn, der nicht selten auch auf Emotionen basiert und nicht selten ergibt ein Satz nur in Verbindung mit einem vorangegangenen Satz oder einem darauffolgenden Satz auch wirklich Sinn. Eine KI ist jedoch nicht in der Lage, diese schwer beschreibbaren Werte vollständig zu erfassen oder sie gar vollständig in Textform wiederzugeben. Auch die schriftliche Wiedergabe von Audioformaten mit mehreren Sprechern überfordert die KI aktuell noch.
Ein weiteres Problem im Zusammenhang mit der Transkription ist auch immer die individuelle Aussprache der Person, welche die Audioquelldatei aufgenommen hat. Allein in Deutschland gibt es mehrere Dialekte, die nicht selten schwer verständlich sind. Während ein geübter Mensch aus dem Norden mit ein wenig Aufwand noch in der Lage ist, diesen Dialekt zu verstehen, scheitert die KI in der Regel daran. Da jedoch das Verständnis der gesprochenen Botschaft für die korrekte schriftliche Wiedergabe essenziell wichtig ist, sollten Journalisten oder Studenten für ihre publizierten Werke bzw. Arbeiten eher auf ein erfahrenes Transkriptionsbüro setzen, als einer KI zu vertrauen. Jeder Mensch, der sich einmal mit einem Servicecomputer am Telefon auseinandersetzen musste, wird anschließend die KI mit anderen Augen sehen.
Warum sollte der Mensch für die Transkriptionen eingesetzt werden?
Bedingt durch den Umstand, dass eine KI innerhalb ihres Codes lediglich einprogrammierte Tätigkeit ausübt, wird ein Mensch der künstlichen Intelligenz stets voraus sein. Anhand des Beispiels eines standardisierten Interviews werden die Grenzen der KI besonders deutlich aufgezeigt, da ein Standard Interview auf der Grundlage ganz bestimmter klar definierter Regeln erstellt werden muss. Eine KI ist jedoch nicht in der Lage, diese klar definierten Regeln als solche zu erkennen oder sie einzuhalten, sodass professionelle Hilfe bei der Erstellung eines derartigen Interviews durch den menschlichen Profi auf jeden Fall erforderlich wird. Der Mensch ist, anders als die KI, beim Transkribieren in der Lage, den gesamten Zusammenhalt des zugrundeliegenden Sachverhalts zu erfassen und dementsprechend den Text in den richtigen Kontext zu setzen.
Fazit
Als Fazit muss aktuell daher festgehalten werden, dass derjenige, der eine hochwertige und grammatikalisch korrekte Transkription einer Audioquelldatei haben möchte, sich schon an ein professionelles Transkriptionsbüro wenden sollte. Im Bereich transkribieren ist der Mensch der Technik nach wie vor voraus. Zum einen erfordert eine gute Transkription auch ein Stück weit das Verständnis, was der Urheber der Audioquelldatei meint oder meinen könnte und zum anderen muss auch immer der gesprochene Sachverhalt sinngemäß korrekt wiedergegeben werden können. Der effektive Einsatz einer KI stellt hohe Ansprüche an die Aussprache des Menschen, um eine wortwörtliche Transkription zu erreichen. Von einer qualitativ hochwertigen Transkription, die im Hinblick auf die Grammatik und den Satzbau sowie die Schreibqualität gewisse Mindestansprüche erfüllen muss, kann jedoch bei dem Einsatz einer KI niemals die Rede sein. Transkriptionen, die alleinig wortwörtlich durchgeführt werden, ergeben in der Regel nur bei einfachsten Sachverhalten auch wirklich einen Sinn. Gerade bei wissenschaftlichen Arbeiten jedoch kann in den seltensten Fällen von einfachsten Sachverhalten gesprochen werden, sodass die KI in diesem Bereich aktuell nur unbrauchbare Ergebnisse abliefert.
Titelbild von kung_tom | shutterstock