Layout

Stephan Brandt

Vortrag zur Bereichsleitertagung des Bundesverbandes Selbsthilfe Körperbehinderter e.V.
am 22. Oktober 2005 in Rheinsberg

Die Nutzung des PC in der Selbsthilfearbeit
- Einsatzmöglichkeiten und Steuerung
mit der Spracherkennung -



 

Prolog

< Wach auf!>
»Vera, melde dich bitte.«
    Computerstimme: »Hallo Chef, hier spricht Vera, was kann ich für Sie tun?«
»Stelle dich den Damen und Herren vor, bitte.«
    Computerstimme: »Gerne. Ich bin also Vera, die Stimme von Toshiba- Satellite S     1900-101, die Stimme des Computers von Herrn Stephan Brandt. Mein Prozessor arbeitet mit 1,8 GHz und ich verfüge über einen Arbeitsspeicher von 654 MB RAM.«
»Lass uns arbeiten, bitte.«
    Computerstimme: »Was sollen wir tun?«
»Spracherkennung ganz praktisch demonstrieren, bitte.«
    Computerstimme: »Möchten Sie dazu in Microsoft Word diktieren?«
»Ja, sei so gut, bitte.«
    Computerstimme: »O.K., kommt sofort!«

Begrüßung per Spracherkennung

Meine sehr geehrten Damen und Herren <Komma>, <neue Zeile>
ich bedanke mich sehr für die Einladung <Komma>, heute vor <groß> Ihnen sprechen zu dürfen <Punkt>. Und dies vor allem in der Form <Komma>, dass <groß> Sie meine gesprochene Begrüßung fast in Echtzeit als Textverarbeitung auf der Projektionswand verfolgen können <Punkt>. <neue Zeile>
Das tue ich ganz besonders gerne <Komma>, weil ich in <groß> Ihnen <Komma>, den Damen und Herren Bereichsleitern des Bundesverbandes Selbsthilfe Körperbehinderter e.V. <Komma>, ein sehr fachkundiges Publikum vor mir habe <Punkt>. <neuer Absatz>
Das Thema <Komma>, zu dem ich heute zu Ihnen sprechen will <Komma>, befasst sich mit der Nutzung <Komma>, den Einsatzmöglichkeiten und insbesondere der Sprachsteuerung des PCs in der Selbsthilfearbeit für körperbehinderte Menschen <Punkt>. <neue Zeile>
Dabei konzentriere ich mich innerhalb dieses umfangreichen Themas insbesondere auf zwei Punkte <Doppelpunkt>: <neue Zeile> <Aufzählungszeichen>

  • auf die Texteingabe per Sprache in ein Spracherkennungsprogramm und andere Anwendungen sowie <neue Zeile>
  • auf die Steuerung des PC durch Sprachbefehle <Punkt>. <neue Zeile> <zwei mal Rücktaste> <neue Zeile>

Natürlich werde ich dabei auch auf einige Randbereiche eingehen wie allgemein auf die behindertengerechte Einrichtung von PC-Arbeitsplätzen <Punkt>. Aber <Komma>, wie gesagt <Komma>, der Hauptgegenstand ist die Spracherkennung und die Sprachsteuerung <Punkt>.

< An dieser Stelle beende ich die Angaben von Spracherkennungsbefehlen in spitzen Klammern, um Ihnen die Lesbarkeit des Skripts zu erleichtern. >

Doch bevor wir in diese spannenden Themen einsteigen, darf ich mich Ihnen noch einmal kurz vorstellen, damit Sie wissen, mit wem Sie es zu tun haben.

Waz-ArtikelMein Name ist Stephan Brandt, ich bin 62 Jahre alt, verheiratet, Vater erwachsener Kinder und ein in seine dreijährige Enkelin verliebter Großvater.
Ich bin seit über 20 Jahren in der Erwachsenenbildung tätig. Dabei führe ich seit Jahren Rhetorik-Kurse durch und seit über zwei Jahren auch Kurse zur Spracherkennung.

Zur Spracherkennung kam ich über das Reden schreiben. Weil eine »geschriebene Rede« leicht zum Referat ausartet, dachte ich mir, es sei sinnvoll, Reden nicht länger auf der Tastatur zu formulieren, sondern so zu diktieren, dass ich mir den diktierten Text danach sofort als Redemanuskript ausdrucken kann.
Der Leidensweg, um dahin zu kommen, war beachtlich. Denn vor 10 Jahren steckte die Spracherkennung noch absolut in den Kinderschuhen.
Und ich habe heute noch mit den Frusterfahrungen der Anfängerjahre zu kämpfen, weil viele Menschen einfach nicht glauben wollen, dass die Spracherkennung funktioniert, ja sogar gut funktioniert.
Inzwischen ist die Spracherkennung an der Schwelle ihrer massenhaften und breiten Einführung. In den USA hat Microsoft seine Office-Programmfamilie bereits mit einem (leider schlechten) Spracherkennungsprogramm versehen. Es wird sicher nur noch wenige Jahre dauern, bis Spracherkennung für PC-Benutzer zur Selbstverständlichkeit wird.
Neben der Einführung der Spracherkennung bei Ärzten, Rechtsanwälten oder Dolmetschern führe ich als Dozent an der Volkshochschule Duisburg und bei anderen Bildungsträgern Seminare und Kurse zur Spracherkennung durch.

Dabei habe ich seit etwa einem Jahr auch Erfahrungen mit dem Training körperbehinderter Menschen für die Spracherkennung gemacht.
Und das ist eine besonders schöne Arbeit. Denn meine körperbehinderten »Kunden« haben sich in der Regel mit sehr großem Ehrgeiz und enormer Energie dem Unterfangen der Steuerung ihres Computers per Sprache und des Diktierens in verschiedenste Anwendungen gestellt.
Und es ist in erster Linie diese sehr positive Erfahrung, die mich motiviert, Ihnen als ausgesprochenem Fachpublikum diese Arbeit vorzustellen. Für die Möglichkeit dazu noch einmal herzlichen Dank an die Organisatoren.

So, jetzt haben Sie an der Projektionswand schon viel von Texteingabe per Sprache miterleben können.

Ich möchte Ihnen nun kurz demonstrieren, wie wir mit Sprachbefehlen die Fehler korrigieren, die natürlich immer noch auftauchen, insbesondere bei dieser etwas prekären Geräuschumgebung.

- (Befehle: Markieren, Korrigieren, Buchstabieren, Formatieren, Weiter bei ...) -

Bevor ich meine bisherigen Aussagen zu einer ersten Diskussion stelle, um danach eine PowerPoint-gestützte Vorlesung über die technische und linguistische Entwicklung der computergestützten Spracherkennung zu halten, möchte ich Ihnen an einigen wenigen Beispielen noch demonstrieren, wie insbesondere körperbehinderte Menschen ihren PC mit Sprachbefehlen steuern können.

Dazu wollen wir diesen Text erst einmal abspeichern. Dazu sagen wir: <Klick Datei>, <Speichern unter>, <Tipp Eingabetaste>.
Jetzt können wir das Programm schließen. Dazu sagen wir: <Klick Datei>, <Beenden>.

Nun befinden wir uns auf dem Desktop. Dort sollten übersichtlich sämtliche Anwendungen als Symbole zu finden sein, so dass ich sie ohne Schwierigkeiten aufrufen kann, zum Beispiel:
<Adobe Acrobat 5.0 öffnen>

Eines der stärksten Instrumentarien für körperbehinderte Menschen ist dabei die Steuerung der Maus per Sprachbefehlen.
Da können Sie mit dem Befehl <Mausraster> über den ganzen Bildschirm (Desktop) oder auch nur über ein spezielles Fenster ein Mausraster legen und damit navigieren, um jeden Punkt anklicken zu können.

Mit diesen Demonstrationen will ich es zunächst einmal belassen.
Bevor wir, wie gesagt, weiter in die Tiefen der Spracherkennung und Sprachsteuerung eindringen, schlage ich eine erste Diskussionsrunde vor, in der ich Ihnen gerne zu dem bisher Demonstrierten Rede und Antwort stehe. Besonders würde ich mich freuen, wenn Sie dabei auch ihre Erwartungen, kritischen Einwände und gegebenenfalls auch Vorbehalte gegenüber der Spracherkennung zum Ausdruck bringen. Erfahrungsgemäß lerne ich dabei selbst mit am meisten.

Bis hierher bedanke ich mich für Ihre Aufmerksamkeit.

- Diskussion -

Meine sehr geehrten Damen und Herren,
Computer - bitte zum Diktat ich darf Ihnen jetzt in dem zweiten Teil meines Vortrags die Spracherkennung für körperbehinderte Menschen etwas gründlicher vorstellen.
Ich will damit beginnen, einiges über das effektive Arbeiten am PC mit und ohne Körperbehinderung darzustellen.
Dann will ich darauf eingehen, wie der Arbeitsplatz eines Körperbehinderten am Bildschirm optimal eingerichtet wird.
Erst dann werde ich mich - und Sie - näher mit der Spracherkennung im eigentlichen Sinne beschäftigen. Dabei werde ich zunächst der Frage nachgehen: Was ist Sprache? Dann: Was ist Spracherkennung? Dann werden wir lernen, wie Spracherkennung auf dem Computer funktioniert. Danach werden wir uns damit beschäftigen, wie der Wortschatz aufgebaut und wie er vor allen Dingen veränderbar ist, um uns dann gemeinsam der spannenden Frage zuzuwenden: Wie lernen wir Spracherkennung am Computer?
Den Abschluss bildet dann ein kurzer Überblick darüber, was Spracherkennungssysteme heute in der Praxis taugen und was das alles kostet.

Bevor ich beginne, bitte ich Sie herzlich, mich jederzeit zu unterbrechen, wenn Sie zu einer Frage kritisch nachhaken oder weitere Informationen wollen. Ich will hier keinen Katheder-Vortrag halten, sondern wünsche mir eine lebendige Auseinandersetzung.
Legen wir also los.

Es geht um das effektive Arbeiten am PC - zunächst einmal mit oder ohne Behinderung.
Dahinter steckt die Frage, für wen Spracherkennung eine sinnvolle Sache ist. Generell ist es das für alle Vielschreiber, weil das Gesprochene dem Geschriebenen in der Geschwindigkeit zunächst einmal haushoch überlegen ist.
Und für körperbehinderte Menschen, die ihre Hände nicht mehr bewegen können, ist die Spracherkennung von außerordentlich großem Nutzen.

Die Grenze der Anwendung der Spracherkennung ist natürlich dort, wo die Sprache nicht oder nicht mehr zur Verfügung steht, für Menschen also, die nicht oder nicht mehr sprechen können.

Wie Sie wissen, sind aber auch diese behinderten Menschen nicht von der Nutzung des PCs oder von der elektronischen Steuerung ihrer Umwelt ausgeschlossen. Der große technische Fortschritt in der elektronischen und mikroelektronischen Technik ermöglicht es heute schwerstbehinderten Menschen, ihre gesamte häusliche Umgebung per Impulsen zu steuern. (Die Frage ist nur, ob sie für diese technische Ausstattung auch einen Kostenträger finden.)

Wir wenden uns nun dem eigentlichen Arbeiten am Bildschirmarbeitsplatz zu. Hier leisten Menschen mit körperlichen Behinderungen landauf landab eine äußerst produktive Arbeit. Denn Bildschirmarbeit ist bei körperlicher Behinderung sehr allseitig möglich. Im Ergebnis geht es hier um die gleiche Leistung, die von allen Menschen, ob behindert oder nicht, erbracht werden kann und erbracht wird. Der einzige Unterschied ist, dass körperbehinderte Menschen dazu zusätzlicher Hilfsmittel am PC-Arbeitsplatz bedürfen.

Steuerungsmöglichkeiten des PC und der Umwelt Technische Hilfen oder Hilfsmittel können dabei eine Behinderung teilweise oder ganz ausgleichen. Solche Arbeitsplatzanpassungen werden seit vielen Jahren von Ingenieuren und Technikern eingeführt. Dabei kommen sie zu Lösungen, die vor kurzem noch undenkbar waren.
Bevor wir entscheiden können, welche Hilfsmittel zum Einsatz kommen sollen, gilt es sehr genau die Art und den Grad der Behinderung festzustellen und gegebenenfalls für jedes besondere Anforderungsprofil eine eigene besondere Lösung zu entwickeln.

Eine der ersten Frage ist natürlich: können Maus und Tastatur noch mit den Händen bedient werden? Wenn das nur eingeschränkt möglich ist, dann kommen verschiedenste Spezialtastaturen und Mäuse sowie Trackballs, Spezialmikrophone, Spezialständer und -halterungen, Arm- und Handauflagen und vieles mehr zum Einsatz.

Natürlich lässt sich der PC, lassen sich Maus und Tastatur auch ohne Hände steuern. Dieser körperbehinderte Mensch (Schaubild) steuert seinen PC per Kopfbewegung an ein Tableau mit einem Laser, dessen Lichtquelle am linken Bügel seiner Brille befestigt ist. Ein Impulsband am Handgelenk sowie rudimentäre Tastenkontakte ermöglichen ihm weitere Befehle.

Blinde Menschen können über Braille-Tasten mit ihrem Rechner kommunizieren und sich zum Beispiel Dokumente vorlesen lassen. Übrigens: auch in die Spracherkennungsprogramme sind Vorlesungsprogramme durch eine synthetische Stimme integriert. Für sehschwache Menschen gibt es eine Menge von Spezialprogrammen für ihren PC, um die Textgröße an ihr Sehvermögen anzupassen.

Steuerung des PCs mit den Augen Auch behinderte Menschen mit vollständiger Bewegungslosigkeit sind nicht von der Bedienung ihres PC ausgeschlossen. Sie steuern die Maus und die Tastatur zum Beispiel per Atemstößen oder mit ihren Augen. Ich habe ALS-Patienten erlebt, die ihren gesamten Computer einschließlich der Textverarbeitung mit ihren Augen steuern und die inzwischen ausgereifte Software mit eindrucksvoller Perfektion bedienten.

Fassen wir zusammen: Für die Steuerung des PC und die Arbeit am Bildschirm gibt es für körperbehinderte Menschen eine Vielzahl von Hilfsmitteln: Tastaturen mit Blindenschrift (Braille), Bildschirmlesesysteme, Kopfmaus, Mundmaus, Augensteuerung, Einhandtastatur, Kopftastatur - und schließlich eben Sprachsteuerung per Sprachbefehlen und Spracherkennung mit der eigentlichen Textverarbeitung.
Für viele körperbehinderte Menschen wird die Spracherkennung und –steuerung Teil einer Gesamtlösung sein. Sie werden sie nutzen zur Beschleunigung der Texteingabe, zum Ausführen von Befehlen per Sprache und zur Entlastung ihres Bewegungsapparates.

Wenden wir uns also der Spracherkennung zu!
Tippen war gestern - Spracherkennung ist heute! Der Computer gehorcht Ihnen aufs Wort.

Wenden wir uns dazu den folgenden Themen zu:
1.    Was ist Sprache?
2.    Was ist Spracherkennung?
3.    Wie funktioniert Spracherkennung auf dem Computer?
4.    Wie ist der Wortschatz aufgebaut und veränderbar?
5.    Wie lernen wir Spracherkennung am Computer?

Was ist Sprache?
Physikalisch kann Sprache definiert werden als der Verlauf des Schalldrucks in Abhängigkeit von der Zeit, hervorgerufen durch das menschliche Artikulationsorgan.
Biologisch kann man Sprache als eine Einzigartigkeit des Menschen, als »sprechendes Entsprechendes« bestimmen.
Klang erreicht das Ohr
Im Computer ist Sprache nichts anderes als eine Folge von Nullen und Einsen.

Machen wir uns an diesem Schaubild deutlich, wie ein Klang unser Ohr erreicht und von dort weiterverarbeitet wird.

Auf dem nächsten Schaubild erkennen wir, wie dies elektronisch passiert über ein Mikrophon und als Sinuskurven auf dem Bildschirm eines Oszillographen sichtbar gemacht wird.

Wir kennen gesprochene und geschriebene Sprache. Natürlich ist die gesprochene Sprache vorrangig. Trotzdem möchte ich jetzt zunächst mit der geschriebenen Sprache beginnen, um später von der gesprochenen Sprache zur Spracherkennung überzugehen.
Wie wird Sprache sichtbar? Die Eigentümlichkeit der geschriebenen Sprache besteht darin, dass sie von Menschen explizit und mühevoll erlernt werden muss, dass sie aus kleinen Bausteinen, den Buchstaben, Silben, Wörtern, Phrasen und Sätzen besteht, dass ihre Syntax und Grammatik die Zusammensetzung der einzelnen Bausteine bestimmen und die Semantik der Begriffe über die Bedeutung - wenn auch nicht immer eindeutig - Auskunft gibt.
Die geschriebene Sprache wurde von den Menschen erfunden und entwickelt, um immer höhere Abstraktionsstufen zu erreichen und neue Begriffe abzuleiten.
Die Entstehung der geschriebenen Sprache ist sehr eng mit dem Prozess der Arbeit und der Arbeitsteilung verbunden, um Handel zu treiben und zu kommunizieren und vor allem, um die Erfahrungen und Kenntnisse der Epoche der Nachwelt zu hinterlassen.
Stein von Rosette Die ersten Schriftsprachen waren Wort-basierte Sprachen und tauchten nach unserer heutigen Kenntnis in Ägypten auf. Der berühmte Fund des Steins von Rosette Anfang des 19. Jahrhunderts gab uns dabei den Schlüssel zur Entzifferung der bis dahin unübersetzbaren Hieroglyphen der alten Ägypter.

Die gesprochene Sprache wird dagegen von Menschen vor der geschriebenen Sprache durch Nachahmung erlernt. Sie entsteht durch Modulation von Anregungen, Filterung und Abstrahlung in Frequenzbandbreiten zwischen 150 Hz und 5,5 kHz. Für die Verständlichkeit reicht die Telefonbandbreite von 300 Hz bis 3,4 kHz.
Die gesprochene Sprache lebt von Sprachmustern, die in spezifischen Gehörsegmenten abgelegt werden. Dabei ist interessant, dass Sprache nicht genetisch vererbt wird. Vielmehr reproduziert das Gehirn eines Menschen die gesamte Entwicklung der Sprache im Zeitraffer. Wo dies im Gehirn geschieht zeigt das folgende Schaubild.

Nach allem, was wir bis jetzt über die Sprache wissen, lassen Sie mich nun die Frage aufwerfen: Was ist Spracherkennung? Die Antwort fällt etwas nüchtern aus: Spracherkennung ist das Erkennen einer Folge gesprochener Wörter (und nicht mehr).
Konrad Zuse
Nun gut, wenden wir uns zur weiteren Erkenntnis darüber der Frage zu: Wie funktioniert Spracherkennung auf dem Computer?
Sie sehen hier einen der ersten Computer aus dem Jahre 1939, der im Deutschen Museum in München ausgestellt ist. Ein Relais-gesteuertes Gerät von dem Erfinder des Computers, von Konrad Zuse. Dieser raumfüllende Computer, der für Volkszählungen eingesetzt werden sollte, hat eine Speicherkapazität, die geringer ist als der auf Ihrer Scheckkarte aufgedruckte Chip.
Mainboard
Und so in etwa sieht heute die Hauptplatine Ihres Computers aus. Uns interessieren jetzt nur ein paar wenige Hauptbestandteile, wie die CPU (Prozessor), der Arbeitsspeicher (RAM), die Grafik- und Soundkarte, die Anschlüsse für Maus/Tastatur und Mikrophon.
Und zusammenfassend kurz die Hardware-Voraussetzungen für Spracherkennungssysteme: Pentium-3 oder 4, Arbeitsspeicher 512 MB RAM und gängige Grafik- und Soundkarte.

Bei der Spracherkennung handelt es sich nicht um ein einheitliches System. Sie lässt sich vielmehr in unterschiedliche Systeme für unterschiedliche Einsatzmöglichkeiten einteilen. Dabei geht es vor allem um zwei grundsätzlich verschiedene Gruppen, um

  • die Steuerung von Maschinen durch Sprachbefehle und
  • das Erfassen von gesprochenem Text.

Dazu diese schematische Übersicht. Uns geht es heute hauptsächlich um »Spracherkennung«, »mit Texterfassung«, »in Echtzeit«, »kontinuierliche Sprache«.

Deshalb nur ein ganz kurzer Ausflug in die Spracherkennung zur Steuerung und Befehlseingabe. Sie erinnern sich an die Folie zu Anfang meines Vortrags, in der es um die Steuerung der häuslichen Umgebung durch Befehle eines körperbehinderten Menschen im Rollstuhl ging, eben auch durch Sprachbefehle.
Geht es um Sprachbefehle zur Auslösung elektrischer Impulse zur Steuerung von Maschinen, dann kommt es auf die absolute Erkennungsgenauigkeit unabhängig vom Sprecher an.
Das bedeutet dann auch, dass sich dieses Spracherkennungssystem ganz bewusst auf einen kleinen Wortschatz beschränkt und nur wenige Befehle programmiert, die von unterschiedlichen Sprechern erkannt werden können.
Dabei gibt es natürlich auch keinen direkten Kontakt zum die Sprache erkennenden Computer. Denken Sie zum Beispiel an die telefonische Auskunft der Deutschen Bahn AG. Wenn Sie dort anrufen, wird das, was Sie gesagt haben, stets wiederholt mit der Aufforderung, die Richtigkeit der Wiederholung mit »Ja« oder »Nein« zu bestätigen.
In der Erprobung sind schließlich Spracherkennungsgeräte zur Befehlseingabe, die gesamte Maschinen, Automaten, Transferstraßen und anderes steuern.

Doch nun zur Spracherkennung zur Texterfassung, worauf ich mich im folgenden konzentrieren werde.
Hier werden gesprochene Wörter in geschriebenen Text umgewandelt. Dazu ist natürlich ein großer Wortschatz notwendig. In den Gründerjahren der Erforschung der Textverarbeitung per Spracheingabe wurden die Texte in so genannten Batch-Jobs, das sind Stapeldateien, angelegt und abgerufen. Heute ist die Forschung so weit, die Spracheingabe in Echtzeit als Textverarbeitung wiederzugeben.

Stimm-Frequenzdiagramm Zur Sprachaufzeichnung mit dem Ziel der Textverarbeitung geht es zunächst darum, Stimmfrequenzdiagramme der jeweiligen spezifischen Stimme zu erzeugen.
Dazu möchte ich noch einmal an das Bild erinnern von der elektronischen Aufzeichnung des Schalls per Mikrophon und der Wiedergabe auf dem Oszillografen.
Und wie auf einem Oszillografen lassen sich auch Stimmfrequenzdiagramme sozusagen analog darstellen als Wellen, die, wie hier demonstriert, unterschiedlich ausfallen, ob nun das Wort »mein« oder »dein« gesprochen wird.
Digitale Stimmaufzeichnung Wie funktioniert nun das Ganze auf dem Computer? Die analoge Stimmaufzeichnung muss digitalisiert werden, das heißt in Bits und Bytes übertragen werden. Denn erinnern wir uns: Sprache auf dem Computer ist nichts anderes als eine Folge von Nullen und Einsen. Unser Ausgangssignal ist die Stimme des Mikrofons. Das Signal ist eine Wechselspannung, wie sie zum Beispiel als Sinuskurve auf dem Oszillografen erscheint. Die unterschiedlichen Spannungen werden zu einem bestimmten Zeitpunkt des Sprechens in einer Reihe von 8 Bit als Spannung abgetastet und umgesetzt - also in Nullen und Einsen. So weit zum Geheimnis der Digitalisierung.

Exakte Frequenzbilder durch deutliche Modulation des Sprechsignals Mit welcher Erkennungsgenauigkeit nun diese Digitalisierung geschieht, das hängt ganz wesentlich von unserer Aussprache ab. Anders gesagt: die Frequenzbilder, die über das Mikrophon aufgezeichnet werden, müssen so exakt wie möglich sein.
Auf diese Frequenzbilder greift das Textverarbeitungsprogramm ständig zurück und ermittelt per Wahrscheinlichkeitsrechnung die größte Übereinstimmung, um das Wort dann tatsächlich auszugeben. Das kann nur eine wahrscheinliche Annäherung sein, denn jeder von uns spricht dasselbe Wort nicht zweimal in hundertprozentig exakt gleicher Weise aus.
Wir können diesen Vorgang positiv dadurch beeinflussen, dass wir möglich artikuliert sprechen. Erfahrungsgemäß lassen sich die besten Ergebnisse erzielen, wenn wir so artikulieren, als wollten wir, dass unser Gegenüber uns die Worte vom Mund abliest.

kontinuierlich und diskret gesprochene Sprache Eine wichtige Entwicklung in der Spracherkennung ist die von der so genannten »diskreten« zur »kontinuierlichen Spracherkennung«.
Die ersten Spracherkennungsprogramme wiesen alle eine diskrete Spracherkennung auf. Das bedeutete, dass - jedes - Wort - für - sich - gesprochen - werden - musste.
Bei einer kontinuierlichen Spracherkennung werden dagegen die Wörter lückenlos aneinander gereiht.
Diese Art der Spracherkennung bildete einen regelrechten Quantensprung in der Entwicklung und Forschung. Denn mit der kontinuierlichen Spracherkennung wurde übergegangen zu einer Erkennung des Textes in seinem Sinnzusammenhang, der so genannten Kontexterkennung. Und es leuchtet ein, dass damit die Erkennungsgenauigkeit ganz enorm gesteigert werden konnte.

Also, wenn ich ein Computer beziehungsweise ein Spracherkennungsprogramm wäre, dann hätte ich mit der Erkennung so mancher Wörter, Ausdrücke und Sätzen auch meine geregelten Probleme. Wie sollte ich erkennen, wie ich das Wort »Mehrwert« schreibe. Woher soll ich wissen, dass hier etwas »mehr wert« ist. Oder woher soll ich wissen, ob der Sprecher über das »Rad« von seinem Fahrrad spricht oder seinem Freund einen guten »Rat« geben will? Das alles lässt sich nur aus dem Kontext heraus bestimmen.

Die kontinuierliche Spracherkennung hat inzwischen einen Entwicklungsstand erreicht, wo ihr ein nahezu unbegrenzter Wortschatz zur Verfügung steht.
Musste in den Anfängerjahren das Vokabular von jedem besonderen Benutzer in seiner spezifischen Sprache gesprochen und eingegeben werden, so stehen heute große sprecherunabhängige Vokabulare zur Verfügung. Die Spracherkennungsprogramme sind heute mit 128.000 Wörtern ausgestattet, aus denen das Programm entsprechende Ausdrücke für die Erkennungsgenauigkeit im Kontext erfassen kann.

Und diese Sprecherunabhängigkeit ist eine entscheidende Voraussetzung, dass große Vokabulare überhaupt von jeder beliebigen Person und ohne Training in der Spracherkennung benutzt werden können.
Dabei unterscheiden wir, ob Sprecherunabhängigkeit nur für den Wortschatz oder für das gesamte Spracherkennungssystem gilt.

Eine weitere enorme Forschungsleistung bestand in der Ausbildung der elektronischen Fähigkeit, sprecherunabhängige Wortschätze an die sprecherspezifischen Sprachfrequenzen anzupassen. Das bedeutet, dass alle externen Vokabulare mit den benutzereigenen Sprachfrequenzen abgeglichen und moduliert werden. Außerdem werden die Vokabulare laufend in der Arbeit um den benutzerspezifischen Wortschatz erweitert.

Schauen wir uns diese Anpassung des Systems an den Nutzer noch etwas genauer an. Zum Beispiel lernt das System, ob ein Sprecher »wichtig«, »wichtich«, oder gar »wischtisch« sagt - immer wird in der Textverarbeitung nur eine, die richtige Schreibweise erscheinen.

Sie können sich denken, dass bei der Spracherkennung eine Reihe linguistischer Probleme zu lösen sind. Ich sagte bereits, dass ein und dasselbe Wort von ein und demselben Sprecher nie ein zweites Mal absolut identisch ausgesprochen wird.
Und vor allem kann die Maschine im Unterschied zum Menschen neben dem wörtlichen Verstehen nicht inhaltlich verstehen, um was es in einem Gespräch geht.
Schließlich können auch Hintergrundgeräusche den Frequenzverlauf eines gesprochenen Wortes verändern.
Und natürlich gibt es ganz besondere Probleme mit dem Wortschatz, mit den so genannten Homophonen und natürlich mit der Groß- und Kleinschreibung.

Beim Wortschatz hat es die Spracherkennung mit den Flexionen zu tun. Denn jede Wortform wird in der Spracherkennung wie ein eigenes Wort gezählt, also zum Beispiel das Wort »Baum« in seinen Flexionen »Baum(e)s, Bäume, Bäumen«.
Im Durchschnitt gibt es für Wörter mehrere Flexionen je Grundform: im Englischen im Durchschnitt 2,2, im Deutschen 5, im Französischen sogar 7.

Bei den »Homophonen« handelt es sich um Wörter, die gleich gesprochen, aber unterschiedlich geschrieben werden. Sie können sich vorstellen, welche Schwierigkeiten ein Spracherkennungsprogramm haben muss, um folgenden Satz richtig zu schreiben:
»Wenn ich den See seh', lieb' ich das Meer mehr.« Oder: »Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen hinterher«.
Und dann das Problem mit der Groß- und Kleinschreibung: Es macht natürlich einen anderen Sinn, ob der Ausdruck heißt: »Der Gefangene floh.« oder »der gefangene Floh«.

Soweit zu den linguistischen und semantischen Problemen bei der Spracherkennung. Wie das Programm solche Probleme löst, davon hängt natürlich weitgehend ab, mit welcher Erkennungsgenauigkeit wir rechnen können.
Wir können aber auch selbst viel dazu beitragen, diese zu erhöhen. In erster Linie damit, ständig unser Vokabular zu vergrößern, zu bearbeiten, zu trainieren, zu pflegen und zu verbessern.

Wenden wir uns nunmehr praktischen Dingen zu, und zwar der Frage: Was kann die Spracherkennung heute?
Sie kann Kosten senken. Damit meine ich den Rationalisierungseffekt, weil Spracherkennung am Computer inzwischen dem schnellsten Tippen haushoch überlegen ist.
Eine schnelle Tipperin oder ein schneller Tipper schreibt etwa 40 Wörter pro Minute. Sie brauchen somit für ein dreiseitiges Dokument von etwa 900 Wörtern rund 22 Minuten.
Dagegen lassen sich in einer Minute rund 140 bis 160 Wörter diktieren, so dass Sie für ein dreiseitiges Dokument von etwa 900 Wörtern nur rund 6 Minuten brauchen. Dies indes nur, wenn Sie das Programm vollständig beherrschen und bereits lange Zeit trainiert haben. Aber ein Tipper braucht auch Jahre, bis er zum Schnelltipper wird.

Was hat die Spracherkennung für weitere Vorteile? Auf jeden Fall kann man mit ihr beschwerdefreier arbeiten infolge der geringeren Anstrengung - keine oder weniger Muskelverspannungen und Zwangshaltungen, die das Skelett beeinträchtigen.

Ferner sind die neuen Programme vollständig netzwerkfähig, was den so genannten »Workflow« in einem Unternehmen enorm beschleunigen kann.
Dies nicht zuletzt auch dadurch, dass auch die Spracherkennung wie beim Diktieren in ein Diktiergerät es ermöglicht, Diktate aufzunehmen und von einem anderen Mitarbeiter oder Mitarbeiterin korrigieren beziehungsweise weiter bearbeiten zu lassen. So ist es ohne weiteres möglich, dass zum Beispiel der Chef in Paris den per Spracherkennung aufgenommenen Text (einschließlich aller komprimierten Sprachdateien) an seine Sekretärin in Berlin sendet, die dort Text und Stimme entgegennimmt und den Text, wiederum mit ihrer eigenen Spracherkennung, korrigiert.

Spracherkennung für körperbehinderte Menschen Zusammengefasst können wir mit modernen Spracherkennungssystemen in jeder Microsoft-Anwendung und in vielen anderen arbeiten, E-Mails sprechen, eigene Sprachbefehle erstellen, die eigenen Dokumente anhören, auch vom PC unabhängig diktieren mit digitalen Diktiergeräten, eigene Vokabulare erstellen und die eigenen Dokumente an den eigenen Sprachstil anpassen.

Und, ebenfalls zusammenfassend, interessiert uns hier sicher am meisten, welche Vorteile Spracherkennung für körperbehinderte Menschen bedeutet. Es bedeutet:

  • beschwerdefreies Arbeiten am PC,
  • die Steuerung des PC per Sprachbefehlen,
  • Sprachdiktate in den meisten Programmen,
  • Zeit- und Geldersparnis, und
  • Spracherkennung ermöglicht auch körperbehinderten Menschen eine professionelle Office-Tätigkeit.

Sie werden mich nun sicher fragen wollen, was das denn alles kostet.
Zahlreiche Peripheriegeräte Das preiswerteste System, das Office-Ansprüchen für einen Einzelarbeitsplatz genügt, ist bereits für 198 € zu haben, für Behindertenverbände und -organisationen für 134 €. Professionelle Systeme, die netzwerkfähig sind und mit größerem Vokabular und intelligenteren Befehlsroutinen arbeiten, kosten heute zwischen 880 und 1500 €, für Behindertenverbände und -organisationen ab 666 €.
Standmikrofon Und natürlich gibt es zum Spracherkennungssystem eine Reihe von sinnvollen Peripheriegeräten, wie Diktiergeräte, Funk-Headsets, die so genannte SpeechMike und zum Beispiel, gerade für Körperbehinderte, ein Standmikrophon, dass sich per Bewegungsmelder einschaltet und den Behinderten davon befreit, sich ein Headset aufsetzen zu lassen.

Meine sehr geehrten Damen und Herren,
lassen Sie mich zum Schluss die Frage aufwerfen, ob man das alles lernen muss und, wenn ja, wie?
Kinderleicht - oder wie lernt man das? Sie wissen selbst: Wer ihnen erzählt, dass eine Office-Rationalisierung von 30, 50 oder mehr Prozent im Schreibbereich mit dem bloßen Kauf einer erstklassigen Software zu haben sei, ist unseriös.
Und dies gilt natürlich für körperbehinderte Menschen ganz besonders.
Für Nichtbehinderte wie Behinderte ist professionelles Training in die Spracherkennung und Sprachsteuerung des Computers unumgänglich.

Spracherkennungssysteme plus fachkompetente, einfühlsame und umfassende Schulung für Behinderte werden es Tausenden von körperbehinderten Menschen endlich ermöglichen, schriftlich zu kommunizieren, wissenschaftlich zu arbeiten, zu studieren und die ganze Welt des Internet und der E-Mail-Kommunikation zu nutzen.
Ich biete Gruppen- und Einzelschulungen für körperbehinderte Menschen an, arbeite für die jeweiligen besonderen Bedingungen entsprechende Curricula aus und stimme das mit den Teilnehmern beziehungsweise den Maßnahmeträgern jeweils konkret ab.
Fazit: Meiner Meinung nach sind die Spracherkennungssysteme und zugleich die Systeme zur Steuerung des Computers per Sprache heute auf einem Stand angelangt, der regelrecht dazu drängt, diese neuen technischen Möglichkeiten auch über Ihren Verband und Ihre Einrichtungen sehr vielen körperbehinderten Menschen zukommen zu lassen, um ihnen zu helfen, am ganzen Leben teilzuhaben.

Ich danke Ihnen für Ihre Aufmerksamkeit.

Layout
Layout
Layout
Layout
Layout
Impressum