Posted tagged ‘ir nlp text processing gender wissenschaft’

Die Korpusaffen

13. Juli 2012

Vor einigen Jahren beschäftigte ich mich situationsbedingt ein wenig mit Information Retrieval und Natural Language Processing (kurz NLP),

Jeder Handy-Besitzer kennt die automatische Wortvervollständigung für SMS in Abhängigkeit der bereits getätigten Eingaben. Also beispielsweise, wenn die Buchstaben ‚H‘ ‚A‘ eingegeben wurden, macht das Handy den Vorschlag ‚Hallo‘. Dies kann sehr einfach umgesetzt sein, in dem aus einem Wörterbuch das nächste Wort herausgesucht wird, das mit diesen Buchstaben anfängt. Viele Anwendungen
benutzen für die Vervollständigung ein Nutzerwörterbuch mit den am häufigsten bereits benutzen Wörtern. Die Idee lässt sich weiter ausführen und mit grammatikalischen Regeln verknüpfen, also dass die Satzstruktur in einer Sprache bestimmten Regeln folgt, wie Subjekt, Prädikat, Objekt. Oder in dem aus einem Korpus, einer Sammlung von Texten, wie Zeitungsartikeln, wissenschaftlichen Papern oder ganzen Büchern, n-Gramme benutzt werden. Ein 2-Gram, 3-Gram, …, n-Gram sind Wortfolgen, die häufig zusammen auftauchen. „Es war einmal“ ist ein 3-Gram, das mit hoher Häufigkeit in Grimms Märchen auftaucht. Wenn jemand also einen Korpus aus Grimms Märchen verwendet, und „Es war“ eingegeben hat, kann ein Programm leicht erraten, dass wohl „einmal“ folgen wird und es ergänzen.

Setzt man nun einen Affen vor einen Rechner und lässt ihn auf die Tastatur einkloppen, so kann ein wie oben beschriebenes NLP-Programm dafür sorgen, dass immer „sinnvolle“ Sätze produziert werden.
Benutzt man nun einen Korpus mit Artikeln und Standard-Werken, beispielsweise aus den Gender- oder Sozial-„Wissenschaften“, so entstehen Texte, die bezüglich Sinngehalt, denen üblicher Veröffentlichungen dieser Fachgebiete in nichts nachstehen. Inzwischen erhärtet sich bei mir der Eindruck, der „Korpus-Affe“ ist keine bloße Fiktion meinerseits. Er ist das Resultat des heutigen Wissenschaftsbetriebs. Alles, was irgendwie geschrieben werden kann, in dem man Wörter aneinanderreiht, weil es auch nur annähernd sprachlichen Gesetzmäßigkeiten folgt, wird auch geschrieben. An und für sich ist das eine gute Sache. In Verknüpfung mit einem Reality-Check, dem Gegenprüfen durch und versus die Wirklichkeit, könnten so interessante neue Erkenntnisse gewonnen werden. Nur leider neigen die „Korpusaffen“ dazu recht unreflektierte und ignorante Zeitgenossen zu sein, die gegen jede Form von Realität oder Gedankenaustausch immun sind. Sie haben nun mal nur ihren Korpus und der geht ihnen, wie alles andere, stückchenweise, recht unverdaut und mechanisch durch die Tippfinger.

Fortsetzung folgt…möglicherweise.

Advertisements