359
Kapitel 13
Verarbeitung von Zeichenketten
Menschen und Computer kommunizieren häufig über Texte. In ein Konsolenfenster des
Betriebssystems Ihres Rechners (z.B. Eingabeaufforderung bei Windows) können Sie Kom-
mandos in der formalen Sprache des jeweiligen Betriebssystems eingeben. Das ist für den
Menschen manchmal mühsam, weil er sich strikt an die Syntax der Kommandosprache hal-
ten muss. Kleinste Abweichungen führen zu Fehlermeldungen.
Systeme mit natürlichsprachlicher Schnittstelle sind in der Lage, Dialoge in normaler
Umgangssprache (z.B. Deutsch) zu führen. Ein solches System analysiert den eingegebe-
nen Text und versucht, anhand bestimmter Merkmale herauszufinden, was der Benutzer
will. Dann reagiert es in irgendeiner Weise – führt z.B. eine Operation aus – und liefert eine
für Menschen verständliche sprachliche Ausgabe.
Sprachliche Information kann über unterschiedliche Kanäle ausgetauscht werden. Ein Text
kann über die Tastatur eingetippt oder über ein Mikrofon eingesprochen werden. Im letzte-
ren Fall übernimmt ein Spracherkennungssystem die Umwandlung in eine Zeichenkette.
Die Ausgabe von Texten erfolgt meist als Schrift über den Bildschirm oder Drucker. Text-to-
Speech-Systeme wandeln Zeichenketten in gesprochene Sprache um, die als Akustik-Signal
von einem Lautsprecher abgestrahlt wird.
Entscheidend ist, dass unabhängig von der Form der Ein- und Ausgabe sprachliche Erzeug-
nisse durch Zeichenketten (Strings) repräsentiert werden. Damit ein Computerprogramm
Dialoge mit seiner Umwelt führen kann, muss es in der Lage sein, Zeichenketten zu verar-
beiten. In diesem Kapitel werden wir folgende Fragen ansprechen:
Wie kann man in einen Text »Bausteine« automatisch einfügen und auf diese Weise
neue Texte produzieren?
Wie kann man Texte analysieren und (innerhalb gewisser Grenzen) die Bedeutung
ermitteln?
Wie kann man aus Texten bestimmte interessierende Teile herauslösen?
Wie werden natürlichsprachige Benutzungsoberflächen programmiert?
13.1 Standardmethoden zur Verarbeitung von Zeichenketten
Zeichenketten sind Folgen aus lesbaren Zeichen. Es sind Objekte vom Standardtyp str.
Dagegen sind Bytestrings Folgen aus Oktetten (Zahlen zwischen 0 und 255), die irgendwel-
che Daten repräsentieren.
Die Klasse
str bietet eine Reihe von Methoden zur Analyse (Tests auf bestimmte Merkmale,
Finden von enthaltenen Substrings etc.) oder zur Produktion neuer Zeichenketten durch
Abändern einer Kopie des Originals (kleine Buchstaben in große Buchstaben umwandeln,
Leerzeichen einfügen etc.).

Get Python 3 - Lernen und professionell anwenden now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.