Suchsprachen: Operatoren, reguläre Ausdrücke etc.
1. Übersicht: Suchoptionen und -Operatoren der Volltext-Recherche
2. Übersicht: Suchoptionen der strukturierten Tokensuche und Verwendung regulärer Ausdrücke
3. Übersicht: Suchoptionen der MTAS-basierten CQP
4. Wichtige Informationen zum Antwortzeitverhalten von Recherchen (Performanz)
5. Reservierte Zeichen und Symbole
1. Übersicht: Suchoptionen und -Operatoren der Volltext-Recherche
Suchoption | Syntax | Beschreibung | Beispiel |
Wildcards | _ bzw. % | "_" steht für ein beliebiges Zeichen, "%" für eine Folge beliebiger Zeichen. Groß-/Kleinschreibung wird beachtet. | Eine Suche nach "sag%" ergibt z.B. Treffer für "sagte, sage, sag, ..." |
AND | Ausdruck1&Ausdruck2 | Eine Suche mit dem AND-Operator findet nur Dokumente, in denen alle angegebenen Suchbegriffe vorkommen. | Eine Suche nach "nee&nö" ergibt Treffer für Dokumente, in denen Ausdruck 1 "nee" und Ausdruck 2 "nö" vorkommen. |
OR | Ausdruck1|Ausdruck2 | Eine Suche mit dem OR-Operator findet alle Dokumente, in denen mindestens einer der angegebenen Suchbegriffe vorkommt. | Eine Suche nach "nee|nö" ergibt Treffer für Dokumente, in denen nur Ausdruck 1 "nee", nur Ausdruck 2 "nö" und auch beide Ausdrücke zusammen vorkommen. |
NOT | Ausdruck1~Ausdruck2 | Eine Suche mit dem NOT-Operator findet alle Dokumente, in denen Ausdruck 1 vorkommt und Ausdruck 2 nicht vorkommt. | Eine Suche nach "nee~nö" ergibt Treffer für Dokumente, in denen Ausdruck 1 "nee" vorkommt, Ausdruck 2 "nö" aber nicht vorkommt. |
FUZZY* | FUZZY(Ausdruck) | Mit dem FUZZY-Operator lässt sich die Anzahl der Abfrageergebnisse erweitern, indem auch ähnlich geschriebene Wörter (z.B. auch Tippfehler) gefunden werden. | Mit dem Suchausdruck "FUZZY(geb)" findet man Textstellen, die "geb, gebe, gebt, gab, gäb, gabs, Gabe" etc. enthalten.
Mit dem Suchausdruck "FUZZY(das)" findet man Textstellen, die "das, des, daß, dass" etc. enthalten. |
NEAR* | NEAR( (Ausdruck1, Ausdruck2, Ausdruck...), n, true) |
Mit Hilfe des NEAR-Operators lassen sich Textpassagen finden, bei denen Ausdruck 1 maximal n Wörter entfernt von Ausdruck 2 usw. vorkommt.
Die Option "true" bedeutet: die Reihenfolge der Suchausdrücke ist für die Treffer relevant. Die Option "false" bedeutet: die Reihenfolge der Suchausdrücke ist für die Treffer nicht relevant. |
Mit der Wortabstandssuche "NEAR((das,geht,schon),4,true)" werden z.B. folgende Textpassagen gefunden:
...das geht dann schon... ...das geht aber doch schon... ...Das geht mir nämlich auch schon... ...das Geld geht schon... |
SOUNDEX* (experimentell) | !Ausdruck | Mit dem SOUNDEX-Operator lassen sich Abfrageergebnisse ermitteln, die ähnlich wie der Suchbegriff ausgesprochen werden. Der Algorithmus basiert auf
der englischen Aussprache, allerdings können auch bei deutschen Texten gute Ergebnisse erzielt werden (vgl.
Wikipedia Eintrag zu SOUNDEX).
Insbesondere bei non-verbalen Bestandteilen, Hesitationsphänomenen, etc. können interessante Abfrageergebnisse ermittelt werden. |
Der Suchausdruck "!ähm" findet auch Textstellen, die "ahm, ehm, hm, hmm, hmhm" etc. enthalten. |
STEM* | $Ausdruck | Der STEM-Operator liefert Abfrageergebnisse, die die gleichen linguistischen Wurzeln haben wie der Suchausdruck. | Beispiel 1: der Suchausdruck "$sitzen" liefert neben Treffern für "sitzen außerdem z.B. solche für "saß, saßen, sitzt, gesessen, sitze, sitzend".
Beispiel 2: der Suchausdruck "$Haus" liefert neben Treffern für "Haus ausserdem z.B. solche für "Hause, Funkhäuser, Funkhaus, Haustür, Hausfrau, etc.". |
THRESHOLD* | > | Mit dem THRESHOLD-Operator findet man alle Dokumente, in denen die Gesamtzahl der Vorkommen des Suchausdrucks einen angegebenen Schwellenwert überschreitet. | Mit dem Suchausdruck "ähm>50" findet man alle Dokumente, in denen mehr als 50 Mal "ähm" vorkommt. |
*) Abfragen dieses Typs können sehr rechenintensiv sein: die Recherche erfolgt in Echtzeit - deshalb kann es je nach Anzahl der zu durchsuchenden Korpora, Komplexität der Abfrage und Anzahl der zu ermittelnden Treffer einige Sekunden dauern, bis das Rechercheergebnis angezeigt wird.
▲ Seitenanfang
2. Übersicht: Suchoptionen der strukturierten Tokensuche und Verwendung regulärer Ausdrücke
Die struktursensitive Tokensuche ermöglicht das gezielte Auffinden von Wort-Tokens mit bestimmten morphologischen Eigenschaften.
Dabei ist:
- die transkribierte Form diejenige Form, die im Transkript - oft als literarische Umschrift - erscheint, z.B. kannscht
- die normalisierte Form die standardorthografische Form, die der transkribierten Form entspricht, z.B. kannst
- die lemmatisierte Form die zugehörige Grundform, z.B. können
- POS das Part-Of-Speech-Tag, z.B. NN für Substantive
Die Suchausdrücke für transkribierte Form, normalisierte Form, Lemma und POS können kombiniert werden (z.B. transkribierte Form: ne und Lemma: nein).
Ohne Aktivierung regulärer Ausdrücke können folgende Wildcards verwendet werden:
- _ für ein beliebiges Zeichen (_ehen findet sehen, gehen, wehen etc.)
- % für eine beliebige Zeichenfolge (ver%en findet versuchen, verwenden, verschwinden etc.)
Wenn reguläre Ausdrücke aktiviert sind, können diese zum Musterabgleich verwendet werden, z.B.:
- unter.+ findet unterhalb und unterdessen
- (oben|unten) findet oben und unten
- (aus)?gehen findet ausgehen und gehen
- [rt]ot findet rot und tot
- (ver|be)suchen findet versuchen und besuchen
- (ver|be).*?en findet versuchen, besuchen, beantworten, vergleichen etc.
- Die Verwendung regulärer Ausrücke verlangsamt die Suche. Aktivieren Sie diese Option nur, wenn Sie sie benötigen.
- Transkribierte und normalisierte Form unterscheiden sich bei den Korpora FOLK, GWSS, DS, BW und MEKI. Bei allen anderen Korpora sind die Formen immer identisch.
- Die Normalisierung des Korpus DS ist nicht manuell überprüft worden und enthält daher Fehler.
- Die Lemmatisierung basiert teilweise auf alter Rechtschreibung (krass ist z.B. als kraß lemmatisiert).
- Artikel (der, die, das etc.) sind grundsätzlich als d lemmatisiert.
- Eine umfassende Dokumentation der Metazeichen in regulären Ausdrücken finden Sie hier .
3. Übersicht: Suchoptionen der MTAS-basierten CQP
https://textexploration.github.io/mtas/search_cql.html
▲ Seitenanfang4. Wichtige Informationen zum Antwortzeitverhalten von Recherchen (Performanz)
Folgende Parameter und Faktoren beeinflussen das Antwortzeitverhalten bei der Volltext-Suche:
- Die Anzahl der ausgewählten Korpora
- Die Anzahl der Dokumente, in denen bei der Suche ein Treffer gefunden wird
- Die Frequenz des Such-Ausdrucks (Trefferhäufigkeit) in durchsuchten Dokumenten
- Suchen mit den komplexen Such-Operatoren (FUZZY, SOUNDEX, STEM, THRESHOLD) benötigen grundsätzlich mehr
Rechenleistung als Suchen mit einfachen Such-Ausdrücken. Gleiches gilt für die Verschachtelung
einfacher Such-Ausdrücke.
5. Reservierte Zeichen und Symbole
Folgende Zeichen und Symbole besitzen Sonderfunktionen: ", & = ? { } \ ( ) [ ] - ; ~ | $ ! > * % _"
Soll direkt nach einem dieser Zeichen gesucht werden, so muss dieses entsprechend gekennzeichnet ("escaped") werden.
Mit vorangestelltem "\" kann nach einem einzelnen dieser Zeichen gesucht werden.
Beispiel: Für eine Suche nach dem "$"-Zeichen muss diesem ein "\" vorangestellt werden: "\$".
Durch die Klammerung mit "{ }" kann nach einer Folge von reservierten Zeichen gesucht werden.
Beispiel: Nach dem Ausdruck "X$Y$Z" sucht man mit "{X$Y$Z}".