Suchsprachen: Operatoren, reguläre Ausdrücke etc.


1. Übersicht: Suchoptionen und -Operatoren der Volltext-Recherche

2. Übersicht: Suchoptionen der strukturierten Tokensuche und Verwendung regulärer Ausdrücke

3. Übersicht: Suchoptionen der MTAS-basierten CQP

4. Wichtige Informationen zum Antwortzeitverhalten von Recherchen (Performanz)

5. Reservierte Zeichen und Symbole




1. Übersicht: Suchoptionen und -Operatoren der Volltext-Recherche

Suchoption Syntax Beschreibung Beispiel
Wildcards _ bzw. % "_" steht für ein beliebiges Zeichen, "%" für eine Folge beliebiger Zeichen. Groß-/Kleinschreibung wird beachtet. Eine Suche nach "sag%" ergibt z.B. Treffer für "sagte, sage, sag, ..."
AND Ausdruck1&Ausdruck2 Eine Suche mit dem AND-Operator findet nur Dokumente, in denen alle angegebenen Suchbegriffe vorkommen. Eine Suche nach "nee&nö" ergibt Treffer für Dokumente, in denen Ausdruck 1 "nee" und Ausdruck 2 "" vorkommen.
OR Ausdruck1|Ausdruck2 Eine Suche mit dem OR-Operator findet alle Dokumente, in denen mindestens einer der angegebenen Suchbegriffe vorkommt. Eine Suche nach "nee|nö" ergibt Treffer für Dokumente, in denen nur Ausdruck 1 "nee", nur Ausdruck 2 "" und auch beide Ausdrücke zusammen vorkommen.
NOT Ausdruck1~Ausdruck2 Eine Suche mit dem NOT-Operator findet alle Dokumente, in denen Ausdruck 1 vorkommt und Ausdruck 2 nicht vorkommt. Eine Suche nach "nee~nö" ergibt Treffer für Dokumente, in denen Ausdruck 1 "nee" vorkommt, Ausdruck 2 "" aber nicht vorkommt.
FUZZY* FUZZY(Ausdruck) Mit dem FUZZY-Operator lässt sich die Anzahl der Abfrageergebnisse erweitern, indem auch ähnlich geschriebene Wörter (z.B. auch Tippfehler) gefunden werden. Mit dem Suchausdruck "FUZZY(geb)" findet man Textstellen, die "geb, gebe, gebt, gab, gäb, gabs, Gabe" etc. enthalten.
Mit dem Suchausdruck "FUZZY(das)" findet man Textstellen, die "das, des, daß, dass" etc. enthalten.
NEAR* NEAR(
(Ausdruck1,
Ausdruck2,
Ausdruck...),
n,
true)
Mit Hilfe des NEAR-Operators lassen sich Textpassagen finden, bei denen Ausdruck 1 maximal n Wörter entfernt von Ausdruck 2 usw. vorkommt.
Die Option "true" bedeutet: die Reihenfolge der Suchausdrücke ist für die Treffer relevant.
Die Option "false" bedeutet: die Reihenfolge der Suchausdrücke ist für die Treffer nicht relevant.
Mit der Wortabstandssuche "NEAR((das,geht,schon),4,true)" werden z.B. folgende Textpassagen gefunden:
...das geht dann schon...
...das geht aber doch schon...
...Das geht mir nämlich auch schon...
...das Geld geht schon...
SOUNDEX* (experimentell) !Ausdruck Mit dem SOUNDEX-Operator lassen sich Abfrageergebnisse ermitteln, die ähnlich wie der Suchbegriff ausgesprochen werden. Der Algorithmus basiert auf der englischen Aussprache, allerdings können auch bei deutschen Texten gute Ergebnisse erzielt werden (vgl. Wikipedia Eintrag zu SOUNDEX).
Insbesondere bei non-verbalen Bestandteilen, Hesitationsphänomenen, etc. können interessante Abfrageergebnisse ermittelt werden.
Der Suchausdruck "!ähm" findet auch Textstellen, die "ahm, ehm, hm, hmm, hmhm" etc. enthalten.
STEM* $Ausdruck Der STEM-Operator liefert Abfrageergebnisse, die die gleichen linguistischen Wurzeln haben wie der Suchausdruck. Beispiel 1: der Suchausdruck "$sitzen" liefert neben Treffern für "sitzen außerdem z.B. solche für "saß, saßen, sitzt, gesessen, sitze, sitzend".
Beispiel 2: der Suchausdruck "$Haus" liefert neben Treffern für "Haus ausserdem z.B. solche für "Hause, Funkhäuser, Funkhaus, Haustür, Hausfrau, etc.".
THRESHOLD* > Mit dem THRESHOLD-Operator findet man alle Dokumente, in denen die Gesamtzahl der Vorkommen des Suchausdrucks einen angegebenen Schwellenwert überschreitet. Mit dem Suchausdruck "ähm>50" findet man alle Dokumente, in denen mehr als 50 Mal "ähm" vorkommt.



*) Abfragen dieses Typs können sehr rechenintensiv sein: die Recherche erfolgt in Echtzeit - deshalb kann es je nach Anzahl der zu durchsuchenden Korpora, Komplexität der Abfrage und Anzahl der zu ermittelnden Treffer einige Sekunden dauern, bis das Rechercheergebnis angezeigt wird.

▲ Seitenanfang


2. Übersicht: Suchoptionen der strukturierten Tokensuche und Verwendung regulärer Ausdrücke

Die struktursensitive Tokensuche ermöglicht das gezielte Auffinden von Wort-Tokens mit bestimmten morphologischen Eigenschaften.

Dabei ist:

  • die transkribierte Form diejenige Form, die im Transkript - oft als literarische Umschrift - erscheint, z.B. kannscht

  • die normalisierte Form die standardorthografische Form, die der transkribierten Form entspricht, z.B. kannst

  • die lemmatisierte Form die zugehörige Grundform, z.B. können

  • POS das Part-Of-Speech-Tag, z.B. NN für Substantive

Die Suchausdrücke für transkribierte Form, normalisierte Form, Lemma und POS können kombiniert werden (z.B. transkribierte Form: ne und Lemma: nein).

Ohne Aktivierung regulärer Ausdrücke können folgende Wildcards verwendet werden:

  • _ für ein beliebiges Zeichen (_ehen findet sehen, gehen, wehen etc.)

  • % für eine beliebige Zeichenfolge (ver%en findet versuchen, verwenden, verschwinden etc.)

Wenn reguläre Ausdrücke aktiviert sind, können diese zum Musterabgleich verwendet werden, z.B.:

  • unter.+ findet unterhalb und unterdessen

  • (oben|unten) findet oben und unten

  • (aus)?gehen findet ausgehen und gehen

  • [rt]ot findet rot und tot

  • (ver|be)suchen findet versuchen und besuchen

  • (ver|be).*?en findet versuchen, besuchen, beantworten, vergleichen etc.


Bitte beachten Sie:
  • Die Verwendung regulärer Ausrücke verlangsamt die Suche. Aktivieren Sie diese Option nur, wenn Sie sie benötigen.
  • Transkribierte und normalisierte Form unterscheiden sich bei den Korpora FOLK, GWSS, DS, BW und MEKI. Bei allen anderen Korpora sind die Formen immer identisch.
  • Die Normalisierung des Korpus DS ist nicht manuell überprüft worden und enthält daher Fehler.
  • Die Lemmatisierung basiert teilweise auf alter Rechtschreibung (krass ist z.B. als kraß lemmatisiert).
  • Artikel (der, die, das etc.) sind grundsätzlich als d lemmatisiert.
  • Eine umfassende Dokumentation der Metazeichen in regulären Ausdrücken finden Sie hier .

▲ Seitenanfang


3. Übersicht: Suchoptionen der MTAS-basierten CQP

https://textexploration.github.io/mtas/search_cql.html

▲ Seitenanfang


4. Wichtige Informationen zum Antwortzeitverhalten von Recherchen (Performanz)

Folgende Parameter und Faktoren beeinflussen das Antwortzeitverhalten bei der Volltext-Suche:
   - Die Anzahl der ausgewählten Korpora
   - Die Anzahl der Dokumente, in denen bei der Suche ein Treffer gefunden wird
   - Die Frequenz des Such-Ausdrucks (Trefferhäufigkeit) in durchsuchten Dokumenten
   - Suchen mit den komplexen Such-Operatoren (FUZZY, SOUNDEX, STEM, THRESHOLD) benötigen grundsätzlich mehr
     Rechenleistung als Suchen mit einfachen Such-Ausdrücken. Gleiches gilt für die Verschachtelung
     einfacher Such-Ausdrücke.

▲ Seitenanfang


5. Reservierte Zeichen und Symbole

Folgende Zeichen und Symbole besitzen Sonderfunktionen: ", & = ? { } \ ( ) [ ] - ; ~ | $ ! > * % _"

Soll direkt nach einem dieser Zeichen gesucht werden, so muss dieses entsprechend gekennzeichnet ("escaped") werden.

Mit vorangestelltem "\" kann nach einem einzelnen dieser Zeichen gesucht werden.
Beispiel: Für eine Suche nach dem "$"-Zeichen muss diesem ein "\" vorangestellt werden: "\$".

Durch die Klammerung mit "{ }" kann nach einer Folge von reservierten Zeichen gesucht werden.
Beispiel: Nach dem Ausdruck "X$Y$Z" sucht man mit "{X$Y$Z}".

▲ Seitenanfang


Zu Kollektion hinzufügen
Ausschnitt anzeigen
Ausschnitt in ZuViel anzeigen
Annotationen anzeigen
Fehler melden