(Translated by https://www.hiragana.jp/)
Korpora im DWDS | DWDS
Der deutsche Wortschatz von 1600 bis heute.

Korpora im DWDS

Einleitung

Gefördert von der Deutschen Forschungsgemeinschaft hat das Projekt DWDS von 2000 bis 2003 eine große Textbasis erstellt. Hierbei entstand das DWDS-Kernkorpus, das erste zeitlich und nach Textsorten ausgewogene Textkorpus der deutschen Sprache des 20. Jahrhunderts. Seitdem wurden eine Reihe weiterer Korpora in die DWDS-Abfrageplattform eingebunden. Alle Korpora enthalten Metadaten zu Textsorten, Autor, Titel, Verlag und Erscheinungsdatum. Die in ihnen enthaltenen Wörter sind lemmatisiert und mit Wortartinformationen versehen. Sie sind – soweit die Nutzungsvereinbarungen mit den Textgebern dies zulassen – mit der linguistischen Suchmaschine DDC über die DWDS-Webseite abfragbar.

Für die Recherche im DWDS stehen über 69 Mrd. Tokens in historischen und gegenwartssprachlichen Textkorpora zur Verfügung.

Hinweis: Ein Token bezeichnet ein Wort, ein Satzzeichen oder eine anderweitig zusammenhängende elementare Folge von Zeichen.

Die Statistiken über alle DWDS-Korpora sind auf einer gesonderten Seite abfragbar. Hier finden Sie Neuigkeiten zu den Korpora im DWDS.

Wir unterscheiden folgende Arten von Korpora:

  • Metakorpora – mehrere Korpora aggregiert zur einfachen Recherche,
  • Referenzkorpora – zeitlich und hinsichtlich der Textsortenverteilung ausgewogene Korpora,
  • Zeitungskorpora – entweder retrodigitalisierte oder rein digital erstellte Texte großer Tages- und Wochenzeitungen,
  • Webkorpora – gecrawlte Korpora aus internetbasierten Quellen,
  • Spezialkorpora – für besondere Sprachbereiche zusammengestellte Korpora.

Verweise vom DWDS-Wörterbuch in Korpora

In allen Artikeln des DWDS-Wörterbuchs finden Sie unter der Überschrift Belege in Korpora Verweise auf Korpuszitate in den Textsammlungen des DWDS. In den meisten Fällen werden damit Belege für das jeweilige Stichwort im Wörterbuch angezeigt. Bitte beachten Sie, dass die Annotation der DWDS-Korpora bzgl. Wortart, Eigennamenerkennung, Lemmatisierung etc. ein automatischer Prozess ist, bei dem es zu Ungenauigkeiten kommen kann. Die Suchmaschine, die die Korpuszitate aus den Sammlungen extrahiert, arbeitet rein schreibungsorientiert und nimmt keine Bedeutungszuordnung vor.

  • Als Ergebnis der Korpussuche werden Belege für die im jeweiligen Wörterbuchartikel angegebenen Schreibungen ausgegeben. Für das Stichwort Arzt werden beispielsweise die Schreibungen Arzt, Arztes, Ärzte, Ärzten etc. angezeigt.
  • Eine Unterscheidung zwischen den verschiedenen Bedeutungen eines Wortes findet in der Korpussuche nicht statt, z. B. zwischen Bank ‚Sitzgelegenheit‘ und Bank ‚Finanzhaus‘ oder dem Gemüse Kohl und dem Eigennamen Kohl.
  • In seltenen Fällen können zwei ganz verschiedene Lemmata in ihren Flexionsparadigmen eine identische Schreibung aufweisen, beispielsweise Wolle als Nomen und wolle als Verbform. Bei den Verweisen auf die Korpora findet keine explizite Abfrage bzgl. der Wortart statt. Sie können innerhalb der Korpussuche entsprechende Filter verwenden, um die Trefferlisten zu verfeinern.
  • Historische Formen werden mittels eines maschinellen Verfahrens normalisiert, d. h. auf Rechtschreibung der Gegenwartssprache abgebildet. Damit werden Formen wie Theyl, Thayl oder Theil auf das heutige Teil abgebildet. Das Verfahren weist eine hohe Genauigkeitsrate von 99 % auf und findet in Projekten wie CLARIN-D oder Text+ breite Anwendung. In Ausnahmefällen kann es hier zu einer fehlerhaften Normalisierung oder Lemmatisierung kommen, wie es bei jedem automatisierten Verfahren der Fall ist. Diese können sich auch als Folgefehler eventueller OCR-Fehler, Transkriptionsfehler oder Konvertierungsfehler ergeben, die trotz größtmöglicher Sorgfalt bei der Korpuskuration in den Korpusquellen verblieben sind.

OCR-erfasste Texte

In einigen Korpora des DWDS finden sich Dokumente, die mithilfe von automatischer Texterkennung (OCR, Optical Character Recognition) erstellt wurden. Korpustreffer aus diesen Dokumenten werden in den Ergebnislisten mit dem Symbol Symbol OCR markiert. Unter Umständen kann das OCR-Verfahren dazu führen, dass Zeichen, Wörter oder teils komplette Abschnitte nicht korrekt erfasst sind und daher falsche Ergebnisse bei Korpusrecherchen erbringen. In Korpora, wo OCR-erfasste Texte zusammen mit anderweitig erstellten Dokumenten zusammengefasst sind (z. B. im Metakorpus »Historische Korpora«), können Sie über die angebotene Schaltfläche OCR-Texte nicht durchsuchen entsprechend filtern.

Lexikalische Datenbanken

Für einige Korpora bieten wir lexikalische Datenbanken mit Informationen zu Frequenzen und Lemmatisierungen an. Diese Datenbanken stehen auch als Download zur Verfügung.

DiaCollo

Für viele Korpora bieten wir auch die Recherchemöglichkeit mit dem Tool DiaCollo an, die entsprechenden Verweise darauf finden Sie in der Übersicht über die Korpora im DWDS.