Arbeitskreis Korpuslinguistik
Leitung: Alexander Mehler
E-Mail: mehler@em.uni-frankfurt.de
Der Arbeitskreis befasst sich mit der Entwicklung und Erprobung von Werkzeugen zur automatischen Analyse von Korpora sowie mit der Konstruktion und Anwendung mathematischer, quantitativer Modelle der explorativen Korpusanalyse. Der Arbeitskreis thematisiert folgende, stichpunktartig genannte Fragestellungen:
- Aufbereitung und Annotation von Korpora. Korpusanalytisch basierte Metrisierung von Eigenschaften und Relationen sprachlicher Einheiten. Extraktion, Rekonstruktion bzw. Exploration sprachlichen Wissens aus Korpora natürlichsprachlicher Texte. Förderung von Anwendungen im Bereich der Textanalyse und Texttechnologie.
- Unterstützung der linguistischen Theorienbildung.
Die Korpuslinguistik thematisiert die automatische, explorative Analyse von Korpora natürlichsprachlicher Texte. Sie geht davon aus, daß textuelle Einheiten als Resultate der Kommunikationsprozesse wirklicher Sprecher/Hörer primäre sprachliche Erfahrungsdaten sind, die dem Sprachwissenschaftler vor jeder Analyse gegeben sind. Daher bilden Korpora textueller Einheiten die empirische Grundlage zur Analyse sprachlicher Einheiten, ihrer Eigenschaften und Relationen. Anders als kompetenztheoretische Ansätze betrachtet die Korpuslinguistik die systematische, quantitative Analyse von Korpora als Voraussetzung für die Falsifizierbarkeit sprachwissenschaftlicher Hypothesen wie auch für die Übertragbarkeit und Erweiterbarkeit ihrer Verfahren und die Reproduzierbarkeit ihrer Resultate. Diese methodische, wissenschaftstheoretisch untermauerte Konzeption steht in Zusammenhang mit einem erweiterten Gegenstandsbegriff: Die Korpuslinguistik zielt auf eine Analyse auch solcher Strukturen, die dem Sprachgefühl individueller Sprachteilnehmer unzugänglich sind und erst durch Analyse größerer Datenmengen erschlossen werden können. Dies betrifft die Untersuchung probabilistischer, präferenzrelationaler Strukturen, die unter anderem dadurch gekennzeichnet sind, daß sie in Abhängigkeit von pragmatischen, sprachlichen und außersprachlichen Faktoren nicht regelbasiert variieren. Korpuslinguistische Ansätze lassen sich in die Gruppe explorativer und testender Verfahren unterteilen. Erstere Verfahrensgruppe zielt auf eine korpusanalytische Exploration sprachlicher Kategorien und Regularitäten bei gleichzeitiger Reduktion von Präsuppositionen im Hinblick auf die Regularitäten sprachlicher Einheiten. Hiervon sind solche Verfahren abzugrenzen, die vor dem Hintergrund vorstrukturierter, bereits mit syntaktischen, semantischen oder pragmatischen Informationen annotierten Korpora gegebene, nicht notwendigerweise korpusanalytisch gewonnene Hypothesen überprüfen. Der Arbeitskreis Korpuslinguistik integriert den Arbeitskreis zur Quantitativen Linguistik (QL), die durch ihre spezifischen Untersuchungsmethoden, ihren prinzipiell empirischen, korpusanalytischen Datenbezug sowie durch ihr spezifisches Erkenntnisinteresse gekennzeichnet ist. Der Untersuchungsgegenstand der QL ist auf keinen bestimmten Bereich sprachwissenschaftlicher Tätigkeit eingeschränkt. Ihre Methoden umfassen in Ergänzung und Erweiterung der in der mathematischen Linguistik verwendeten Methoden (Logik, Mengentheorie, Algebra, etc.) quantitative, numerische Verfahren (der Statistik, Stochastik, der Theorie unscharfer Mengen, etc.). Gegenüber rein algebraischen ("qualitativen") Ansätzen zeichnet sich die QL dadurch aus, daß sie den in der Wissenschaftstheorie etablierten Theorie- und Gesetzesbegriff übernimmt. In diesem Sinne zielt die theoretische QL auf die Konstruktion einer Sprachtheorie in Form nomologischer Systeme zur Einlösung eines linguistischen Erklärungsanspruchs.
Thematische Schwerpunkte
- Aufbereitung und Annotation von Korpora. Entwicklung, Erprobung und Anwendung standardisierter Auszeichnungssprachen und Verfahren der automatischen Korpusanalyse.
- Metrisierung (Quantifizierung und Meßbarmachung) von Eigenschaften und Relationen sprachlicher Einheiten verschiedener Ebenen sprachlicher Resolution.
- Korpusbasierte (quantitative und qualitative) Analyse, Beschreibung und Klassifikation sprachlicher Einheiten.
- Unterstützung der linguistischen Theorienbildung.
- Förderung von Anwendungen u.a. im Bereich der Texttechnologie, Informationswissenschaften und Medienwissenschaften.
- Integration von quantitativen und qualitativen Ansätzen der mathematischen Linguistik: Unterstützung der Entwicklung eines einheitlichen, zugleich statistisch und algebraisch ausgerichteten Ansatzes.
Praktische Ziele
- Austausch von Informationen über Aktivitäten im Forschungs- und Anwendungsbereich der Korpus- und quantitativen Linguistik.
- Förderung der Kooperation forschungs- und/oder anwendungsbezogener Projekte durch Information über bzw. gemeinsame Nutzung von Korpora und Software.
- Vereinheitlichung des Instrumentariums der Korpus- sowie der quantitativen Linguistik. Schaffung von Möglichkeiten zum Vergleich von Verfahren und Resultaten korpusanalytischer wie auch quantitativ-linguistischer Projekte.
- Herstellung und Förderung internationaler Kontakte unter anderem durch enge Zusammenarbeit mit der International Quantitative Linguistics Association (IQLA).
- Information über (internationale) Aktivitäten Publikationen, Konferenzen, etc.) im Bereich der Korpus- und quantitativen Linguistik.
Veranstaltungen
- 04.09.2001: GLDV-Workshop "Werkzeuge zur automatischen Analyse und Verarbeitung von Texten: Formate, Tools, Software-Systeme" an der Universität Trier.
- Sektion Korpuslinguistik im Rahmen der 13. Frühjahrstagung der Gesellschaft für linguistische Datenverarbeitung ( GLDV ), 26.-28. März 2003, Hochschule Anhalt, Köthen.
- 16.-18. Oktober 2003: GLDV-Workshop "4. Trierer Kolloquium zur Quantitativen Linguistik" an der Universität Trier.

