Direkt zur Hauptnavigation springen Direkt zum Inhalt springen Jump to sub navigation

NoRaRe: Eine Multilinguale Datenbank für Wort- und Konzepteigenschaften

Im Rahmen einer in der Fachzeitschrift Behavior Research Methods neu veröffentlichten Studie präsentiert ein Forschungsteam aus Jena und Leipzig die Datenbank sprachübergreifender Normen, Ratings, und Relationen (NoRaRe), eine frei zugängliche Online-Ressource, die interdisziplinäre Forschung in den Fachbereichen Psychologie und Linguistik zukünftig erleichtern soll.

Die Erfassung von Daten nimmt in allen Bereichen der Forschung zu und wird auch immer einfacher. Wissenschaftliche Studien, die verschiedene Aspekte von Sprache untersuchen, sei es in der Psychologie oder in der Linguistik, greifen häufig auf große Mengen an Daten zurück, die die Eigenschaften von Wörtern betreffen. Doch oft ist es schwierig, bereits von anderen Forschungsteams erhobene Daten zu finden und zu nutzen.

Psychologische Studien erheben beispielsweise Daten zur Häufigkeit des Auftretens bestimmter Wörter in der Alltagssprache, zur emotionalen Konnotation von Wörtern oder zum kindlichen Spracherwerb – zum Beispiel, in welchem Alter Kinder bestimmte Wörter erwerben. Linguistische Studien hingegen werten die Beziehungen zwischen Wörtern in verschiedenen Sprachen aus, um deren Geschichte zu rekonstruieren. Bisher waren die riesigen Datenmengen, die in beiden Bereichen existieren, jedoch kaum miteinander kompatibel, was interdisziplinäre Studien erschwert und die Ergebnisse oft auf eine einzige Sprache beschränkt hat. Ein Forschungsteam der Max-Planck-Institute für Menschheitsgeschichte (Jena) und für Evolutionäre Anthropologie (Leipzig) stellt nun in der Fachzeitschrift Behavior Research Methods eine neue Datenbank vor, die Daten aus der Psychologie und der Linguistik zugänglich und vergleichbar macht und damit einen Rahmen für reproduzierbare Datenanalysen und interdisziplinäre Studien schafft.

Durch die Kombination von Daten aus den Fachbereichen Psychologie und Linguistik soll die Database of Cross-Linguistic Norms, Ratings, and Relations for Words and Concepts (NoRaRe) zukünftig die Forschung in beiden Bereichen vorantreiben, indem sie den Vergleich von Wort- und Konzepteigenschaften über Sprachen hinweg ermöglicht. So schafft NoRaRe die Möglichkeit ein tieferes Verständnis von Sprache zu gewinnen und bietet Forschenden die Möglichkeit, neue Fragen zu beantworten.

NoRaRe verwenden

NoRaRe ist die erste Online-Ressource, die standardisierte Daten bereitstellt, um sprachübergreifende Vergleiche möglich und reproduzierbar zu machen. Die in der Datenbank angebotenen Eigenschaften reichen von automatisch erhobenen Variablen wie Worthäufigkeiten (Normen) über psycholinguistische Studien mit menschlichen Probanden (Ratings) bis hin zu vergleichenden Daten innerhalb oder zwischen Sprachen (Relationen). So können Interessierte entweder dieselbe Variable – wie zum Beispiel Erwerbsalter-Ratings – über mehrere Sprachen hinweg vergleichen oder verschiedene Variablen verwenden, um ihre spezifische Forschungsfrage zu untersuchen. Die Datenbank ist unendlich erweiterbar und wird sorgfältig kuratiert, einschließlich automatischer Tests auf Konsistenz.

Die Datenbank enthält derzeit sowohl kleine Wortlisten aus unterrepräsentierten Sprachen als auch groß angelegte Studien mit mehreren tausend Einträgen für Sprachen wie Englisch, Deutsch, Niederländisch, Italienisch, Russisch und Chinesisch. Darüber hinaus wird NoRaRe über die Open Access Plattform GitHub verwaltet (https://github.com/concepticon/norare-data) und ist über eine Weboberfläche zugänglich (https://digling.org/norare/). So können Menschen, die selbst zu Konzepten forschen, die Datenbank mit eigenen Wortlisten erweitern.

Eine solide Datenbank-Basis

„Im NoRaRe-Projekt konnten wir auf mehrere Jahre Erfahrung in der kollaborativen Kodierung und Datenkuratierung aufbauen“, sagt Robert Forkel, Chefprogrammierer der Studie.

Die NoRaRe-Datenbank baut auf dem Concepticon-Projekt (https://concepticon.clld.org) auf, einer Datenbank mit detaillierten Informationen zu Konzepten, die in der linguistischen Feldforschung häufig abgefragt werden, wenn es darum geht, lexikalische Informationen über bisher undokumentierte Sprachen zu sammeln.

„Während Concepticon detaillierte Informationen über Datensätze zu Konzepten liefert, die in verschiedene Sprachen der Welt übersetzt werden, fügt NoRaRe eine neue Dimension hinzu, indem die Datenbank Informationen über die Eigenschaften von Konzepten und Wörtern bereitstellt“, sagt Johann-Mattis List, leitender Autor der Studie.

Eine vielseitige Ressource mit Spielraum zum Wachsen

Um die Fähigkeiten der neuen Datenbank zu testen, wurde in einer Fallstudie untersucht, ob die Häufigkeit von Wörtern in verwandten Sprachen ähnlicher ist als in nicht verwandten Sprachen. Die Studie verwendete drei Wortlisten mit Häufigkeitsdaten für Englisch, Deutsch und Chinesisch aus der NoRaRe-Datenbank. Die Ergebnisse zeigten, dass Englisch und Deutsch mehr Wörter mit ähnlicher Häufigkeit gemeinsam haben als beide Sprachen mit Chinesisch. Aber es gibt noch viele weitere Fragen, die mit den NoRaRe-Daten beantwortet werden könnten. Zum Beispiel: Lernen Kinder, die verschiedene Sprachen sprechen, Wörter für dieselben Konzepte im selben Alter? Erklären Worthäufigkeiten die Stabilität von Wortbedeutungen im Verlauf der Zeit?

„Wenn Forschende feststellen, dass sie ihre Frage mit den in NoRaRe vorhandenen Daten nicht beantworten können, ist es einfach, neue Wortlisten hinzuzufügen“, sagt Annika Tjuka, Erstautorin der aktuellen Studie. „Sie können die Daten entweder selbst hochladen oder uns auf eine bestehende Liste hinweisen, die wir dann hinzufügen. Über die GitHub-Plattform können sie Verbesserungen und Empfehlungen sogar direkt posten.“

Obwohl derzeit nicht jede Variable für alle Sprachen verfügbar ist, bietet NoRaRe Forscherinnen und Forschern die Möglichkeit, diese Lücken zu identifizieren und die Ressource unendlich zu erweitern.

„Wir laden Forschende ein, die Datenbank für ihre interdisziplinären Studien zu nutzen und mit uns gemeinsam die Datenbank so umfassend wie möglich zu gestalten“, sagt Tjuka.


Originalveröffentlichung:

Tjuka, A., Forkel, R. & List, JM
Linking norms, ratings, and relations of words and concepts across multiple language varieties
Behavior Research Methods, 06. August 2021, https://doi.org/10.3758/s13428-021-01650-1

Kontakt:

Annika Tjuka
Max-Planck-Institut für Menschheitsgeschichte, Jena
tjuka@~@shh.mpg.de

Dr. Johann-Mattis List
Max-Planck-Institut für evolutionäre Anthropologie, Leipzig
+49 341 3550 238
mattis_list@~@eva.mpg.de

Robert Forkel
Max-Planck-Institut für evolutionäre Anthropologie, Leipzig
robert_forkel@~@eva.mpg.de

NoRaRe-wordcloud.jpeg
© Annika Tjuka