Abstract
Zusammenfassung. In diesem Beitrag stellen wir childLex vor, eine online-Datenbank zur Schriftsprache für Kinder im Deutschen. childLex basiert auf einem Korpus aus Kinder- und Schulbüchern, das ca. 10 Millionen Wörter umfasst, und stellt verschiedene linguistische Normen auf der lexikalischen, superlexikalischen und sublexikalischen Ebene zur Verfügung. Diese werden in der psychologischen Forschung dringend zur Erstellung von altersadäquaten Stimulus- und Trainingsmaterialien benötigt. Separate Normen sind für drei verschiedene Altersbereiche verfügbar: 6 – 8 Jahre (1. – 2. Klasse), 9 – 10 Jahre (3. – 4. Klasse) und 11 – 12 Jahre (5. – 6. Klasse). Hier beschreiben wir Aufbau und Analyse von childLex und vergleichen Frequenznormen auf der lexikalischen, superlexikalischen und sublexikalischen Ebene mit denen des DWDS-Kernkorpus, eines umfassenden Korpus zur Schriftsprache für Erwachsene. Dabei zeigt sich, dass die beiden Korpora im hochfrequenten Bereich und auf der sublexikalischen Ebene gut übereinstimmen, während sie auf der lexikalischen und superlexikalischen Ebene sowie im mittel- bis niederfrequenten Bereich stark voneinander abweichen. Abschließend erläutern wir, welche Variablen in childLex verfügbar sind und wie sie sich abfragen lassen.
Abstract. In this article we introduce childLex, an online database for children’s print language in German. childLex is based on a large corpus of children’s books and textbooks used in school that comprises ca. 8 million words. It includes linguistic norms on the lexical, super-lexical, and sub-lexical level. Such norms are urgently needed in psychological research for the design of age-adequate stimulus and training materials. Separate norms are available for three age groups: 6 – 8 years (1st and 2nd grade), 9 – 10 years (3rd and 4th grade), and 11 – 12 years (5th and 6th grade). Moreover, childLex is directly comparable to the DWDS corpus, a large corpus for adults’ print language. Here, we describe how childLex was collected and analyzed and compare frequency norms on the lexical, super-lexical, and sub-lexical level with frequency norms obtained from the DWDS corpus. Results show moderate levels of correspondence in the high-frequency range and on the sub-lexical level, but strong discrepancies for medium- and low-frequency elements on the lexical and super-lexical level. Finally, we illustrate which variables are available in childLex and how they can be retrieved using a web interface.
Literatur
1984). Kinderwort. Der aktive Kinderwortschatz (kurz vor der Einschulung). Frankfurt: Lang.
(Hrsg.). (1989). Schriftwortschatz. Untersuchungen und Wortlisten zum orthographischen Lexikon bei Schülern und Erwachsenen. Frankfurt a.M.: Lang.
(2001). Word frequency distributions. Dodrecht: Kluwer.
(1996). CELEX2 [CD-ROM]. Philadelphia, PA: Linguistic Data Consortium.
(2011). The word frequency effect. A review of recent developments and implications for the choice of frequency estimates in German. Experimental Psychology, 58, 412 – 424.
(2009). Moving beyond Kucera and Francis: A critical evaluation of current word frequency norms and the introduction of a new and improved word frequency measure for American English. Behavior Research Methods, 41, 977 – 990.
(2010). Recognition memory for 2,578 monosyllabic words. Memory, 18, 595 – 609.
(2006).
(TAGH: A complete morphology for German based on weighted finite state automata . In A. Yli-JyräL. KarttunenJ. KarhumäkiEds., Finite state methods and natural language processing (pp. 55 – 66). Berlin: Springer.1988). Vocabulary simplication for children: A special case of ‘motherese’? Journal of Child Language, 15, 395 – 410.
(2012).
(Comparing word frequencies from different German text corpora . In K.-M. WürznerE. PohlEds., Lexical ressources in psycholinguistic research (pp. 27 – 44). Potsdam: Universitätsverlag Potsdam.2011). dlexDB–eine lexikalische Datenbank für die psychologische Forschung. Psychologische Rundschau, 62, 10 – 20.
(2014). SUBTLEX-UK: A new and improved word frequency database for British English. Quarterly Journal of Experimental Psychology, 67, 1176 – 1190.
(Jurish, B. (2003). Part-of-Speech tagging with finite state morphology. Poster präsentiert auf der Konferenz Collocations and Idioms: Linguistic, Computational, and Psycholinguistic Perspectives, Berlin.2013). Word and sentence tokenization width hidden Markov models. Journal of Language Technology and Computational Linguistics, 28, 61 – 83.
(1898). Häufigkeitswörterbuch der deutschen Sprache. Berlin: Selbstverlag.
(Hrsg.). (2002). Early lexical development in German: A study on vocabulary growth and vocabulary composition during the second and third year of life. Journal of Child Language, 29, 735 – 757.
(2013). Reassessing word frequency as a determinant for word recognition in skilled and unskilled readers. Journal of Experimental Psychology: Human Perception and Performance, 39, 802 – 823.
(2004). MANULEX: A grade-level lexical database from French elementary school readers. Behavior Research Methods, 36, 156 – 166.
(2008). ONESC: A database of orthographic neighbors for Spanish read by children. Behavior Research Methods, 40, 191 – 197.
(2010). Children’s printed word database: Continuities and changes over time in children’s early reading vocabulary. British Journal of Psychology, 101, 221 – 242.
(1999). Orientierungswortschatz. Die wichtigsten Wörter und Regeln für die Rechtschreibung Klasse 1 bis 6. Weinheim: Beltz.
(1987). Der Wortschatz im Grundschulalter. Hildesheim: Olm.
(2014). ESCOLEX: A grade-level lexical database from European Protuguese elementary to middle school textbooks. Behavior Research Methods, 46, 240 – 253.
(2012). Kompetenzen von Schülerinnen und Schülern am Ende der vierten Jahrgangsstufe in den Fächern Mathematik und Deutsch. Münster: Waxmann.
(Hrsg.). (2000). Progress in understanding reading: Scientific foundations and new frontiers. New York: Guilford.
(2013). Spracherwerb beim Kind: Ein Lehrbuch (5., vollst. überarb. Aufl.). Weinheim: Beltz.
(2002). Sociolinguistics (4th ed.). Malden: Blackwell.
(2002). The probability of the least likely non-length-controlled bigram affects lexical decision reaction times. Brain & Language, 81, 66 – 78.
(1995). The educator’s word frequency guide. Brewster: Touchstone.
(