Skip to main content
Published Online:https://doi.org/10.1026/0033-3042/a000275

Zusammenfassung. In diesem Beitrag stellen wir childLex vor, eine online-Datenbank zur Schriftsprache für Kinder im Deutschen. childLex basiert auf einem Korpus aus Kinder- und Schulbüchern, das ca. 10 Millionen Wörter umfasst, und stellt verschiedene linguistische Normen auf der lexikalischen, superlexikalischen und sublexikalischen Ebene zur Verfügung. Diese werden in der psychologischen Forschung dringend zur Erstellung von altersadäquaten Stimulus- und Trainingsmaterialien benötigt. Separate Normen sind für drei verschiedene Altersbereiche verfügbar: 6 – 8 Jahre (1. – 2. Klasse), 9 – 10 Jahre (3. – 4. Klasse) und 11 – 12 Jahre (5. – 6. Klasse). Hier beschreiben wir Aufbau und Analyse von childLex und vergleichen Frequenznormen auf der lexikalischen, superlexikalischen und sublexikalischen Ebene mit denen des DWDS-Kernkorpus, eines umfassenden Korpus zur Schriftsprache für Erwachsene. Dabei zeigt sich, dass die beiden Korpora im hochfrequenten Bereich und auf der sublexikalischen Ebene gut übereinstimmen, während sie auf der lexikalischen und superlexikalischen Ebene sowie im mittel- bis niederfrequenten Bereich stark voneinander abweichen. Abschließend erläutern wir, welche Variablen in childLex verfügbar sind und wie sie sich abfragen lassen.


childLex–A Lexical Database for Print Language for Children in German

Abstract. In this article we introduce childLex, an online database for children’s print language in German. childLex is based on a large corpus of children’s books and textbooks used in school that comprises ca. 8 million words. It includes linguistic norms on the lexical, super-lexical, and sub-lexical level. Such norms are urgently needed in psychological research for the design of age-adequate stimulus and training materials. Separate norms are available for three age groups: 6 – 8 years (1st and 2nd grade), 9 – 10 years (3rd and 4th grade), and 11 – 12 years (5th and 6th grade). Moreover, childLex is directly comparable to the DWDS corpus, a large corpus for adults’ print language. Here, we describe how childLex was collected and analyzed and compare frequency norms on the lexical, super-lexical, and sub-lexical level with frequency norms obtained from the DWDS corpus. Results show moderate levels of correspondence in the high-frequency range and on the sub-lexical level, but strong discrepancies for medium- and low-frequency elements on the lexical and super-lexical level. Finally, we illustrate which variables are available in childLex and how they can be retrieved using a web interface.

Literatur

  • Augst, G. (Hrsg.). (1984). Kinderwort. Der aktive Kinderwortschatz (kurz vor der Einschulung). Frankfurt: Lang. First citation in articleGoogle Scholar

  • Augst, G. (1989). Schriftwortschatz. Untersuchungen und Wortlisten zum orthographischen Lexikon bei Schülern und Erwachsenen. Frankfurt a.M.: Lang. First citation in articleGoogle Scholar

  • Baayen, R. H. (2001). Word frequency distributions. Dodrecht: Kluwer. First citation in articleCrossrefGoogle Scholar

  • Baayen, R. H., Piepenbrock, R. & Guilkers, L. (1996). CELEX2 [CD-ROM]. Philadelphia, PA: Linguistic Data Consortium. First citation in articleGoogle Scholar

  • Brysbaert, M., Buchmeier, M., Conrad, M., Jacobs, A. M., Bölte, J. & Böhl, A. (2011). The word frequency effect. A review of recent developments and implications for the choice of frequency estimates in German. Experimental Psychology, 58, 412 – 424. First citation in articleLinkGoogle Scholar

  • Brysbaert, M. & New, B. (2009). Moving beyond Kucera and Francis: A critical evaluation of current word frequency norms and the introduction of a new and improved word frequency measure for American English. Behavior Research Methods, 41, 977 – 990. First citation in articleCrossrefGoogle Scholar

  • Cortese, M. J., Khanna, M. M. & Hacker, S. (2010). Recognition memory for 2,578 monosyllabic words. Memory, 18, 595 – 609. First citation in articleCrossrefGoogle Scholar

  • Geyken, A. & Hanneforth, T. (2006). TAGH: A complete morphology for German based on weighted finite state automata. In A. Yli-JyräL. KarttunenJ. KarhumäkiEds., Finite state methods and natural language processing (pp. 55 – 66). Berlin: Springer. First citation in articleGoogle Scholar

  • Hayes, D. P. & Ahrens, M. G. (1988). Vocabulary simplication for children: A special case of ‘motherese’? Journal of Child Language, 15, 395 – 410. First citation in articleCrossrefGoogle Scholar

  • Heister, J. & Kliegl, R. (2012). Comparing word frequencies from different German text corpora. In K.-M. WürznerE. PohlEds., Lexical ressources in psycholinguistic research (pp. 27 – 44). Potsdam: Universitätsverlag Potsdam. First citation in articleGoogle Scholar

  • Heister, J., Würzner, K.-M., Bubenzer, J., Pohl, E., Henneforth, T., Geyken, A. & Kliegl, R. (2011). dlexDB–eine lexikalische Datenbank für die psychologische Forschung. Psychologische Rundschau, 62, 10 – 20. First citation in articleLinkGoogle Scholar

  • Heuven, W. J. B. van, Mandera, P., Keuleers, E. & Brysbaert, M. (2014). SUBTLEX-UK: A new and improved word frequency database for British English. Quarterly Journal of Experimental Psychology, 67, 1176 – 1190. First citation in articleCrossrefGoogle Scholar

  • Jurish, B. (2003). Part-of-Speech tagging with finite state morphology. Poster präsentiert auf der Konferenz Collocations and Idioms: Linguistic, Computational, and Psycholinguistic Perspectives, Berlin. First citation in articleGoogle Scholar

  • Jurish, B. & Würzner, K.-M. (2013). Word and sentence tokenization width hidden Markov models. Journal of Language Technology and Computational Linguistics, 28, 61 – 83. First citation in articleGoogle Scholar

  • Kaeding, F.-W. (Hrsg.). (1898). Häufigkeitswörterbuch der deutschen Sprache. Berlin: Selbstverlag. First citation in articleGoogle Scholar

  • Kauschke, C. & Hofmeister, C. (2002). Early lexical development in German: A study on vocabulary growth and vocabulary composition during the second and third year of life. Journal of Child Language, 29, 735 – 757. First citation in articleCrossrefGoogle Scholar

  • Kuperman, V. & Dyke, J. A. van (2013). Reassessing word frequency as a determinant for word recognition in skilled and unskilled readers. Journal of Experimental Psychology: Human Perception and Performance, 39, 802 – 823. First citation in articleCrossrefGoogle Scholar

  • Lété, B., Sprenger-Charolles, L. & Colé, P. (2004). MANULEX: A grade-level lexical database from French elementary school readers. Behavior Research Methods, 36, 156 – 166. First citation in articleCrossrefGoogle Scholar

  • Martinez, J. A. & Perez, M. E. (2008). ONESC: A database of orthographic neighbors for Spanish read by children. Behavior Research Methods, 40, 191 – 197. First citation in articleCrossrefGoogle Scholar

  • Masterson, J., Stuart, M., Dixon, M. & Lovejoy, S. (2010). Children’s printed word database: Continuities and changes over time in children’s early reading vocabulary. British Journal of Psychology, 101, 221 – 242. First citation in articleCrossrefGoogle Scholar

  • Naumann, C. L. (1999). Orientierungswortschatz. Die wichtigsten Wörter und Regeln für die Rechtschreibung Klasse 1 bis 6. Weinheim: Beltz. First citation in articleGoogle Scholar

  • Pregel, D. & Rickheit, G. (1987). Der Wortschatz im Grundschulalter. Hildesheim: Olm. First citation in articleGoogle Scholar

  • Soares, A. P., Medeiros, J. C., Simoes, A., Machado, J., Costa, A., Iriarte, A., Almeida, J. J. de, Pinheiro, A. P. & Comesana, M. (2014). ESCOLEX: A grade-level lexical database from European Protuguese elementary to middle school textbooks. Behavior Research Methods, 46, 240 – 253. First citation in articleCrossrefGoogle Scholar

  • Stanat, P., Pant, H. A., Böhme, K. & Richter, D. (Hrsg.). (2012). Kompetenzen von Schülerinnen und Schülern am Ende der vierten Jahrgangsstufe in den Fächern Mathematik und Deutsch. Münster: Waxmann. First citation in articleGoogle Scholar

  • Stanovich, K. E. (2000). Progress in understanding reading: Scientific foundations and new frontiers. New York: Guilford. First citation in articleGoogle Scholar

  • Szagun, G. (2013). Spracherwerb beim Kind: Ein Lehrbuch (5., vollst. überarb. Aufl.). Weinheim: Beltz. First citation in articleGoogle Scholar

  • Wardhough, R. (2002). Sociolinguistics (4th ed.). Malden: Blackwell. First citation in articleGoogle Scholar

  • Westbury, C. & Buchanan, L. (2002). The probability of the least likely non-length-controlled bigram affects lexical decision reaction times. Brain & Language, 81, 66 – 78. First citation in articleCrossrefGoogle Scholar

  • Zeno, S. M., Ivens, S. H., Millard, R. T. & Duvvuri, R. (1995). The educator’s word frequency guide. Brewster: Touchstone. First citation in articleGoogle Scholar