En korpusbaseret ordbog
En samling tekster der er udvalgt og sammensat med henblik på nogle bestemte sproglige eller litterære undersøgelser, kaldes et korpus. Den Danske Ordbogs elektroniske korpus, der primært er beregnet til brug ved udarbejdelsen af ordbogen, består af 44.000 kortere eller længere danske tekster med i alt 40 millioner løbende ord. I talemåden et ord er et ord er der 5 løbende ord, men kun 3 forskellige ord; der er altså ikke 40 millioner forskellige ord i korpus. Korpus er sammensat så det bredt og alsidigt afspejler dansk skriftsprog og talesprog i tiårsperioden 1983-1992. Teksterne repræsenterer både alment sprog og fagligt sprog, både offentligt sprog (fx i aviser) og privat sprog (fx i privatbreve). Der er lagt særlig vægt på at få talesprog og almindelige menneskers sprog fyldigt repræsenteret. Teksterne stammer alle mulige steder fra: aviser, blade, bøger, radio, tv, talesprogsinterviews, folketingsdebatter, reklamer, tegneserier, breve, skolestile, dagbøger, brochurer og meget mere.
Hver af de 44.000 tekster er forsynet med en lang række oplysninger om teksten, bl.a.
- kilde: B.T., Femina, en roman af Klaus Rifbjerg, TV2, en folder om sukkersyge osv.
- dato og årstal
- sprogbrugerens navn, køn, fødselsår, fødested, nuværende bopæl, uddannelse og stilling
- skriftsprog eller talesprog
- alment sprog eller fagligt sprog
- offentligt sprog eller privat sprog
- medium: avis, blad, bog osv.
- genre: kronik, interview, novelle, privatbrev osv.
- emne: politik, madlavning, jura osv.
Disse oplysninger kan bruges ved undersøgelser af om et ord, et udtryk eller en betydning er begrænset til eller karakteristisk for en bestemt slags sprogbrug, fx ungt sprog, talesprog eller sportsjournalistik.
Gå til næste afsnit: Brug af korpus
Gå til forrige afsnit: Metoder og kilder
