Brug af korpus
Korpus tjener tre vigtige formål i ordbogsarbejdet: Det er et grundlæggende redskab for redaktionen ved beskrivelsen af opslagsordenes betydning og brug, det er en del af grundlaget for udvælgelse af hvilke opslagsord der skal tages med i ordbogen, og det er en væsentlig kilde for ordbogens mange citater og andre eksempler på autentisk sprogbrug.
Undersøgelse af sprogbrugen
Formålet med at bruge et elektronisk korpus er grundlæggende det samme som ordbogsredaktøren i "gamle dage" havde for øje da han hentede sin seddelkasse: at fremskaffe alle forekomster i materialet af et givet ord. Et særligt søgeværktøj udviklet til korpussøgning kan meget hurtigt finde alle disse forekomster i korpus, inklusive forekomsterne af ordets bøjningsformer, og opstille dem i en såkaldt konkordans, hvor det søgte ord står i midten på hver linje, placeret i sin tekstlige sammenhæng. Læs mere om konkordanser på KorpusDK.

Konkordans der viser et udsnit af
forekomster af ordet overflødig-
hedshorn (vis billede i fuld størrelse)
Selvom korpusværktøjet og indholdet i korpus i dag er lidt anderledes end da DDO blev udarbejdet, kan et eksempel fra en søgning i KorpusDK vise redaktionens fremgangsmåde. Billedet til venstre viser forekomster efter en søgning i Korpus 90 på ordet overflødighedshorn. Der er 40 forekomster af ordet i Korpus 90, inklusive bøjningsformer. Det er et antal der gør det overkommeligt at studere den sammenhæng som hver enkelt forekomst optræder i. Ved at klikke på en konkordanslinje kan man se et udsnit af den tekst hvori den enkelte forekomst indgår. Man opdager så at ordet overflødighedshorn betyder noget forskelligt alt efter sammenhængen. Der tegner sig et billede med tre ret klart adskilte betydninger, en hovedbetydning, en underbetydning og en overført brug. På grundlag af de tre grupper forekomster bygges ordbogsartiklen om overflødighedshorn op som vist på billedet til højre.
Man kan også se at de tre citater der illustrerer de tre betydninger, er taget fra korpus; de er fremhævet med gult i konkordansen.
Korpus og det tilhørende søgeprogram kan bruges til en række andre sproglige undersøgelser af stor betydning for ordbogen. For eksempel kan man finde ud af hvor udbredte de forskellige former af et opslagsord er i forhold til hinanden. Det gælder såvel på niveauet former og stavemåder som på niveauet bøjningsformer. Et par eksempler: Formerne collage og kollage, som begge tilhører den officielle norm, har henholdsvis 101 og 8 forekomster (inklusive bøjningsformer), hvilket giver anledning til kommentaren "især i formen collage" i artiklen collage. For verbet affarve foreligger 14 ud af 26 forekomster i bøjningsformen præteritum participium brugt som adjektiv, fx i forbindelsen affarvet hår. Derfor kommentaren "almindelig i præteritum participium brugt som adjektiv" i artiklen affarve.
Det er muligt at undersøge om et bestemt ord er begrænset til eller karakteristisk for en bestemt slags sprogbrug. Det kan illustreres med eksemplet annamme, hvor det viser sig at 4 ud af de 7 forekomster der stammer fra sprogbrugere hvis fødselsår er kendt, hidrører fra sprogbrugere født inden for perioden 1910-1925. Da denne fordeling passer med det almindelige indtryk af ordets brug, er brugsbestemmelsen "gammeldags" anført i artiklen. Et andet og statistisk bedre funderet eksempel er ordet andetsteds med 216 forekomster i skriftsprog og 9 forekomster i talesprog. Der er tale om en klar overrepræsentation i skriftsprog idet skriftsprog udgør ca. 82 % af korpus. Derfor brugsbestemmelsen "især skriftsprog" i artiklen andetsteds.
En oplagt mulighed for brug af et korpus er undersøgelser af et ords forekomst sammen med andre ord. Hvilke forbindelser med andre ord indgår ordet typisk i? For at finde ud af det kan man, hvis der i korpus er et forholdsvis begrænset antal forekomster af ordet, bruge konkordansen for ordet idet man kan ordne forekomsterne alfabetisk efter hvilket ord der kommer umiddelbart efter eller umiddelbart før ordet, og derefter se om der viser sig nogle gengangere ned gennem konkordansen. For eksempel har ordet barnløs 197 forekomster i korpus, og ved at ordne forekomsterne alfabetisk efter hvad der kommer en plads til højre for ordet, får man øje på følgende hyppige samforekomster: barnløse/barnløst ægtepar (20 stk.), barnløse/barnløst par (18 stk.), barnløse kvinde(r) (8 stk.) og barnløst/barnløse ægteskab (7 stk.). Faktisk udgør disse samforekomster tilsammen over 25 % af alle de forekommende kombinationer. Når de 197 forekomster af barnløs ordnes alfabetisk efter hvad der kommer en plads til venstre for ordet, finder man den forholdsvis hyppige samforekomst ufrivilligt barnløs (7 stk.). Undersøgelserne resulterer i de sprogbrugseksempler der er anført i artiklen barnløs.
I et tilfælde som begrænset, med næsten 2000 forekomster i korpus (inklusive bøjningsformen begrænsede), er det nok muligt, men langsommeligt at bruge metoden med sortering af konkordansen og optællinger. Her bruges i stedet en statistisk undersøgelse til at vise hvilke ord der ofte optræder sammen med opslagsordet. Det er den form for søgning der i KorpusDK kaldes for Naboord. Resultatet er en liste med de ord øverst der typisk optræder til højre for begrænset, og en tilsvarende liste med de ord der typisk optræder til venstre for ordet. Billedet her viser resultatet af en søgning efter Naboord i KorpusDK. Disse statistikker udgør grundlaget for sprogbrugseksemplerne i artiklen begrænset. Søg efter naboord i KorpusDK.
Også når det gælder om at finde et ords konstruktionsmuligheder i sproget, er et korpus et uhyre nyttigt redskab fordi man på den måde hurtigt kan skaffe sig overblik over et stort eksempelmateriale og se nogle mønstre udkrystallisere sig. Hvis man laver en konkordans for substantivet chance og sorterer den på højre side, bliver det hurtigt klart at præpositionen for bruges hyppigt sammen med chance. Men det fremgår også at præpositionen til ikke er helt sjælden. Konkurrerer disse to præpositioner om pladsen efter chance i udtryk der betyder det samme?
Det er der noget der tyder på. Konstruktionen en chance for at+INFINITIV er dominerende, men en chance for kan også efterfølges af en at-sætning eller et substantiv. Endelig er der nogle få konstruktioner af typen en chance til at+INFINITIV. Undersøgelsen giver et resultat der kan præsenteres som vist i grammatikdelen af artiklen chance.

Fra opslagsordet chance i Den Danske Ordbog
Konstruktionen med til forekommer ikke i gængse danske ordbøger, fx Erik Bruun: Dansk Sprogbrug, og redaktionen, der godt kender konstruktionen, har fundet at den anførte kommentar om ukorrekthed er berettiget. Men det afgørende er naturligvis at et korpus med faktisk forekommende danske tekster gør det muligt at studere sproget som det virkelig er. I tilfældet chance afsløres et alternativt konstruktionsmønster, der måske ellers ikke ville komme med i den beskrivelse af moderne dansk som Den Danske Ordbog skal levere.
Udvælgelse af opslagsord
Takket være den størrelse korpus har, kan man regne med at det giver et nogenlunde retvisende billede af de forskellige ords udbredelse i nutidigt dansk, i hvert fald når det gælder ord der ikke er sjældne. Derfor giver det antal korpusforekomster der er af et ord (eventuelle bøjningsformer medregnet), et fingerpeg om ordets udbredelse i sproget og dermed dets status som kandidat til medtagelse i Den Danske Ordbog.
Redaktionen har dog ikke ønsket at basere sig på korpus alene ved udvælgelsen af opslagsord. Det er væsentligt at sikre at også forholdsvis sjældne eller blot mindre almindelige ord har en fair chance for at komme med i ordbogen; der kan jo være "huller" i korpus på grund af et stedvis uheldigt tekstvalg. Derfor forekommer det rimeligt at tage hensyn til det ordstof der findes i eksisterende danske ordbøger, også for at dække perioden fra 1950'erne og frem til 1983, det år som de tidligste korpustekster stammer fra. Således udgør Retskrivningsordbogen, to store elektronisk tilgængelige fremmedsprogsordbøger og en ordsamling fra Dansk Sprognævn den anden del af grundlaget for udvælgelsen af opslagsord.
Alle ord og ordformer fra korpus og de nævnte andre kilder blev samlet i en database hvor der i første omgang skete en automatisk udpegning af kandidater til medtagelse i ordbogen på grundlag af forekomster i korpus og de andre kilder. Den automatiske udpegning var udgangspunktet for ordbogsredaktørernes stillingtagen til medtagelse eller ej ud fra en helhedsvurdering hvor også andre faktorer spillede ind, fx forekomster på internettet eller indberetninger fra ordbogens kreds af sproginteresserede meddelere, spORDhundene.
Resultatet er blevet den foreliggende mængde af opslagsord, som har en udbredelse i moderne dansk der berettiger til optagelse og behandling i en modersmålsordbog af Den Danske Ordbogs størrelse. Ordbogen dækker det nutidige danske sprog og medtager normalt ikke ord der ikke eller næsten ikke bruges i moderne dansk. Dette er et grundlæggende princip for ordbogen, og man vil finde at den ikke medtager samtlige de ord der står i Retskrivningsordbogen, men også at den medtager flere og andre end dem.
Udvælgelse af citater og andre sprogbrugseksempler
Alle de eksempler der er brugt til at vise faktisk sprogbrug i Den Danske Ordbog, er autentisk sprog. Det vil sige at ordbogen ikke indeholder nogen citater som er udformet af en redaktør for at vise en bestemt betydning eller brug. Faktisk har kravet om autentiske citater været så strengt at redaktørerne heller ikke uden videre har kunnet skære citaterne til så de blev mere mundrette. Fordi de er taget ud af en sproglig sammenhæng, indeholder de små tekstbidder ofte en række træk der netop peger rundt i den omgivende tekst de stammer fra: De kan have en anden ordstilling, indeholde småord som kun kan forstås i den konkrete kommunikationssituation (derfor, her, til gengæld osv.) eller navnestof som er påfaldende uden for den aktuelle tekst. Derfor kan det være nødvendigt at ændre ved et eksempel hvis det skal fungere som et citat i en ordbogsartikel. Men pga. kravet om autentiske citater kan man altid se hvis et eksempel er blevet ændret i forhold til den oprindelige tekst: To prikker viser hvis der er blevet udeladt noget fra den oprindelige tekst, og ord i skarpe parenteser viser at noget er blevet ændret eller tilføjet. Man kan se eksempler på begge dele i artiklen overflødighedshorn herover (læs endvidere mere i afsnittet Redigering af citater).
Gå til næste afsnit: Beskrivelse eller norm
Gå til forrige afsnit: En korpusbaseret ordbog


