UDC 811.113.4 Mikolaj Sobkowiak
Adam Mickiewicz University in Poznan, Poland
HVORDAN SKRIVER POLSKE F0RSTEÂRSSTUDERENDE? EN KORPUSUNDERS0GELSE AF SYNTAKTISK KOMPLEKSITET I DANSK SOM FREMMEDSPROG1
For citation: Sobkowiak M. Hvordan skriver Polske f0rsteârsstuderende? En kor-pusunders0gelse af syntaktisk kompleksitet i dansk som fremmedsprog. Scandinavian Philology, 2019, vol. 17, issue 1, pp. 36-54. https://doi.org/10.21638/11701/spbu21.2019.103
Lingvistisk kompleksitet anses for at vœre en god indikator for sprogindlœreres prestation og udvikling. I de sidste ârtier er lingvistisk, og isœr syntaktisk, kompleksitet blevet et populœrt og vigtigt forskningsomrâde inden for andet- og fremmedsprogs-tilegnelsen, og diverse kompleksitetsindekser har vœret anvendt i forskningen som mâlestok for syntaksen og ordforrâdet i L2-tekster. I denne artikel unders0ger jeg den syntaktiske kompleksitet i tekster skrevet pâ dansk af unge polakker. Det unders0gte materiale bestâr af eksamensopgaver skrevet af polske danskstuderende efter studiets f0rste ârgang, og de stammer fra forskellige ârgange over de sidste 20 âr. Tekster skrevet pâ de forskellige ârgange varierer til en vis grad angâende bâde l0rner- og opgaverela-terede variabler, og jeg anvender en rœkke kompleksitetsindekser for at unders0ge disse variablers spor i de unders0gte teksters syntaks. Jeg fokuserer pâ forskelle pâ tvœrs af l0rnergrupper, tekstgenrer og de studerendes k0n.
Nogleord: dansk som fremmedsprog, syntaktisk kompleksitet, korpuslingvistik, l0rnerkorpus.
1. INDLEDNING
Lingvistisk kompleksitet kan defineres som "the extent to which language produced in performing a task is elaborate and varied" [Ellis, 2003, p. 140], og den kan analyseres pâ sprogsystemets diverse ni-
1 Artiklen er en udvidet udgave af forfatterens oplœg holdt under konferencen MUDS17 i oktober 2018.
veauer (jf. [Boulte, Housen, 2014, p. 43]). Der er i faglitteraturen tale om at skelne mellem absolut og relativ lingvistisk kompleksitet, hvor den forstn^vnte type er forbundet med de producerede sproglige en-heders grammatiske egenskaber samt deres indbyrdes relationer. Ter-men absolut kompleksitet antyder dog, at der er tale om et objektivt og teorineutralt koncept, og derfor anvender man nogle gange den mindre kontroversielle betegnelse strukturel kompleksitet i stedet for (jf. [Berg-green, Sorland, 2016]). Til geng^ld associeres relativ kompleksitet, som ogsä er kendt som psykologisk kompleksitet, med de päg^ldende en-heders kognitive sv^rhedsgrad (jf. [Boulte, Housen, 2014, p. 43]). I det folgende anvendes betegnelsen kompleksitet i den absolutte/strukturelle betydning, dvs. uden henvisning til det kognitive.
Resultaterne af flere undersogelser peger pä, at lingvistisk kompleksitet er en alment anvendt og trov^rdig indikator for lorneres sproglige kompetencer (jf. [Boulte, Housen, 2014; Lahuerta Martinez, 2018]), og den har spillet en vigtig rolle i bäde L2-forskning og -bedommelse (jf. [Lu, 2017, p. 494; Kyle, Crossley, 2018, p. 333]). Dette g^lder unders0-gelser af kompleksitet pä forskellige niveauer af sproganalyse (syntaks, ordforräd), men det er syntaktisk kompleksitet, der har fäet mest op-m^rksomhed blandt sprogforskere i de seneste är (jf. [Lu, 2017, p. 496]).
Selv blandt unders0gelser af syntaktisk kompleksitet er der stor variation med hensyn til unders0gelsernes fokus og formäl. Mens nogle af tengdeunders0gelserne fokuserer pä udviklingen i kompleksitet over längere perioder (f.eks. [Berggreen, S0rland, 2016; Kowal, 2016]), er formälet med andre unders0gelser bäde at mäle og analysere komplek-sitetens udvikling og lede efter potentielle korrelationer mellem v^rdi-erne for kompleksitetsindekser og de unders0gte skriftlige opgavers ho-listiske vurderinger (f. eks. [Boulte, Housen, 2014; Lahuerta Martinez, 2018]). Derimod har andre, f.eks. Moe [Moe, 2012], unders0gt syntaktisk kompleksitet i forhold til forskellige niveauer i Den europ^iske felles referenceramme for sprog (CEFR), mens Lu [Lu, 2010] og Kyle [Kyle, 2016] bäde har fokuseret pä at mäle syntaktisk kompleksitet pä forskellige kompetenceniveauer og pä at evaluere reliabiliteten af et IT-v«rkt0j skabt til de päg^ldende formäl.
Til trods for de n^vnte forskelle har de fleste unders0gelser af strukturel syntaktisk kompleksitet det til felles, at de anvender en rakke kompleksitetsindekser. Indekserne illustrerer, hver pä sin egen mäde, udvalgte aspekter af, hvor sofistikerede og varierede de unders0gte
sproglige enheder er. I de sidste âr blev nogle af de "klassiske" indekser kritiseret for at vœre for generelle (og dermed ikke gode nok) indikatorer for lornernes sproglige kompetencer. I stedet for foreslog nogle for-skere anvendelsen af mere "fine-grained" indekser (jf. [Kyle, 2016; Kyle, Crossley, 2018]). Til trods for det er der mange, som fortsat bruger de mere generelle kompleksitetsindekser med gode resultater (f. eks. [Bul-té, Housen, 2018; Kowal, 2016; Lu, 2017; Lahuerta Martinez, 2018]).
Formâlet med denne artikel er at prœsentere resultaterne af en tvœr-snitsundersogelse af syntaktisk kompleksitet i tekster skrevet pâ dansk af unge polakker. Det unders0gte materiale er eksamensopgaver i praktisk dansk skrevet af polske danskstuderende efter studiets f0rste ârgang, og de stammer fra udvalgte ârgange i perioden 1996-2016. Der er en vis variation pâ tvœrs af ârgangene angâende bâde l0rner- og opgaverela-terede variabler, og jeg vil anvende en rœkke kompleksitetsindekser for at unders0ge, hvorvidt disse variablers spor kan ses i de unders0gte tek-sters syntaks.
I det f0lgende vil jeg prœsentere mine forskningssp0rgsmâl samt un-ders0gelsens design, hvor jeg vil lœgge sœrlig vœgt pâ de unders0gte l0r-nerdata og opmœrkning deraf samt de anvendte kompleksitetsindekser (afsnit 2). I afsnit 3 prœsenterer jeg og analyserer unders0gelsens resultater, og til sidst drager jeg konklusioner og kommenterer resultaterne (afsnit 4).
2. UNDERS0GELSENS DESIGN 2.1. Problemformulering
Som nœvnt ovenfor er det overordnede formâl med denne under-s0gelse at analysere syntaktisk kompleksitet i korte tekster skrevet pâ dansk af unge polakker, som stammer fra 4 forskellige l0rnergrupper. Generelt kan indholdet i tekster produceret af l0rnere, herunder kompleksitet, ordforrâdets diversitet samt sprogets korrekthed, pâvirkes af mange l0rner- og opgaverelaterede variabler (jf. [Granger, 2008, p. 264]), og derfor mâ ethvert korpus baseret pâ l0rnerdata bygges pâ grundlag af "vel gennemtœnkte designkriteria" [Tono, 2016, p. 48].
Da der er en vis variation mellem de unders0gte tekster angâende l0rner- og opgaverelaterede variabler, vil jeg med udgangspunkt i de-res potentielle effekt pâ indholdet fors0ge at besvare de f0lgende forsk-ningssp0rgsmâl:
1. Er der forskelle angäende teksternes syntaktiske kompleksitet pä tv^rs af de unders0gte lornergrupper, og hvis de findes, kan de forbindes med nogle af de omtalte variabler?
2. Er der forskelle angäende syntaktisk kompleksitet i forbindelse med l0rnervariablen k0n?
Begge sporgsmälenes relevans kan begrundes ud fra tidligere forsk-ningsresultater. Blandt sprogtilegnelsesforskere er der n^ppe tvivl om, at lorneres prestation og deres sprogs kompleksitet kan afhsnge af sädanne lornerrelaterede faktorer som alder, eksponeringstid, kompetenceniveau og modersmäl (jf. f.eks. [Holmen, 1990], i forbindelse med dansk som an-detsprog). Derudover peger Polio og Yoon [Polio, Yoon, 2018] pä, at tek-stens genre kan have indflydelse pä sprogets kompleksitet, mens bl.a. La-huerta Martínez [Lahuerta Martínez, 2018] har identificeret forskelle med hensyn til syntaktisk kompleksitet i tekster skrevet af hhv. drenge og piger.
2.2. Korpusdata
Det undersogte korpus bestär af i alt 53 skriftlige eksamensopgaver produceret af 4 grupper polske danskstuderende efter danskstudiets forste ärgang. I Tabel 1 präsenteres en oversigt over antallet af tekster fra de respektive grupper, herunder konsfordelingen.
Tabel 1. Oversigt over tekstantal og konsfordeling i de 4 undersogte grupper
Gruppe Kvinder Msnd I alt
DK1 (n2) 11 3 14
DK2 (n-1 är) 14 2 16
DK3 (n-10 är) 6 4 10
DK4 (n-20 är) 9 4 13
Selv om man aldrig kan eliminere lornervariablernes effekt fuldstendigt [Lund, 1997, s. 143], udgor de studerende overordnet set en relativt homogen gruppe med hensyn til Grangers [Grangers, 2008, p. 264] klassifikation
2 "N" stär for det är, teksterne i den pägsldende lornergruppe blev skrevet.
Figur 1. Grangers klassificering af lorner- og opgaverelaterede variabler [Granger, 2008, p. 264]
af generelle l0rnervariabler, jf. figur 1. Langt de fleste er 20 är gamle, og de har alle sammen polsk som modersmäl. De kommer fra forskellige dele af Polen, men dette synes ikke at have nogen indflydelse pä deres tilegnelse af dansk. Der er langt flere kvinder i den undersogte gruppe end m^nd (hhv. 75 % vs. 25 %), hvilket historisk set ikke er nogen markant afvigelse fra det s^dvanlige pä danskstudiet pä det universitet, hvor de studerende har l^st.
Angäende de L2-specifikke l0rnervariabler manifesteres gruppens homogenitet ved, at ingen af de studerende kunne noget dansk ved ud-dannelsens päbegyndelse. To af grupperne, DK1 og DK2, er naboärgange og har v^ret igennem stort set det samme undervisningsforl0b (antal timer, materialer, undervisere, metoder), men der kan forekomme nogle forskelle pä det omräde mellem de to n^vnte grupper og DK3 samt DK4. For eksempel har DK4 haft v^sentligt flere undervisningstimer end de 0vrige grupper, jf. Tabel 2. Forskellene skyldes, at DK3-gruppen skrev deres opgaver 10 är og DK4 20 är f0r DK1. Af denne grund er det ogsä sv^rt at sige pracist, hvad forskellene angäende de anvendte metoder, materialer samt underviserne bestär i, grundet manglende dokumentation for den ^ldste gruppe. Ellers har alle de unders0gte studerende i samtlige grupper behersket engelsk og/eller tysk pä et h0jt niveau.
De unders0gte tekster ligner hinanden meget angäende de fleste af Granges opgaverelaterede variabler [Granger, 2008, p. 264], da de alle sam-men er skrevet i händen, uden hj^lpemidler og under en form for tidspres.
Tabel 2. Oversigt over de undersogte lornergrupper mht. teksternes oprindelsesár og antal undervisningstimer i dansk
Studiear Är Antal undervisningstimer
1 n (efter 2010) 270
1 n-1 270
1 n-10 270
1 n-20 420
Emnemsssigt kan de alle sammen siges at vsre af almensproglig karakter (i modsstning til fagtekster), men de tilh0rer forskellige genrer, hvilket hsn-ger sammen med de respektive gruppers opgaveformuleringer (jf. Tabel 3).
Tabel 3. Oversigt over de undersogte tekster mht. tekstl®ngde og opgaveformulering
Gruppe Gennemsnitlig tekstlsngde Opgaveformulering
DK1 186,64 Skriv en historie ud fra billedet.
DK2 186,94 Skriv en historie ud fra billedet.
DK3 317,50 1. Skriv en historie om hvad der skete f0r og efter fotoet blev taget. (3 tekster) 2. Danmark og danskere. Hvilket indtryk har du faet af Danmark og danskere i l0bet af dette ars studier? (7 tekster)
DK4 303,78 ? Skriv en historie ud fra billederne.
Som det fremgär af Tabel 3 er der ogsä variation pä tvsrs af grup-perne mht. til gennemsnitlig tekstlsngde, men dette er ikke relevant for denne unders0gelse, da ingen af de anvendte kompleksitetsmäl er forbundet med overordnet tekstlsngde som sädan.
2.3. Dataopm^rkning og -behandling
Alle teksterne er blevet digitaliseret, og de eneste sndringer foreta-get undervejs er, at tal er blevet erstattet af tilsvarende talord og ikke-sstningsfinale punktummer blev fjernet. Bortset fra ovennsvnte blev
teksternes originale form bibeholdt, inklusive eventuelle ortografiske, syntaktiske og leksikalske afvigelser samt kommateringsfejl.
Herefter blev teksterne opmsrket og behandlet i programmet Essay Tagger, som er blevet udviklet ved Adam Mickiewicz Universitetet i Poznan specielt til denne undersogelse. Programmet, som er besagtet med bl.a. IA Tagger (jf. [Jaworski, Jassem, Stronski, 2015]), muliggor se-miautomatisk korpusopmsrkning pä flere niveauer. For denne under-sogelses vedkommende omfattede opmsrkningen teksternes opdeling i sstninger, delsstninger3 og t-enheder (jf. nedenfor).
De undersogte tekster er i forste omgang blevet opdelt i sstninger, hvilket hsnger sammen med mit valg af kompleksitetsindekser, som skal bruges i analysen (jf. afsnit 2.4). I modsstning til Berggreen og Sorland [Berggreen, Sorland, 2016] har jeg valgt at opdele teksterne i grafiske sst-ninger, dvs. at en sstning i min analyse slutter, hvor der stär et punktum (som nsvnt er ikke-sstningsfinale punktummer, f.eks. i forkortelser, blevet fjernet under tekstbehandling). Pä denne mäde undgik jeg at skulle gstte mig frem til lornernes intentioner og var i stand til at mäle de syntaktiske enheder, de har produceret, og som de opfatter som sstninger.
For at kunne beregne de valgte kompleksitetsindekser, mätte jeg ogsä foretage videre opdelinger (og tilsvarende opmsrkning) af samt-lige sstninger i teksterne. Jeg skelner i denne forbindelse overordnet set mellem simple og komplekse sstninger, hvor der henholdsvis findes et og flere bojede verber / prädikative centre (jf. [Nordborg Nielsen, 2011, s. 355 f.]). Säledes er (1a) et eksempel pä en simpel sstning, mens sst-ningerne i (1b), (1c) og (1d) er komplekse.
(1) a. Han drikker kaffe.
b. Han drikker kaffe, og hun spiser morgenmad.
c. De spiser morgenmad og drikker kaffe.
d. Han spiser morgenmad, fordi han er sulten.
Med andre ord bestär en kompleks sstning altsä af minimum to delsstninger, mens en simpel sstning kun bestär af en enkelt delsstning.
Delsstningerne inden for en sstning kan karakteriseres ved forskel-lige indbyrdes relationer (underordning, sideordning), og af denne grund skelner f.eks. Bulte og Housen [Bulte, Housen, 2014, p. 48] mellem simple
3 Jeg anvender den danske term delsstningefter Joel Nordborg Nielsen [Nordborg Nielsen, 2011]. Termens betydning svarer stort set til den engelske betegnelse clause.
sentence, Compound sentence, complex sentence og compound-complex sentence. Min opdeling er for denne undersogelses vedkommende meget min-dre finkornet, da jeg af hensyn til min analyses formal og design bruger paraplytermen kompleks sœtning for alle tre af Bulté og Housens kategorier.
Jeg ser dog ikke helt bort fra delsœtningernes typer og indbyrdes relationer. En delsœtning kan vœre uafhœngig (helsœtning) eller den kan vœre et led i helsœtningen (ledsœtning). Denne skelnen er relevant inden for lingvistisk kompleksitetsforskning, da en del af de oftest anvendte kompleksitetsindekser er baseret pâ netop disse forhold og forskelle. I den engelsksprogede litteratur er der i denne forbindelse tale om T-units og clauses. En T-unit (t-enhed) kan defineres som en hovedsœtning og eventuelle ledsœtninger inden for den samme grafiske sœtning, mens en clause svarer til en delsœtning (jf. f.eks. [Kyle, 2016, p. 10]). En kompleks sœtning bestâende af to delsœtninger kan derfor, afhœngigt af delsœtningernes indbyrdes relationer, bestâ af én eller to t-enheder, jf. hhv. (2a) og (2b).
(2) a. Jens og Jan snakker ofte om de gode gamle dage, nâr de har drukket vin. b. Jens og Jan drikker vin, og de snakker om de gode gamle dage.
Mens underordning medforer, at de to delsœtninger kun danner en enkelt (kompleks) t-enhed (2a), betragtes to sideordnede delsœtninger som to separate t-enheder (2b).
For denne undersogelse er Essay Tagger blevet konfigureret sâledes, at det ud fra den nœvnte opmœrkning kan beregne de folgende vœrdier for teksterne: antallet af ord og sœtninger, antallet af simple og komplek-se sœtninger samt antallet af delsœtninger og t-enheder. Ud fra disse data beregner programmet de prœdefinerede kompleksitetsindekser for en af brugeren defineret gruppe tekster. Indekserne anvendt i denne un-dersogelse omtales i afsnit 2.4.
2.4. De anvendte kompleksitetsindekser
I faglitteraturen er der mange syntaktiske kompleksitetsindekser at vœlge mellem, og forskellene mellem de enkelte indekser har baggrund i, hvilke niveauer af syntaktisk analyse de undersogte/mâlte strukturer stammer fra og hvilke aspekter af strukturernes kompleksitet der skal mâles. For eksempel anvendte Bulté og Housen [Bulté, Housen, 2018] et sœt indekser, der dœkker savel sœtnings- og t-enhedsniveau som del-sœtnings- (clause-) og fraseniveauet. Lu [Lu, 2010] opdelte derimod sit
sœt af kompleksitetsindekser i fem grupper efter hvilke egenskaber de er designet til at mâle. Grupperne omfatter indekser, der vedrorer de under-s0gte enheders lœngde, og indekser forbundet med andre forhold som sœtningskompleksitet, sideordning, underordning samt bestemte syntak-tiske strukturtyper, f.eks. antallet af komplekse nominaler per delsœtning.
Tabel 4. Oversigt over de anvendte kompleksitetsindekser og deres definitioner
Kompleksitetsindeks Engelsk betegnelse Definition
Type 1: Lœngdebaserede indekser
Gennemsnitlig sœtningslœngde Mean length of sentence Antal ord / antal sœtninger
Gennemsnitlig helsœtningslœngde Mean length of T-unit Antal ord / antal helsœtninger
Gennemsnitlig delsœtningslœngde Mean length of clause Antal ord / antal delsœtninger
Type 2: Indekser forbundet med sœtningernes overordnede struktur
Sœtningskompleksitet Sentence complexity Antal delsœtninger / antal sœtninger
Procenttal for simple sœtninger Simple sentence ratio Antal simple sœtninger / antal sœtninger
Procenttal for komplekse sœtninger Complex sentence ratio4 Antal komplekse sœtninger / antal sœtninger
For denne unders0gelses vedkommende har jeg bestemt mig for at analy-sere syntaktisk kompleksitet ud fra tre lœngdebaserede indekser og en enkelt indeks forbundet med sœtningernes overordnede sammensœtning anvendt af bl.a. Lu. Derudover analyserede jeg, hvor mange af alle sœtningerne i de unders0gte tekster der var hhv. simple og komplekse. I Tabel 4 prœsenteres
4 Som nœvnt i afsnit 2.3 anvender jeg betegnelsen kompleks sœtning som paraply-term for de forskellige typer sœtninger bestâende af flere and én delsœtning nœvnt af Bulté og Housen [Bulté, Housen, 2014]. Det samme gœlder tilsvarende kompleksitetsindekser — jeg anvender en enkelt indeks angâende hvad jeg har valgt at betegne som komplekse sœtninger, mens Bulté og Housen anvender tre forskellige indekser i stedet for [Bulté, Housen, 2014, p. 48 ff.].
en oversigt over de anvendte indekser samt deres typer, definitioner og til-svarende engelske betegnelser [jf. Lu, 2010; Bulte, Housen, 2014].
3. RESULTATER
I de folgende afsnit präsenterer og analyserer jeg undersogelsernes resultater. Forst fokuserer jeg pä resultaterne pä tvrers af de undersogte lornergrupper (3.1), og derefter ser jeg pä forskellene i forbindelse med tekstgenre (3.2) og lornernes kon (3.3).
3.1. Resultater pä tv^rs af lornergrupper
I dette afsnit gennemgär jeg analysens resultater angäende de for-skellige kompleksitetsindekser med fokus pä forskellene mellem de un-dersogte ärgange.
Det er karakteristisk for polske lornere pä det päg^ldende niveau at skrive ganske korte og ukomplicerede s^tninger, der fär teksterne til at lyde staccatoagtige [jf. Sobkowiak, 2017, s. 414]. Alligevel er de fle-ste s^tninger i de undersogte tekster komplekse, da procenttallene for simple s^tninger varierer fra ca. en tredjedel (DK3) til lidt under halv-delen (DK4), jf. Figur 2. Forskellene pä tv^rs af grupperne er dog ikke statistisk signifikante ifolge den gennemforte Mann-Whitney U test/Z-score.
100 % 90 % 80 % 70 % 60 % 50 % 40 % 30 % 20 % 10 % 0 %
Figur 2. Procenttal for simple og komplekse s^tninger i de unders0gte tekster Скандинавская филология. 2019. Т. 17. Вып. 1 45
41 %
39 %
33 %
47 %
DK 1
DK 2
Komplekse sstninger
DK 3 DK 4
Simple saetninger
2,5
О
DK1 DK2 DK3 DK4
Figur 3. S^tningskompleksitet pä tv^rs af de undersogte grupper
Angäende s^tningskompleksitetsindeksen har jeg kunnet konsta-tere, at s^tninger i de unders0gte tekster i gennemsnittet bestär af ca. 1,8 dels^tning. Heriblandt er s^tningerne skrevet af DKl-gruppen gen-nemsnitligt kortest (1,68), mens DK3-gruppen har produceret de längste s^tninger og er i 0vrigt den eneste af grupperne, hvor gennemsnit-stallet ligger over 2 dels^tninger pr. s^tning, jf. Figur 3.
Derudover er forskellene mellem DK1 og DK3 samt DK3 og DK4 statistisk signifikante if0lge den gennemf0rte Mann-Whitney U test/Z-score for p<0.05 (hhv. p=0,00652 og p=0,02202).
Der findes ogsä markante forskelle pä tv^rs af grupperne vedr0rende de anvendte l^ngdebaserede kompleksitetsindekser, jf. Figur 4. Af selv-indlysende grunde er gennemsnitstallene for s^tningsl^ngde (mellem 9,79 og 13,22) i det hele taget h0jere end for hhv. hels^tninger (mellem 7,66 og 10,63) og dels^tninger (mellem 5,8 og 6,27). Samtidig kan man se, at DK3-gruppen i gennemsnit har produceret de längste s^tninger, hels^tninger og dels^tninger.
Forskellene pä tv^rs af de unders0gte grupper er statistisk signifikante angäende gennemsnitlig s^tningsl^ngde mellem DK1 og DK3 (Mann-Whitney U test/Z-score for p<0.05; p=0,0151) samt mellem DK3 og DK4 (Mann-Whitney U test/Z-score for p<0.05; p=0,03753).
Gennemsnitlig s^tningsl^ngde
6,02
Gennemsnitlig 6,27
dels^tningsl^ngde 5,69
Ж JL Л iL Л Ж Л_ .1 5,8
10,35
Gennemsnitlig hels^tningsl^ngde
0 2 4 6 8 10 12 14
DK4 -X DK3 ■ DK2 Ш DK1 Figur 4. L^ngdebaserede kompleksitetsindekser i de unders0gte l0rnergrupper
Det er de ogsä mellem DK3 og de 0vrige grupper angäende gennemsnitlig hels^tningstengde, jf. Tabel 5.
Tabel 5. Statistisk signifikans for gennemsnitlig helsffitningslffingde i de undersogte grupper (Mann-Whitney U test/Z-score for p<0.05)
Grupper p-vsrdi
DK1 versus DK3 0,00374
DK2 versus DK3 0,00438
DK4 versus DK3 0,02382
Ellers har jeg ikke kunnet konstatere andre statistisk signifikante forskelle mellem grupperne angäende de unders0gte tengdebaserede kompleksitetsindekser.
DK3 skiller sig tydeligt ud blandt de unders0gte l0rnergrupper angäende samtlige kompleksitetsindekser. Gruppen har i gennemsnit produ-ceret flest komplekse s^tninger i forhold til simple, og samtidig er gruppens s^tninger i gennemsnit längste (13,22 ord pr. s^tning) og mest komplekse (2,09 dels^tninger pr. s^tning). Ligeledes er gruppens hels^t-ninger og dels^tninger i gennemsnit längere end i tekster produceret af
de 0vrige grupper. Forskellene mellem DK3 og samtlige (eller i hvert fald nogle af de) resterende grupper er statistisk signifikante vedr0rende sst-ningskompleksitet samt gennemsnitlig sstnings- og helsstningslsngde.
3.2. Resultater pá tv^rs af tekstgenrer
Ud fra ovenstaende resultater kan man komme til den konklusion, at DK3 pa en eller anden made kan vsre forskellig fra de resterende l0r-nergrupper til trods for, at samtlige studerende udg0r en relativt homogen gruppe angaende l0rnervariablerne (jf. afsnit 2). Dette kan dog vsre misvisende, for hvad der i virkeligheden potentielt kan ligge til grund for forskellene er, at nogle af teksterne skrevet af DK3-gruppen tilh0rer en anden genre end de resterende tekster, jf. Tabel 3. Inden for denne gruppe er 30 % af teksterne kreative narrativer ligesom samtlige tekster skrevet af de 0vrige grupper. Derimod er 70 % af teksterne skrevet af DK3-gruppen vssentligt forskellige, da de studerende valgte at skrive om, hvad de havde lsrt om Danmark og danskere siden studiets pabe-gyndelse. I dette afsnit unders0ger jeg, hvordan forskellene er angaende de anvendte kompleksitetsindekser pa tvsrs af tekstgenrerne.
Ser man pa tallene for de unders0gte kompleksitetsindekser, kan man straks konstatere, at teksterne om Danmark og danskere er mere komplekse end de kreative narrativer, hvor de studerende skulle finde pa en historie ud fra et billede, som de havde faet udleveret. Tallene for de respektive kompleksitetsindekser vises i Figur 5.
Forskellene mellem tekster tilh0rende de to genrer er ikke kun markante angaende absolutte tal, men de er ogsa statistisk signifikante for sstningskompleksitet og samtlige lsngdemal, jf. Tabel 6.
Tabel 6. Statistisk signifikans for de undersogte kompleksitetsindekser pá tv®rs af tekstgenrer (Mann-Whitney U test/Z-score for p<0.05)
Kompleksitetsindeks p-v®rdi
Sstningskompleksitet 0,03236
Gennemsnitlig sstningslsngde 0,00544
Gennemsnitlig helsstningslsngde 0,00222
Gennemsnitlig delsstningslsngde 0,00374
Gennemsnitlig 7,93
helsstningslsngde 11,55
Gennemsnitlig 5 8
delsstningslsngde 6,66
Gennemsnitlig 10 27
sstningslsngde 14,26
Sstningskompleksitet.
Simple sstninger | 0,^2 Komplekse sstninger
0 2 4 6 8 10 12 14 16 Historie ud fra billede ■ Danmark og danskeme Figur 5. Syntaktisk kompleksitet i de unders0gte tekster pä tv^rs af tekstgenrer
De n^vnte kompleksitetsforskelle pä tv^rs af tekstgenrer og ikke mindst deres statistiske signifikans tyder pä, at genren kan spille en vig-tig (om ikke afg0rende) rolle for syntaktisk kompleksitet i tekster skre-vet af unge polakker efter danskstudiets f0rste är.
3.3. Resultater pä tv^rs af kon
En del unders0gelser peger pä, at den generelle l0rnervariabel k0n kan have indflydelse pä, hvor godt man prasterer eller hvor komplekst man udtrykker sig pä et fremmedsprog (jf. [Berggreen, S0rland, 2016; Eriksson et al., 2012; Lahuerta Martínez, 2018]). I dette afsnit unders0-ger jeg, hvorvidt k0nsforskellenes spor kan ses i de unders0gte tekster skrevet pä dansk af unge polakker.
Som n^vnt i Tabel 1 er 40 af de unders0gte tekster skrevet af kvinder og 13 af m^nd, hvilket svarer til hhv. 75 % og 25 %. Tallene for de under-s0gte kompleksitetsindekser i tekster skrevet af hhv. kvinder og m^nd er samlet i Figur 6.
Ser man pä ovenstäende tal, vil man med det samme tegge m^rke til, at tekster skrevet af m^nd er mere komplekse, hvilket g^lder samt-lige unders0gte kompleksitetsindekser. I det unders0gte materiale har m^ndene nemlig produceret flere komplekse sstninger i forhold til
Gennemsnitlig 937
helsitningslingde 8,1
Gennemsnitlig 613
delsitningslingde 5,84
Gennemsnitlig 12 1
sitningslingde 10,38
Sitningskompleksitet.
■ 1,96 1,78
0,39
Simple sitninger ^ o'42
Komplekse sitninger ^ O566
0 2 4 6 8 10 12 14
]VL£ND ■ KVINDER
Figur 6. Syntaktisk kompleksitet i de unders0gte tekster pa tv^rs af k0n
simple end kvinderne (hhv. 66 % versus 58 %), og deres s^tninger bestar i gennemsnit af flere dels^tninger (1,96 versus 1,78). Ligeledes er savel de grafiske s^tninger som hels^tningerne og dels^tningerne i gennemsnit längere i m^ndenes tekster end i kvindernes. Dette er det modsatte af hvad man kunne forvente ud fra tidligere forskningsresul-tater (jf. f. eks. [Lahuerta Martinez, 2018]). Dog skal man understrege, at ingen af forskellene pa tv^rs af k0n er statistisk relevante if0lge den gennemf0rte Mann-Whitney U test/Z-score for p<0.05.
4. KONKLUSIONER
Det overordnede formal med denne artikel har v^ret at präsentere resultaterne af en tv«rsnitsunders0gelse af syntaktisk kompleksitet i tekster skrevet pa dansk af polske danskstuderende. Mere pracist gik opgaven ud pa at fors0ge at besvare de to forskningssp0rgsmal formu-leret i afsnit 2.1 og derved (1) pr0ve at identificere forskellene angaende syntaktisk kompleksitet mellem tekster skrevet af de fire unders0gte l0r-nergrupper samt (2) forskelle angaende syntaktisk kompleksitet i for-bindelse med l0rnervariablen k0n.
Som malestok for syntaksen i de unders0gte l0rnertekster har jeg brugt 3 tengdebaserede kompleksitetsindekser (gennemsnitlig s^t-nings-, hels^tnings- og dels^tningstengde) og tre mal forbundet med
sœtningernes sammensœtning, dvs. sœtningskompleksitetsindeksen samt procenttal for komplekse og simple sœtninger.
I langt de fleste tilfœlde er forskellene mellem lornergrupperne i forhold til de undersogte kompleksitetsindekser ikke statistisk signifikante. Dette er til trods for Variationen pâ tvœrs af grupperne angâende antallet af undervisningstimer, undervisningsmetoder og f.eks. ad-gang til dansksprogede medier uden for undervisningen (jf. Figur 1 og Tabel 2).
Dog er DK3-gruppen forskellig fra de 0vrige ârgange, idet teksterne skrevet af studerende fra netop denne gruppe er mere komplekse end de resterende tekster, og dette gœlder bâde antallet af komplekse sœtninger (i forhold til simple), sœtningskompleksitet og samtlige lœngdebaserede indekser. Derudover er forskellene angâende sœtningskompleksitet, gennemsnitlig sœtnings- og helsœtningslœngde statistisk signifikante (jf. 3.1).
Resultaterne tyder pâ, at variablen tekstgenre kan have en afg0rende eller i hvert fald markant betydning for syntaktisk kompleksitet i po-lakkernes l0rnerdansk pâ det pâgœldende niveau. Denne formodning styrkes af dataene i afsnit 3.2, hvor jeg har kunnet konstatere statistisk signifikante forskelle pâ tvœrs af tekstgenrer angâende samtlige lœng-debaserede kompleksitetsindekser samt sœtningskompleksiteten (jf. Tabel 6).
Mit andet forskningssp0rgsmâl (jf. 2.1) vedrorte potentielle forskelle i syntaktisk kompleksitet i tekster skrevet af kvinder og mœnd. Mod mine egne forventninger st0ttet af resultaterne fra tidligere forskning viste det sig, at det var teksterne skrevet af mœnd, der var mere kom-plekse end tekster skrevet af kvinder. Forskellene er dog ikke statistisk signifikante og kan skyldes individuelle trœk hos de unders0gte mœnd. En mere omfattende unders0gelse baseret pâ et st0rre antal tekster ville vœre n0dvendig for at be- eller afkrœfte disse resultater.
Med denne unders0gelse hâber jeg at have bidraget til en bedre forstâelse af syntaktisk kompleksitet i dansk som fremmedsprog samt til polakkernes tilegnelse af dansk. Jeg er klar over unders0gelsens be-grœnsninger samt at videre udforskning af emnet er n0dvendig for at danne et mere detaljeret billede af samspillet mellem syntaktisk kom-pleksitet i dansk som fremmedsprog og tekst- og l0rnervariablerne. Det samme gœlder syntaktisk kompleksitet og dennes rolle i den sprogtileg-nelsesproces, polakker gennemgâr, nâr de lœrer dansk. Angâende videre
forskning synes det hensigtsmœssigt at anvende et st0rre sœt komplek-sitetsindekser, som vil dœkke over flere niveauer af syntaktisk analyse (jf. [Bulté, Housen, 2018]) samt flere diverse aspekter af den syntaktiske kompleksitet (jf. [Lu, 2010]).
Samtidig kan det vœre til gavn for den videre forsknings resultater at inkludere mere finkornede kompleksitetsindekser (jf. f. eks. [Kyle, 2016]) i analysen og udvide kompleksitetens udforskning ved at analysere l0rner-nes ordforrâd og l0rnersprogets korrekthed (som f. eks. [Kowal, 2016]). Den slags data, muligvis ogsâ i sammenligning med en analyse af tilsva-rende L1-data, har potentiale til betydeligt at bidrage til vores forstâelse af, hvordan dansk tilegnes som fremmedsprog af unge polakker.
REFERENCES
Berggreen H. S0rland, K. Syntaktisk kompleksitet i et skriftlig innlœrersprâkmate-
riale. NOA norsk som andresprâk, Ârgang 32:1-2, 2016. S. 31-75. Bulté B., Housen A. Syntactic complexity in L2 writing: Individual pathways and emerging group trends. International Journal of Applied Linguistics 28:1, 2018. S. 147-164.
Bulté B., Housen A. Conceptualizing and measuring short-term changes in L2 writing complexity. Journal of Second Language Writing 26, 2014. S. 42-65. Ellis R. Task-based language learning and teaching. Oxford: Oxford University Press, 2003. 398 p.
Eriksson M., Marschik P. B., Tulviste T., Almgren M., Pérez Pereira M., Wehberg S., Marjanovic Umek L., Gayraud F., Kovacevic M., Gallego C. Differences between girls and boys in emerging language skills: Evidence from 10 language communities. British Journal of Developmental Psychology 30, 2012. P. 326-343.
Granger S. Learner corpora. Corpus Linguistics. An International Handbook.
Vol. 1. Berlin; de Gruyter, 2008. P. 259-275. Holmen A. Udviklingslinier i tilegnelsen af dansk som andetsprog — en kvalitativ, kvantitativ analyse. Ph.D. thesis, University of Copenhagen. (=Kobenhavner-studier i tosprogethed 12). Kobenhavn: Danmarks Lœrerhojskole, 1990. 222 s. Jaworski R., Jassem K., Stronski K. Manual and Automatic Tagging of Indo-Aryan Languages. Human Language Technologies as a Challenge for Computer Science and Linguistics, 2015. P. 550-554. Kowal, I. The Dynamics of Complexity, Accuracy and Fluency in Second Language
Development. Krakow: Jagiellonian University Press, 2016. 235 p. Kyle, K. Measuring Syntactic Development in L2 Writing: Fine Grained Indices of Syntactic Complexity and Usage-Based Indices of Syntactic Sophistication. Georgia State University, 2016. 186 p.
Kyle K. Crossley S. A. Measuring Syntactic Complexity in L2 Writing Using Fine Grained Clausal and Phrasal Indices. The Modern Language Journal 102, 2018. P. 333-349.
Lahuerta Martinez A. C. Analysis of syntactic complexity in secondary education EFL writers at different proficiency levels. Assessing Writing 35, 2018. S. 1-11. Lu X. Automated measurement of syntactic complexity in corpus-based L2 writing research and implications for writing assessment. Language Testing 34(4), 2017. P. 493-511. Lu X. Automatic analysis of syntactic complexity in second language writing. International Journal of Corpus Linguistics 15(4), 2010. P. 474-496. Lund K. Lxrer alle dansk pa samme made? En lxngdeundersogelse af voksnes tilegnelse af dansk som andetsprog. K0benhavn: Special-pedagogoisk forlag, 1997. 419 s.
Moe E. Syntaktisk kompleksitet og rammeverksniva. NORSK PROFIL. Det felles europeiske rammeverket spesifisert for norsk. Et f0rste steg. Oslo: Novus Forlag, 2012. S. 137-158.
Nordborg Nielsen J. Russisk Grammatik. K0benhavn: K0benhavns Universitet, Institut for Tverkulturelle og Regionale Studier, 0steuropeisk Afdeling, 2011. 420 s.
Polio C., Yoon H. J. The reliability and validity of automated tools for examining variation in syntactic complexity across genres. International Journal of Applied Linguistics 28, 2018. P. 165-188. Sobkowiak M. Om polske danskstuderendes skriftlige prestation. 16. Mode om Udforskningen af Dansk Sprog. Aarhus: Aarhus Universitet, 2017. S. 405-421. Tono Y. What is missing in learner corpus design? Spanish Lorner Corpus Research: Current Trends and Future Perspectives, Amsterdam; Philadelphia: John Benjamins Publishing Company, 2016. P. 33-52.
Mikolaj Sobkowiak
Adam Mickiewicz University in Poznan, Poland
HOW DO POLISH FIRST-YEAR STUDENTS WRITE? A CORPUS STUDY OF SYNTACTIC COMPLEXITY IN DANISH AS A FOREIGN LANGUAGE
For citation: Sobkowiak M. How do Polish first-year students write? A corpus study of syntactic complexity in Danish as a foreign language. Scandinavian Philology, 2019, vol. 17, issue 1, pp. 36-54. https://doi.org/10.21638/11701/spbu21.2019.103
Linguistic complexity is considered a good indicator of language learners' performance and development. In the last few decades, linguistic, and especially syntactic, complexity has become a popular and important field of research within second and foreign language acquisition studies, and various complexity indices have been oper-ationalized in research as a yardstick for the syntax and vocabulary of L2 texts. In this article, I examine the syntactic complexity of texts written in Danish by young Poles. The analyzed material consists of exam papers written by Polish students of Danish phi-
lology after the first year of study, and they come from different learner groups over the last 20 years. There is some variation across the learner groups in terms of both learner-and task-related variables, and I apply a number of complexity indices to examine the traces of these variables in the syntax of the analyzed texts. I focus on differences across learner groups, text genres and the authors' gender.
Keywords: Danish as a foreign language, syntactic complexity, corpus linguistics, learner corpus research.
Mikolaj Sobkowiak
Assistant Professor, Collegium Novum, al. Niepodleglosci 4, 61-874 Poznan, Poland E-mail: [email protected]
Received: March 11, 2019 Accepted: April 22, 2019