Kirjoittamisprosessin dynaaminen visualisointi

Jos olemme kiinnostuneita paperilla tai näyttöruudulla näkyvästä valmiista tekstistä, tekstin alkujuurille palaaminen voi olla vieläkin antoisampaa. Tarvitsemme kuitenkin uudenlaisia tutkimusmenetelmiä, jotta saamme tehtyä näkyväksi sen, millainen kirjoittamisprosessi toimintoineen on kyseisen tekstin taustalla. Esittelemme artikkelissa monimenetelmällisen lähestymistavan käyttöä tekstin syntyhistorian selvittämiseksi. Tämän lisäksi esittelemme uudenlaisen kirjoittamisprosessin visuaalisen tutkimisen mahdollistavan ohjelman, GenoGraphiX-Log 2.0:n, jonka uskomme kiinnostavan kirjoittamista tutkivien  lisäksi myös opettajia, jotka haluavat löytää uusia työkaluja kirjoittamisen opettamiseen.

Julkaistu: 4. toukokuuta 2022 | Kirjoittaneet: Christophe Leblay, Hakim Usoof ja Gilles Caporossi 

Monimenetelmällinen lähestymistapa

Päästäksemme tavoitteeseemme eli tekstin syntyhistorian selvittämiseen, yhdistämme tekstin syntyhistorian tutkimisessa kaksi tutkimuksellista lähestymistapaa, joista ensimmäinen edustaa humanistisia ja toinen matemaattisia tieteitä. Ensimmäinen on tekstigenetiikka ja toinen graafiteoria.

Mitä on tekstigenetiikka?

Historiallisesta näkökulmasta katsottuna tekstigeneettistä lähestymistapaa leimasi aluksi halu ottaa etäisyyttä filologiseen kritiikkiin. Tekstigeneettistä tutkimusta on harjoitettu ensimmäistä kertaa Ranskassa vuonna 1976, jolloin Pariisiin perustettiin CAM (Centre d’Analyse des Manuscrits), josta tuli vuonna 1982 nykyisinkin toimiva ITEM (Institut des Textes et Manuscrits Modernes – www.item.ens.fr).

Toisin kuin filologiassa, tekstigenetiikassa ajan kulumista ei yhdistetä laadun heikkenemiseen, sillä tekstin laatu syntyy usein saman tekstin eri versioiden peräkkäisyydestä. Samalla tekstigeneettinen kritiikki on ottanut kantaa myös strukturalismin tukemaa ajatusta vastaan, jonka mukaan teksti olisi suljettu kokonaisuus. Suomeen tekstigeneettinen lähestymistapa tekstien tarkasteluun saapui vasta jokin aikaa sitten (Karhu, 2010; Leblay, 2011; Pulkkinen, 2017).

Vastakkainasettelu valmiin, viimeistellyn, vakiintuneen ja editoidun tuotteen sekä keskeneräisen, vakiintumattoman ja editoimattoman tuotannon välillä on perinteisesti vahva (Anokhina & Pétillon 2009). Tekstigenetiikassa on seuraavat kolme pääasiallista toimintoa, joiden kautta tekstin syntyhistoriaa ja etenemistä pyritään selvittämään:

Leblay_ym_taulukko1

Taulukko 1: Tekstigenetiikan päätoiminnot (Leblay & Leblay, 2019)

Taulukkoon 1 on kerätty tekstigenetiikan kolme päätoimintoa ja kysymykset, jotka määrittelevät päätoimintojen sisältöjä:

  • Ensimmäinen kysymyksistä tarkastelee tekstigenetiikan peruskäsitettä, kirjoitusjälkeä. Kirjoitusjälkien tarkastelu puolestaan liittyy genetiikan lähitieteisiin, kuten arkeologiaan, genealogiaan tai edelleen tietokoneforensiikkaan (computer forensics; ks. genetiikan määritelmä ITEMin verkkosivuilta http://www.item.ens.fr/thematique).

  • Toinen kysymyksistä on erityisen tärkeä artikkelin aiheemme kannalta, sillä se kartoittaa kirjoittamistoimintojen välisiä suhteita. Tämä ydinkysymys, johon palaamme artikkelissa tarkemmin, mahdollistaa monimenetelmällisen lähestymistavan käyttämisen tekstin tarkastelussa.

  • Viimeisessä kysymyksessä korostuu oleellisena ajan rooli kirjoittamisprosessin kuvauksessa.

Mikä on graafiteoria?

Matemaattisessa mielessä graafi on joukko pisteitä, joita yhdistävät viivat. Sellaisenaan sitä voidaan käyttää esittelemään kohteiden välisiä suhteita, ja se on erittäin kätevä visualisoinnissa. Useimmiten visualisointi on värillistä, kuten seuraavista kuvista ilmenee (kuvat 1a & 1b).

Leblay_et_al_kuvat_1a_1b

 

Mikä sitten on kuvien sanoma? Mitä informaatiota niistä saamme?

Teknisesti voimme havaita ainakin sen, mikä piste liittyy (tai ei liity) johonkin toiseen pisteeseen.  Tärkein havainto kuvista on se, että erilaiset visualisoinnit voivat edustaa samanlaista tietoverkkoa. Siten kuva 1a, joka näyttää visuaalisesti erilaiselta kuin kuva 1b, esittää kuitenkin täysin samanlaista tietoverkkoa kuin kuva 1b. Graafin esitystapa ei ole oleellinen, vaan se, mitkä graafin elementit ovat yhteydessä toisiinsa ja mitkä eivät (keltainen piste on yhteydessä sekä siniseen että vihreään pisteeseen, kun taas sininen ja vihreä piste eivät ole yhteydessä toisiinsa). Kuvissa 1a ja 1b näkyvät graafeissa käytettävät värikoodit: muotojen (piste vs. viiva) leikin lisäksi jokainen väri edustaa tietynlaista informaatiota (ks. tarkemmin värikoodien selostukset alla).

Voimme kohdata graafeja jokapäiväisessä elämässämme ilman, että edes havaitsemme sitä. Muun muassa metroasemia kuvaava kartta on tyypillinen esimerkki graafien olemassaolosta päivittäisessä elämässämme. Metrokartta edustaa graafia tyypillisimmillään: pisteet edustavat metroasemia ja viivat asemien välisiä suhteita. Viivat edustavat siten valitun visualisoinnin ja visualisoinnin paikan mukaan maantieteellistä paikkaa, etäisyyttä ja kahden aseman välistä aikaa. Asemien ketjuttaminen metrokartalla antaa tarvittavan ja helposti ymmärrettävän tiedon siitä, miten siirtyä nopeasti paikasta toiseen. Tätä samaa tiedon soveltamistapaa käytetään, kun pyritään ymmärtämään kirjoittamista monitahoisena ilmiönä. Ihmisaivot ovat tottuneet tunnistamaan malleja, etsimään/luomaan tietojen ja asioiden välisiä yhteyksiä ja tunnistamaan trendejä – siksi kirjoittamisprosessin esittäminen visuaalisesti graafien avulla helpottaa monimutkaisen kirjoittamistapahtuman hahmottamista ja välittää tietoa siitä tiiviissä pakatussa muodossa.

Mitä ovat kirjoittamistoiminnot?

Tekstigenetiikka ja matemaattinen graafiteoria voivat ensisilmäyksellä vaikuttaa edustavan toisistaan hyvin kaukana olevia tieteitä. Yksityiskohtaisempi tarkastelu paljastaa kuitenkin, että molempien tieteenalojen pyrkimys on sama eli yhteyksien etsiminen. Yhteisen tavoitteen vuoksi graafiteorian soveltaminen kirjoitusjälkien välisten yhteyksien tarkasteluun on enemmän kuin mielenkiintoista. Tätä kautta olemme päässeet havainnoimaan, miten ja mitkä kirjoittamistoiminnot (esim. lisäys, poisto, korvaus, siirto, kopioi-leikkaa, kopioi-liimaa) liittyvät toisiinsa.

Tekstin syntymistä voidaan tarkastella käyttämällä apuna näppäinpainallukset sisältävää lokianalyysiä, jossa kukin piste edustaa peräkkäin tapahtuvien ja luonteeltaan samanlaisten vierekkäisten näppäinpainallusten sarjaa. Näppäinpainallukset ovat joko lisäyksiä (tekstiin lisätään joitakin kirjaimia) tai poistoja.

Pisteiden väliset suhteet, joita viivat edustavat, voivat olla kolmenlaisia: a) ajallisia, jos kaksi pistettä on muodostettu peräkkäin, b) topologisia, jos pisteet sattuvat olemaan tekstissä vierekkäin ja c) lisäys/poisto-toimintoja, kun yksi piste poistaa toisen. Nämä muutamat säännöt määrittelevät graafin rakentumisprosessin, joka kuvastaa prosessin monimuotoisuutta. Pisteet hajoavat tekstin muuttuessa ja kirjoittamisprosessia kuvaavasta graafista tulee monimutkaisempi. Mitä enemmän ja syvällisemmin tekstiä on muokattu, sitä monitahoisempaa ja vaativampaa on tekstiä vastaavan graafin analysoiminen.

Jotta digitaalisten kirjoittamistoimintojen visualisointi olisi helpommin luettavissa, mallissa käytetään tiettyjä värejä ja muotoja ilmaisemaan peräkkäisyyttä. Lisäykset tekstiin esitetään seuraavissa esimerkeissä (kuvat 2a & 2b) keltaisella ja poistotoimintoja vastaavat pisteet sinisellä värillä. Ajallisesti peräkkäiset pisteet liitetään toisiinsa yhtenäisellä viivalla. Näin voidaan seurata koko kirjoittamisprosessia kronologisesti seuraamalla yhtenäisellä viivalla merkittyä polkua ensimmäisistä pisteistä viimeisiin pisteisiin (Bécotte-Boutin ym., 2019; Leblay & Caporossi, 2015; Caporossi & Leblay, 2011). Graafiteorian avulla on mahdollista tehdä havaintoja monista muistakin kirjoittamiseen liittyvistä seikoista, kuten kirjoittamisistunnossa esiintyvistä tauoista ja niiden merkityksestä. Taukoja, jotka voivat olla kiinnostavia lisäanalyysin kannalta, voidaan pitää erityyppisinä pisteinä, jotka merkitään tietyllä värillä.

Uudenlainen tapa kirjoittamisen ymmärtämiseen: visuaalisia skenaarioita

Tekstin kirjoittaminen tietokoneella edellyttää yleensä näppäimistön ja hiiren käyttöä merkkien, symbolien ja komentojen syöttämiseksi tietokoneeseen. Kirjoittajan ja tietokoneen välinen vuorovaikutus tallennetaan näppäinpainalluksina ja hiiren napsautuksina. Näiden tietojen tallentamista tietokonetiedostoon kutsutaan näppäilytallennukseksi (Usoof ym., 2020). Ohjelmistoa, joka tallentaa nämä tiedot, kutsutaan näppäinpainallusten tallennusohjelmaksi. Näppäinpainallusten tallennusohjelmilla kerättyjä tietoja on analysoitu ja visualisoitu, ja niiden avulla on saatu lukuisia tietoja kirjoittamisprosessista, kognitiivisesta prosessista kirjoittamisen aikana ja kirjoittajan kirjoittamisen keskimääräisestä taitotasosta. Näppäinpainallusten tallennusohjelma tarjoaa tietojen keräämisen lisäksi erilaisia sisäänrakennettuja työkaluja syntyvän tekstin analyysiä ja visualisointia varten.

Tässä artikkelissa aloittelijakirjoittajilla (5 kpl) viitataan ranska vieraana kielenä 1. vuoden yliopisto-opiskelijoihin, jotka kirjoittivat tietokoneella valvotussa tilanteessa 20 minuutin ajan ranskaksi kuvitteellisen kertomuksen ihanteellisesta elinpaikastaan. Asiantuntijakirjoittajilla (5 kpl) viitataan ranskan kielen opettajiin, jotka kirjoittivat samasta aiheesta saman ajan kuin aloittelijakirjoittajatkin. Jotta voitiin varmistua kirjoittajien tuotosten tasosta, kokeneet kielitaidon arvioijat arvioivat molempien ryhmien kirjallisten tuotosten taitotason Euroopan neuvoston viitekehyksen asteikolla. Aloittelijakirjoittajien tuotokset sijoittuivat taitotasoille A1-A2 ja asiantuntijakirjoittajien tasoille C1-C2.

Kaiken kaikkiaan graafipohjainen visualisointi on yhdistelmä skenaarioita, joita voi esiintyä kirjoittamisprosessin aikana. Kuvioiden avulla on helppo tunnistaa tiettynä hetkenä tapahtunut kirjoittamistoiminto ja sen suhde muihin toimintoihin sekä siihen, miten teksti lopulta rakentuu. On kuitenkin huomattava, että tässä artikkelissa esitämme kuviot kuvakaappauksina, joiden avulla muotojen ja värien leikki on nähtävissä, mutta joissa GenoGraphiX-Log-ohjelman tarjoama dynaaminen näkökulma ei ole käytettävissä. Artikkelissa ei voida siten näyttää esimerkiksi pisteitä ja viivoja, jotka ilmestyvät vähitellen näkyviin niiden segmenttien rakentumisen aikana, kun hiiri viedään graafin pisteen päälle.

Asian havainnollistamiseksi esitämme graafeista kaksi esimerkkiä, jotka on julkaistu ranska vieraana kielenä -korpuksessa (Leblay, 2011).

Leblay_et_al_kuva_2a


Kuvissa näkyvät numerot ilmaisevat tekstin kirjoittamisen jatkumoa siinä järjestyksessä, kun kirjoittaja on pisteet kirjoittanut. Mitä suurempi piste, sitä enemmän elementtejä on lisätty (keltainen väri) tai poistettu (sininen väri). Kuvassa 2a näkyvä pisteiden muodostama graafin yleismuoto ilmaisee, kuinka aloittelijakirjoittaja ei palaa tekemään muutoksia jo kirjoittamaansa tekstiin, mikä on tyypillistä aloittelevalle kirjoittajalle.

Leblay_et_al_kuva_2bKuvan 2b graafin yleismuoto puolestaan näyttää, että kyseessä on asiantuntijakirjoittajalle ominainen tuotos. Tuotoksessa näkyvät toisiinsa liittyvät toistuvat silmukat (engl. iterative loops), jotka ilmaisevat, että asiantuntijakirjoittaja palaa tekemään muutoksia jo kirjoittamaansa tekstiin. Tämänkaltaiset toistuvat silmukat viestivät asiantuntijakirjoittajalle tyypillisestä jatkuvasta tekstinsä työstämisestä. 

GenoGraphiX-Log-ohjelma

Toisin kuin muut tallennusohjelmat (Genèse du texte, Scriptlog, Inputlog, etc.), GenoGraphiX-Log (myöhemmin GGX-Log) käyttää graafiin pohjautuvaa visualisointia asioiden tai tulosten esittämiseen, ei niin sanottujen paikkatietojärjestelmien (Geographical Information System - GIS) monille tuttua esittämistapaa, jossa haluttu asia esitetään x- ja y-akselien avulla. Tämä pisteiden ja viivojen välinen vuorovaikutus tarjoaa ainutlaatuisia visualisointimahdollisuuksia.

GGX-Log on Montrealin Kauppakorkeakoulun (HEC Montréal), ITEMin ja Turun yliopiston yhteistyönä vuonna 2020 kehittämä näppäinpainallusten tallennusohjelma. Se perustuu kokeellisen GenoGraphiX-ohjelman edellisen version malleihin. GGX-Log on tarkoitettu opettajille, kirjoittajille ja tutkijoille. Ohjelmassa on kolme päätoiminnallisuutta:

a.) Kirjoitustietojen tallentaminen

GGX-Log pystyy tallentamaan tietoja erilaisissa kirjoituskonteksteissa. Ohjelmisto tukee vapaata kirjoittamista, kääntämistä ja valmiiksi kirjoitetun tekstin muokkaamista. Ohjelmistoon voidaan ladata käännettävän tai valmiiksi kirjoitetun tekstin versioita vierekkäistä tarkastelua tai muokkausta varten.

b.) Kirjoittamisistuntoon liittyvät tiedot

Istuntotiedostot tallennetaan hakemistoon/kansioon käyttäjän määrittämään paikkaan. Kirjoittamisistunnon tiedot koostuvat seuraavasta viidestä tiedostosta:

  • Kirjoittajan tiedot tunnistamista ja analysointia varten.

  • Istuntotiedot tabulaattorilla eroteltuina arvoina (.tsv-tiedostoina), joita voidaan analysoida taulukkolaskentaohjelmilla tai kehittyneillä tilasto-ohjelmilla.

  • Istuntoteksti tekstitiedostona (.txt), johon tallennetaan kirjoitetun tekstin lopullinen versio.

  • Istuntosovellustiedot tekstitiedostona (.txt), josta käy ilmi kirjoittajan kirjoittamisen aikana käyttämät muut tietokonesovellukset.

  • Istuntoloki lokitiedostona (.log), johon tallennetaan tiedot, jotka voidaan avata GGX-Log -ohjelmalla lisäanalyysiä ja visualisointia varten.

c.) Tietojen analysointi ja visualisointi

Ihminen käsittelee visuaalista dataa ja tunnistaa kaavoja huomattavasti nopeammin kuin pelkkää numeerista dataa (Koponen & Hildén, 2019). Näppäinpainallusten lokitiedot ovat pääasiassa numeerisia, ja jopa lyhyt 10 minuutin kirjoittamisistunto voi sisältää yli 1000 tietuetta, joiden manuaalinen analysointi on työlästä eikä tilastollisesti anna kovinkaan paljon tietoa kirjoittamisprosessista, kognitiivisesta prosessista tai kirjoittajan taitotasosta. Juuri tästä syystä kirjoittamistoimintoja koskevan datan visuaalinen esittäminen ja tulkinta ovat käytännönläheisiä työkaluja. GGX-Log:n tavoitteena on, että kirjoittajat, opettajat ja tutkijat voisivat ymmärtää tekstin tuottamisen prosessia tietojen visualisoinnin avulla.

GGX-Log-ohjelmiston tietojen ensisijainen analyysi perustuu tekstigenetiikkaan ja graafiteoriaan, ja siinä painotetaan kirjoittamisistunnon visualisointia graafina. Ohjelmaa kehitetään jatkuvasti käyttäjiltä saadun palautteen pohjalta. Ohjelma tarjoaa myös muita kirjoittamisen tutkijoiden ja kielitieteilijöiden käyttämiä datan esitysmuotoja ja analyysejä (Foucambert ym., tulossa).

GenoGraphiX-Login käytännön soveltaminen pedagogisessa kontekstissa

Visualisointien tuottaman tiedon hyödyntäminen voi auttaa ymmärtämään ja hahmottamaan kirjoittamista eri näkökulmista ja kehittämään uusia lähestymistapoja ja pedagogisia menetelmiä kirjoittamisen opettamiseen. Graafit visualisoivat kirjoittamisprosessia; ne auttavat oppilaita, opettajia ja tutkijoita tunnistamaan kunkin kirjoittajan kirjoittamisprosessissa ilmenevät vahvuudet ja heikkoudet, jotta he voivat kehittyä tehokkaammiksi kirjoittajiksi tai auttaa muita kehittymään sellaisiksi. Esimerkiksi oppija, jonka kirjoittamistaidot saattavat olla heikot, voidaan tunnistaa liiallisista välittömistä muokkauksista tai pitkistä tauoista sanan keskellä. Opettajat voivat käyttää graafien avulla esiin saamaansa tietoa hyväkseen ohjatessaan kirjoittajaa joustavoittamaan kirjoittamisprosessiaan.

Graafitilastoja voidaan käyttää hyödyksi monenlaisissa tilanteissa (esim. arviointi tai kirjoittajien luokittelu), mutta niiden käyttöä ei ole syytä kuitenkaan rajoittaa ainoastaan edellä mainittuihin tarkoituksiin, koska ne voivat tarjota niin paljon muutakin tietoa oppijoiden kirjallisista tuotoksista ja taidoista. Erilaisten graafitilastojen, sujuvuusarvojen ja visualisointien avulla opettajat voivat arvioida oppijoiden kirjoittamisen taitoa ja auttaa oppijoita parantamaan sitä esimerkiksi osoittamalla kunkin oppijan kirjalliset vahvuudet ja kehittämiskohteet. Dynaamisten visualisointien avulla oppijat taas voivat itse vertailla kirjoittamistaan eri genreissä ja myös muiden oppijoiden kanssa. Näin oppijat voivat tulla tietoisiksi ajatteluprosessistaan kirjoittamisen aikana, mitä kautta he voivat tehostaa työskentelyään ja tulla sujuvammiksi kirjoittajiksi.

 

Christophe Leblay on dosentti, yliopistonlehtori Turun yliopiston Kieli-ja käännöstieteiden laitoksella.

Hakim Usoof on yliopistonlehtori Peradeniyan yliopiston Tilastotieteen ja tietojenkäsittelytieteiden laitoksella Sri Lankassa.

Gilles Caporossi on professori Montrealin Kauppakorkeakoulussa (HEC Montréal) päätöksentekotieteiden laitoksella Kanadassa.

 

Lisätietoja

GenoGraphiX-Log-ohjelma: ggxlog.net

 

Lähteet

Anokhina, O. & Pétillon, S. 2009. (Éd.). 2009. Critique génétique. Concepts, méthodes, outils. Saint-Germain-la-Blanche-Herbe : Imec éditeur, coll. « Inventaires ».

Becotte-Bountin, H.S., Caporossi, G., Leblay, C. & Hertz, A. 2019. Writing and rewriting: Keystroke logging’s colored numerical visualization. Teoksessa K. P. H. Sullivan & E. Lindgren Observing writing: logging handwriting and computer keystrokes. Leyde: Brill Academic Publishers. 96–124.

Caporossi, G. & Leblay, C. 2011. Online Writing Data Representation: a Graph Theory Approach. Teoksessa J. Gama, E. Bradley et J. Hollmén (toim.) Lecture Notes in Computer Sciences 7014 (Advances in Intelligent Data Analysis X). Springer: Heidelberg, Dordrecht, London, New York. 80–89.

Foucambert, D., Heranic, T., Leblay, C., Mutta, M. & Zhong, M. Tulossa. Intégration de la visualisation dans l’analyse de processus complexes : écritures et réécritures dans un corpus multilingue universitaire. Teoksessa F. Neveu et alii (toim.), Actes numériques du 8ème Congrès Mondial de Linguistique Française, CMLF, 4-8 juillet 2022, Université d’Orléans.

Karhu, H. 2010. Geneettinen kritiikki – uusia näkökulmia teoksen synnyn tutkimukseen. Avain. Kirjallisuudentutkimuksen aikakauslehti. Tekstuaalitieteiden erikoisnumero, 3/2010, 68–74.

Koponen, J. & Hildén, J. 2019. The Data visualization handbook. Helsinki: Otava.

Leblay, C & Caporossi, G. 2015. A graph theory approach to online writing data visualization. Teoksessa G. Cislaru (toim.) Writing(s) at the Crossroads: The Process-Product Interface. Amsterdam: John Benjamins. 171–181.

Leblay, C. & Leblay, T. 2019. Tekstigenetiikka: periaatteista korpuksiin. Geneettinen kritiikki, Synteesi 12, Taiteiden välisen tutkimuksen aikakauslehti: Helsinki, 6–26.

Leblay, C. 2011. Le temps de l’écriture. Genèse, durée, représentations. Thèse de doctorat. Publication en ligne au format Pdf (ISBN: 978‐951‐39‐4519-0).

Pulkkinen, V. 2017. Runoilija latomossa. Geneettinen tutkimus Aaro Hellaakosken Jääpeilistä. Helsinki: SKS.

Sullivan, K., P. & Lindgren, E. 2019. Observing writing: logging handwriting and computer keystrokes. Leyde: Brill Academic Publishers.

Usoof, H., Leblay, C. & Caporossi, G. 2020. GenoGraphiX-Log version 2.0 user guide. Technical report Les Cahiers du GERAD G-2020-68, GERAD, HEC Montreal, Canada.