Digitaal zoeken, verzamelen en analyseren van teksten?

De KB, de nationale bibliotheek van Nederland, biedt via haar online diensten toegang tot historische tekstcollecties zoals gedigitaliseerde kranten en boeken. De KB stelde daarbij vast dat er een gat bestaat tussen gebruiksvriendelijke zoekdiensten zoals Delpher en DBNL enerzijds, en de dienst Dataservices voor geavanceerd digitaal onderzoek anderzijds. Dataservices is voor veel gebruikers niet toegankelijk, omdat dit vereist om opgevraagde data zelf op te slaan en daar algoritmes voor te programmeren. Tegelijkertijd ziet de KB steeds meer mogelijkheden voor digitaal onderzoek op haar tekstcollecties. Tegen deze achtergrond heeft de KB aan Dialogic opdracht gegeven te verkennen of er behoefte onder haar gebruikers bestaat voor een analyseplatform waarin meerdere collecties (van de KB alsook daarbuiten) geïntegreerd kunnen worden geanalyseerd in een zogenaamde “tekst suite”.

Om in kaart te brengen hoe een tekst suite gebruikers kan ondersteunen in hun onderzoek op (historische) tekstcollecties, hebben we op basis van literatuuronderzoek een schema opgesteld van de verschillende onderzoeksfasen en behoeften die per fase kunnen ontstaan. Dit schema is weergegeven in de figuur hieronder. Middels interviews en een enquête onder 873 gebruikers van KB-diensten zijn verschillende mogelijke functionele behoeften getoetst om te bepalen hoe een tekst suite meerwaarde kan genereren.

We concluderen dat er geen duidelijke behoefte is aan geavanceerde mogelijkheden voor de fase Analyseren. Hoewel dit het startpunt van de verkenning vormde, geven gesprekspartners en respondenten van de online enquête aan hier minder behoefte aan te hebben en dit ook in mindere mate te gebruiken als het zou worden aangeboden. Hierbij staan drie argumenten centraal. Ten eerste, door de grote heterogeniteit van bronmateriaal van de KB alsook daarbuiten brengen onderzoekers liever alles samen op hun eigen computer voor analyse. Het alternatief is dat een tekst suite het mogelijk maakt om bronnen te importeren, wat vragen opwerpt over duurzaam behoud van samengestelde collecties. Ten tweede, door snelle ontwikkelingen van met name kwantitatieve analysetools zien gesprekspartners het als een risico dat de KB tools gaat aanbieden die snel gedateerd raken, zeker wanneer deze te weinig gebruikt worden om veel inspanningen te verrichten voor continue doorontwikkeling. Tenslotte stellen wij vast dat waar analysefunctionaliteit wordt aangeboden in bestaande platforms (bijv. de n-gram viewer in DBNL of frequentieanalyse in Nederlab) dit niet in sterke mate lijkt te leiden tot herkenning en brede toepassing voor nieuwe onderzoeksvragen. De latente behoefte voor dergelijke functionaliteiten lijkt daarmee beperkt.

We stellen daarentegen vast dat er een duidelijke behoefte is aan meer geavanceerde mogelijkheden voor de fasen Ontdekken en Selecteren. Onze aanbeveling aan de KB is dan ook om een tekst suite te positioneren als een gebruiksvriendelijke tool voor gebruikers en onderzoekers om zelf een selectie te maken van data die ze kunnen exporteren voor analyse met hun eigen tools.

Het volledige rapport kan je downloaden via https://doi.org/10.5281/zenodo.6591571. Op basis van onze bevindingen heeft de KB inmiddels besloten om een dienst te gaan ontwikkelen voor het ondersteunen van geavanceerde mogelijkheden voor ontdekken en selecteren.

Meer weten over dit onderzoek? Neem dan contact op met Max Kemman.