U bent hier

Foto: Saskia Vanderstichele / Tekst: Ebe Daems

Tan Lu maakt deel uit van de onderzoeksgroep Digital Mathematics en werkt aan een vierjarig onderzoeksproject samen met de Koninklijke Bibliotheek. Zijn onderzoek is dankbaar om uit te leggen omdat het een directe toepassing heeft in de praktijk. Bibliotheken archiveren namelijk oude documenten door ze te fotograferen: boeken, manuscripten, kranten, … ‘Het zijn waardevolle documenten dus digitalisering verzekert dat ze bewaard blijven en zo hoeft men het grote publiek geen rechtstreekse toegang te geven tot de documenten’, zegt Tan.

 

Lees ook:
Kan wetenschap om de wetenschap nog? Over het belang van fundamentele wiskunde.
Wiskunde op middelbare scholen is geen wiskunde
Over de wiskunde achter de rubiks cubus 

 

Bij het scannen ontstaan echter vaak kwaliteitsproblemen door fouten in het scanproces of omdat de documenten niet meer in optimale staat zijn. Een groot deel van de beelden is daardoor niet goed genoeg voor publicatie. Omdat het onbegonnen werk is met de hand deze massa aan data te beoordelen op kwaliteit, wil men het proces automatiseren. Dat lijkt op het eerste zicht misschien niets met wiskunde te maken te hebben, maar niets is minder waar.

Kwaliteit uitgedrukt in cijfers

Op de beeldkwaliteit van gedigitaliseerde documenten kan men namelijk steeds een getal plakken: Bij tekstdocumenten is de kwaliteit makkelijk automatisch in een getal te gieten via Optical Character Recognition (OCR), het systeem waarmee bijvoorbeeld Adobe Acrobat Reader handgeschreven of gedrukte tekst omzet in een digitaal doorzoekbare tekst: ‘Een document dat OCR 100 procent tekstueel correct is, heeft een kwaliteitsscore van 100 procent. Is de tekst maar voor 80 procent correct gedetecteerd dan is de score navenant’, zegt Tan.

Ik had heel goede proffen die steeds zaken uitlegden aan de hand van voorbeelden uit onze leefwereld.
-
Tan Lu

Voor beelddocumenten, bijvoorbeeld stadszichten of portretten, ligt het scoren moeilijker omdat kwaliteit dan subjectief wordt. Hiervoor vragen de onderzoekers aan een grote groep respondenten om een hele hoop beelden - waarin bewust ruis werd toegevoegd, bijvoorbeeld onscherpte - te quoteren. Dankzij de gemiddelden van de scores die de respondenten toekennen, krijgen de onderzoekers ook voor de beelddocumenten een grote dataset met scores, waarmee ze aan de slag kunnen om de computer aan te leren de kwaliteit van ongeziene beelden te beoordelen.

 

Aan de hand van die kwaliteitsscores van tekst- en beelddocumenten, leert Tan een computer om in het digitale archief, te ontdekken waar het misliep bij het scannen.

 

Uitleggen om te inspireren

Tan legt zijn onderzoek opvallend geduldig stapje per stapje uit. ‘Ik heb nooit een training gevolgd om aan wetenschapscommunicatie te doen, maar ik heb het gevoel dat het bij mij vanzelf komt. Ik denk dat ik veel geleerd heb van mijn eigen docenten. Ik had heel goede proffen die steeds zaken uitlegden aan de hand van voorbeelden uit onze leefwereld.’ Wetenschapscommunicatie betekent voor Tan meer dan uitleggen waar onderzoekers mee bezig zijn: ‘Ik hoop ook collega’s uit andere vakgebieden te inspireren over de mogelijkheden van het digitale tijdperk.’