Towards a knowledge-based culturomics
Research Project, 2012 – 2016

Mot kunskapsbaserad storskalig kunskapsutvinning ur svensk text Nyligen har några forskare börjat utnyttja de enorma textmängder som resulterat ur Googles massiva bokdigitaliseringsprojekt för att i dessa textmassor försöka följa språklig och kulturell utveckling över de två senaste seklerna. Forskningsområdet har med buller och bång lanserats under namnet "culturomics" (analogt med "genomics"), men de första studierna har med rätta kritiserats för att helt ignorera relevanta tidigare arbeten i språkteknologi och lingvistik, och t.ex. inte diskutera det inte alldeles enkla begreppet "ord" i den här kontexten. Samtidigt är detta forskning som ligger i tiden. Det finns nu enorma mängder digital text att tillgå på svenska. Bara de svenska bloggarna uppgår till miljarder ord. Dessutom pågår ett antal kulturarvsdigitaliseringsprojekt, t.ex. Kungliga bibliotekets och Riksarkivets Digidaily-projekt där 300.000 sidor svensk dagspress från de senaste 300 åren har digitaliserats. Syftet med detta projekt är att lyfta "culturomics" till kunskapsbaserad storskalig kunskapsutvinning ur stora mängder digitaliserad svensk text, såvär modern som äldre. I projektet ska de tre samarbetande forskargrupperna utforska hur språkteknologi baserad på både kunskapsrika språkresurser och kunskapslätta statistiska metoder kan kombineras på bästa sätt för att åstadkomma automatisk utvinning av formellt strukturerad kunskap ur stora mängder text. Två praktiska mål för projektet är (1) att använda resultaten av forskningen för att tillhandahålla intelligenta forskningsverktyg för discipliner som är starkt beroende av text som primärforskningsdata, främst humaniora och samhällsvetenskap och (2) att för svenska skapa en prototyp till ett frågebesvarande system likt IBM:s Watson, som 2011 slog alla sina mänskliga medtävlare i amerikanska Jeopardy. Den typen av funktion är central för att ta fram den sorts intelligenta digitala tjänster som exempelvis visionen om 24-timmarsmyndigheten förutsätter.

Participants

Devdatt Dubhashi (contact)

Computing Science (Chalmers)

Other projects Research

Collaborations

University of Gothenburg

Gothenburg, Sweden

More projects

Funding

Swedish Research Council (VR)

Project ID: 2012-5738
Funding Chalmers participation during 2012–2016

More projects

Publications

2018

Word Representations for Emergent Communication and Natural Language Processing

Doctoral thesis

2018

DeepColor: Reinforcement Learning optimizes information efficiency and well-formedness in color name partitioning

Paper in proceeding

More information

Latest update

9/3/2015 3

Towards a knowledge-based culturomics Research Project, 2012 – 2016