Sunday, February 03, 2008

Google Book Search: The Good, the Bad, & the Ugly


Hyvä, paha ja vielä ruma. Sanat ovat Campus technology -lehden pitkästä Google-artikkelista.
Dian Schaffhauser, "Google Book Search: The Good, the Bad, & the Ugly," Campus Technology, 1/1/2008, http://www.campustechnology.com/article.aspx?aid=57064
Lehti on saatavissa Free E- Journals –palvelusta.

Artikkeli keskittyy massadigitoinnin tilanteeseen Kalifornian yliopistossa (UC). Sen valtava kirjastolaitos on sijoittunut 10 kampukselle käsittäen yli 100 erillistä kirjastoa, kokoelmaluettelon (Melvyl) koon ollessa noin 34 miljoonaa nidettä. Yliopisto on Googlen ohella samanaikaisesti mukana vastaavissa Microsoftin ja Internet Archiven hankkeissa. Sopimus Googlen kanssa solmittiin heinäkuussa 2006. Sopimus sisältää 2.5 miljoonan kirjan digitoinnin kuudessa vuodessa eli noin 420.000 kirjaa vuodessa. Kirjastolaitos on sitoutunut toimittamaan yhtiölle 3.000 kirjaa päivässä. Selektiivisyyteen skannaukseen kirjoja valittaessa ei juuri pystytä. Hylly hyllyltä kirjat pakataan päivittäin Googlelle toimitettavaksi. Public domain –kirjoja ei ennätetä erikseen poimimaan, ei myöskään arvioimaan asiakkaiden mahdollisia tarpeita. Kirjat menevät vielä lainausprosessin läpi, vaikka Googlella ei UC:n kirjastokorttia olekaan. Kirjaston väki ei tiedä eikä suostu kertomaan sitä, minne skannattavat kirjat lainaustiskin jälkeen joutuvat.

Google-hanke ei ole ensimmäinen digitointiin liittyvä toimi UC:ssa, toteaa Robin Chandler. Hän on toiminut 7 vuoden ajan UC:n digitaalisen kirjaston (California Digital Library, CDL) johtajana. Calisphere on yliopiston palvelu sen omista ja alueen museoiden kokoelmista digitoituihin aineistoihin: valokuviin, dokumentteihin, sanomalehtiin, sarjakuva-aineistoihin, taidemaalauksiin, mainoksiin jne. Digitaalisen kirjaston ytimen Kaliforniassa muodostaa the Online Archive of California(OAC), joka sisältää erillisen haettavan tietokannan primaariaineistoihin ja niiden digitaalisiin kopioihin. Tietokanta sisältää mm. kirjeitä, päiväkirjoja, juridisia dokumentteja, digitoituja äänitteitä ja historiallisia artefakteja sekä paljon muuta. Chandler myöntää artikkelissa viitatussa podcast-haastattelussa, ettei UC:ssa ole vielä tehty päätöksiä miten Googlen ja Microsoftin digitoimia kirjoja yliopistossa hyödynnettäisiin. Lupa niiden kampuskäyttöön on olemassa.

Arvata saattaa mitä tutkijat miettivät ollessaan/joutuessaan mukaan yliopiston omiin sekä sittemmin Microsoftin, Internet Archiven ja lopulta Googlen digitointihankkeisiin.

Artikkeliin on haastateltu useiden IT-alan yritysten edustajia, koska Google ja Microsoft ovat hyvin vaiteliaita teknisistä yksityiskohdista. Massiivisten datamäärien tallennusta ja niistä tapahtuvaa nopeaa tiedonhakua on analysoinut alan erikoisfirma, digitointiin liittyvistä tekstintunnistuksen (OCR) ongelmista puhuu samaten alan yritys, kuten myös valtavia määriä sisältävien kuvatiedostojen kompressoinnista ja kuvatiedostoihin liittyvistä metadatan lisäämisen ja tiedonhaun ongelmista. Kirtas Technologies toimittaa omien sanojensa mukaan maailman nopeinta digitointiin liittyvää järjestelmää The APT BookScan 2400 Gold. Tuote maksaa 100.000 – 175.000$ (70.000 – 120.000 €) kameroineen. Laitteiston kapasiteetti on skannata tunnissa noin 8 keskimäärin 300-sivuista kirjaa. Yhtiön edustaja kertoo tietävänsä miten Googlella skannauksessa ja digitoinnissa toimitaan, mutta ei voi kertoa siitä tarkemmin. Hän kuitenkin paljastaa, ettei hakukoneyhtiössä ole luotu nopeampaa järjestelmää.

Internet Archive –hankkeen kokemuksista UC:stä kerrotaan, että vuoden skannausten määrä oli vain noin 33.000 nidettä. Google ja Microsoft eivät ole luovuttaneet kyseisiä lukuja. Skannaukseen valituista kirjoista noin kolmannes oli lisäksi jouduttu “hylkäämään” paperin haurauden tai teksti- ja muiden sivujen epäsopivan koon vuoksi. Epäillä voikin voiko Googlen onnistumisprosentti olla kovin erilainen.

Kirstasin edustaja korostaa skannauksen ja digitoinnin käsitteellisiä eroja. Digitointi on keskeistä, ei skannaus. Skannauksen jälkeen kirjaa joutuu digitointiprosessiin, joka käsittää monia vaiheita: kirjan värisivujen konvertoinnin musta-valkosivuiksi, sivupohjien siistimisen, kirjasinkokojen konvertoinnin, kirjan koon muuntamisen painatustarpeisiin, digitoidun sisällön muuttamisen toisiin tiedostomuotoihin (online lukemiseen, PDF-katseluun).

Viiden vuoden päästä (Google) Book Search näyttänee aivan toisenlaiselta. Nyt on tavoitteena hallita suunnattomia volyymeja eli kirjamääriä ja datamääriä. Juridiset kysymykset on silloin jo ratkottu ja tekijänoikeuksiin liittyvät kysymykset hoidettu, standardeista päätetty ja teknologiat laajemmin käytössä.

No comments: