Showing posts with label Microsoft. Show all posts
Showing posts with label Microsoft. Show all posts

Thursday, June 05, 2008

Juha Hakala ja uusi vapaakappalelaki




Uusin KIDE-lehti on teemoitettu muistille. Lehdessä etsitään vastauksia siihen, ”mikä on kirjaston rooli ja merkitys kansankunnan muistin säilyttäjänä, miksi politiikassa muistellaan pahalla, mihin on tallennettu organisaation muisti, mikä merkitys muistelulla on ikäihmisille ja miten saada pohjoisen muistot takaisin Lappiin.”

Juha Hakalan, Kansalliskirjaston kehittämisjohtaja, mielenkiintoisessa haastattelussa uusi vapaakappalelaki eli laki kulttuuriaineistojen tallettamisesta ja säilyttämisestä avautuu ja konkretisoituu aivan uudella tavalla. Kansallisarkiston pääjohtaja Jussi Nuorteva pakinoi aiheesta arkistolaitos hävittäjänä ja säilyttäjänä.

Lehdessä on paljon muutakin kuivasta tieteellisestä tekstistä virkistävästi poikkeavaa, mutta akateemisestikin antoisaa luettavaa. Kesälukemiseksikin sopivaa.

Sunday, February 03, 2008

Google Book Search: The Good, the Bad, & the Ugly


Hyvä, paha ja vielä ruma. Sanat ovat Campus technology -lehden pitkästä Google-artikkelista.
Dian Schaffhauser, "Google Book Search: The Good, the Bad, & the Ugly," Campus Technology, 1/1/2008, http://www.campustechnology.com/article.aspx?aid=57064
Lehti on saatavissa Free E- Journals –palvelusta.

Artikkeli keskittyy massadigitoinnin tilanteeseen Kalifornian yliopistossa (UC). Sen valtava kirjastolaitos on sijoittunut 10 kampukselle käsittäen yli 100 erillistä kirjastoa, kokoelmaluettelon (Melvyl) koon ollessa noin 34 miljoonaa nidettä. Yliopisto on Googlen ohella samanaikaisesti mukana vastaavissa Microsoftin ja Internet Archiven hankkeissa. Sopimus Googlen kanssa solmittiin heinäkuussa 2006. Sopimus sisältää 2.5 miljoonan kirjan digitoinnin kuudessa vuodessa eli noin 420.000 kirjaa vuodessa. Kirjastolaitos on sitoutunut toimittamaan yhtiölle 3.000 kirjaa päivässä. Selektiivisyyteen skannaukseen kirjoja valittaessa ei juuri pystytä. Hylly hyllyltä kirjat pakataan päivittäin Googlelle toimitettavaksi. Public domain –kirjoja ei ennätetä erikseen poimimaan, ei myöskään arvioimaan asiakkaiden mahdollisia tarpeita. Kirjat menevät vielä lainausprosessin läpi, vaikka Googlella ei UC:n kirjastokorttia olekaan. Kirjaston väki ei tiedä eikä suostu kertomaan sitä, minne skannattavat kirjat lainaustiskin jälkeen joutuvat.

Google-hanke ei ole ensimmäinen digitointiin liittyvä toimi UC:ssa, toteaa Robin Chandler. Hän on toiminut 7 vuoden ajan UC:n digitaalisen kirjaston (California Digital Library, CDL) johtajana. Calisphere on yliopiston palvelu sen omista ja alueen museoiden kokoelmista digitoituihin aineistoihin: valokuviin, dokumentteihin, sanomalehtiin, sarjakuva-aineistoihin, taidemaalauksiin, mainoksiin jne. Digitaalisen kirjaston ytimen Kaliforniassa muodostaa the Online Archive of California(OAC), joka sisältää erillisen haettavan tietokannan primaariaineistoihin ja niiden digitaalisiin kopioihin. Tietokanta sisältää mm. kirjeitä, päiväkirjoja, juridisia dokumentteja, digitoituja äänitteitä ja historiallisia artefakteja sekä paljon muuta. Chandler myöntää artikkelissa viitatussa podcast-haastattelussa, ettei UC:ssa ole vielä tehty päätöksiä miten Googlen ja Microsoftin digitoimia kirjoja yliopistossa hyödynnettäisiin. Lupa niiden kampuskäyttöön on olemassa.

Arvata saattaa mitä tutkijat miettivät ollessaan/joutuessaan mukaan yliopiston omiin sekä sittemmin Microsoftin, Internet Archiven ja lopulta Googlen digitointihankkeisiin.

Artikkeliin on haastateltu useiden IT-alan yritysten edustajia, koska Google ja Microsoft ovat hyvin vaiteliaita teknisistä yksityiskohdista. Massiivisten datamäärien tallennusta ja niistä tapahtuvaa nopeaa tiedonhakua on analysoinut alan erikoisfirma, digitointiin liittyvistä tekstintunnistuksen (OCR) ongelmista puhuu samaten alan yritys, kuten myös valtavia määriä sisältävien kuvatiedostojen kompressoinnista ja kuvatiedostoihin liittyvistä metadatan lisäämisen ja tiedonhaun ongelmista. Kirtas Technologies toimittaa omien sanojensa mukaan maailman nopeinta digitointiin liittyvää järjestelmää The APT BookScan 2400 Gold. Tuote maksaa 100.000 – 175.000$ (70.000 – 120.000 €) kameroineen. Laitteiston kapasiteetti on skannata tunnissa noin 8 keskimäärin 300-sivuista kirjaa. Yhtiön edustaja kertoo tietävänsä miten Googlella skannauksessa ja digitoinnissa toimitaan, mutta ei voi kertoa siitä tarkemmin. Hän kuitenkin paljastaa, ettei hakukoneyhtiössä ole luotu nopeampaa järjestelmää.

Internet Archive –hankkeen kokemuksista UC:stä kerrotaan, että vuoden skannausten määrä oli vain noin 33.000 nidettä. Google ja Microsoft eivät ole luovuttaneet kyseisiä lukuja. Skannaukseen valituista kirjoista noin kolmannes oli lisäksi jouduttu “hylkäämään” paperin haurauden tai teksti- ja muiden sivujen epäsopivan koon vuoksi. Epäillä voikin voiko Googlen onnistumisprosentti olla kovin erilainen.

Kirstasin edustaja korostaa skannauksen ja digitoinnin käsitteellisiä eroja. Digitointi on keskeistä, ei skannaus. Skannauksen jälkeen kirjaa joutuu digitointiprosessiin, joka käsittää monia vaiheita: kirjan värisivujen konvertoinnin musta-valkosivuiksi, sivupohjien siistimisen, kirjasinkokojen konvertoinnin, kirjan koon muuntamisen painatustarpeisiin, digitoidun sisällön muuttamisen toisiin tiedostomuotoihin (online lukemiseen, PDF-katseluun).

Viiden vuoden päästä (Google) Book Search näyttänee aivan toisenlaiselta. Nyt on tavoitteena hallita suunnattomia volyymeja eli kirjamääriä ja datamääriä. Juridiset kysymykset on silloin jo ratkottu ja tekijänoikeuksiin liittyvät kysymykset hoidettu, standardeista päätetty ja teknologiat laajemmin käytössä.

Monday, December 11, 2006

Microsoftin Live Search Books

on avattu Suomen itsenäisyyspäivänä. Kirjastoina mukana mm. British Library ja Kalifornian yliopisto UC Berkeley mukaanlukien. Kirjastojen omaa tuotantoa on skannattu näköjään paljon mukaan aivan viime vuosikymmeniltäkin. Tekijänoikeudethan vapautuvat Yhdysvalloissa vasta vuotta 1923 vanhemmilta teoksilta.

Kulttuurihistoriallisesti mielenkiintoista aineistoa tuottaneen Regional Oral History Officen (Bancroft Library Kalifornian yliopistossa) puhtaaksikirjoitettuja raportteja on skannattu kokotekstinä Microsoftin palveluun. Kalifornian yliopisto on mukana myös Googlen kirjapalvelusssa, mutta edellä mainitut raportit ovat vain viitetietoina Google Book Searchissä. Katso esimerkiksi vuonna 1965 julkistettu Oscar Lewisin noin 150 sivuinen, hakemistolla varustettu haastattelu "Literary San Francisco". Amazonin kirjatietokannassa julkaisu on myös - ei kuitenkaan saatavilla eikä ostettavissa. Viite San Franciscon kaupunginkirjaston kokoelmatietokannassa.

Edellä mainittuun raporttiin liittyvistä tekijänoikeuksista raportin alkusivuilla todetaan kirjaintarkasti (= copy-paste -lainaus) seuraavaa :
"All uses of this manuscript are covered by an
agreement between the Regents of the University
of California and Oscar Lewis, dated 1 September
1965. The manuscript is thereby made aval
for research purposes. All literary rights in
the manuscript, including the right to publish,
are reserved to The Bancroft Library of
University of California at Berkeley. No part
of the manuscript may be ouoted for tmblicat
without the written permission of the
of The Bancroft Library of the University
California at Berkeley."

Microsoft on hankkinut näköjään oikeudet kyseisille kokoteksteille. Sisällöllisesti kyseinen julkaisu-/raporttiryhmä on erittäin mielenkiintoinen ja omannee laajempaakin mielenkiintoa. Onko Microsoftin hankkeessa panostettu myös aineistojen valintaan?

Microsoftin palvelusta tullee todellinen kilpailija Google Book Searchille. Tutustu Live Search Books. Miksihän IE:n uusin englanninkielinen selainversio toimii niin hyvin tässä palvelussa ;-) Ohjeita palveluun yhtiön omasta blogista.

Uusia kriittiisä arvioita Google Book Search -palvelusta: Dr. Peter Jacso ja Mick O’Leary.