04 septembre 2006

Digitized by Google


Google attaque de nouveau, maintenant toute la planète peut télécharger sur Google Books des incunables en format pdf (en format image sans l'OCR et sans la navigation interne, mais ce n'est pas grave) et se constituer des merveilleuses bibliothèques numériques de l'antiquité à nos jours, et l'essentiel... sans dépenser un seul rond!!!

MERCI Google, merci en nom de l'Humanité


(1 heure plus tard et avec une dizaine de pdfs téléchargés...)

Arrrgggghhhhhh!!, j'avais entendu parler du travail bâclé dans la numérisation mais, maintenant que l'on peut parcourir aisement chaque document pdf sans les contraintes de l'interface web, on voit très vite (en tout cas c'est flagrant pour les vieux documents) qu'il y a une grande quantité des pages coupées ou à moitié illissibles, des groupes de pages numérisés à double (parfois même le livre entier est numérisé à double avec la même misérable qualité mais deux fois plus lourd) c'est de l'arnaque je veux que l'on me rembourse.... mes rêves!!!





Après les bonnes surprises de Google maps (malgré que Lausanne est toujors dans le flou) et le fait qu'il est encore de loin le meilleur moteur de recherche du monde, je me demande comment tout le google-plex n'a pas la honte de voir le nom de son entreprise estampillé dans un travail aussi baclé, peu soigneux et mal fait!!! et que l'on ne me disse pas que c'est à cause du nombre si grand de documents à numériser, ou de la jeunesse du système ou patati et patata. En réalité c'est un Raté historique que d'avoir des livres extremement rares sur la table de numérisation et de les laisser partir en gardant un fichier pourri que personne n'oserait l'exposer au regard extérieur... personne sauf Google et ses beta-produits.



En fait j'imagine que ces parties ratés resteront ainsi pendant longtemps car s'il est relativement bon marché de faire le travail en masse et à la louche (par des gens complètement ivres?) , un autre paire des manches est de corriger le tir, rechercher à nouveau le livre à la bibliothèque, le transporter et le reescanner (complètement ou les parties defectueuses), ça serait beaucoup trop cher.



Il faudra donc faire un deuil de ce 10% des pages defectueuses (estimation personnelle complètement subjective, basée sur l'échantillon des fichiers déchargés) et se contenter du 90% restant qui est en etat plus ou moins lisible. Oui c'est vrai que c'est déjà pas mal, mais quand c'est le livre qui vous intéresse (par exemple ce joli traité du XVIIème sur les bibliothèques : Traicté des plus belles bibliothèques publiques et particulieres qui ont esté, & qui sont à présent dans le monde) qui est maltraitée alors vous partagerez peut-être mon opinion!



Cependant il faut prendre les choses positivement, une nouvelle science s'ouvre peut-être à nous, après la paléographie et la fouille des textes, voilà qu'il nous faudra nous former à la "googlegraphie" ou analyse des vieux pdfs fragmentaires.


Cependant, et avant qu'ils ne ferment ce blog (pradoxalement nous utilisons blogger, l'un des google beta-produits, car les e-bénédictins nous sommes des gens très courageaux) voici un peu de pub sur l'un des rares produits finis chez google, plus achevé mais moins amusant que google books!


C'est quand la journée mondiale du livre maltraité?

PS : pour plus d'information sur la controverse de "google books" (appelé avant "google print") voir les articles suivants :

The Google Print Controversy: A Bibliography (DigitalKoans)

Bibliothèques numériques et Google-Print (@rchiveSIC)

¿A quién confiarle la digitalización de los libros? (El Pais)

Visualiser des documents numériques (Figoblog)