source: trunk/gsdl-documentation/manuals/xml-source/fr/Paper_fr.xml@ 14106

Last change on this file since 14106 was 14106, checked in by lh92, 17 years ago

Added the copyright character

  • Property svn:keywords set to Author Date Id Revision
File size: 68.9 KB
Line 
1<?xml version="1.0" encoding="UTF-8"?>
2<!DOCTYPE Manual [
3 <!ENTITY nbsp "&#160;">
4 <!ENTITY rarr "&#8594;">
5 <!ENTITY mdash "&#8212;">
6 <!ENTITY copy "&#169;">
7]>
8<Manual id="Paper" lang="fr">
9<Heading>
10<Text id="1"/><Updated date="1-Mar-2004 by unknown"/>
11</Heading>
12<Title>
13<Text id="2">BibliothÚque numérique Greenstone: du papier à la collection</Text><Updated date="1-Mar-2004 by unknown"/>
14</Title>
15<Author>
16<Text id="3">Dr Michel Loots, Dan Camarzan et Ian H. Witten</Text>
17</Author>
18<Affiliation>
19<Text id="4">ONG Human Info, Belgique<br/>Simple Words, Roumanie<br/>Université de Waikato, Nouvelle-Zélande</Text>
20</Affiliation>
21<SupplementaryText>
22<Text id="manual_index">Retourner à l'indexe du manuel</Text>
23<Text id="top_index">Retourner à l'indexe du dessus</Text>
24</SupplementaryText>
25<Text id="5">Greenstone est une suite logicielle destinée à la construction et à la distribution de collections de bibliothÚques numériques. Cette suite fournit une nouvelle maniÚre d'organiser l'information et de la publier sur l'Internet ou sur un cédérom. Greenstone est produit par le projet de bibliothÚque numérique de Nouvelle-Zélande (dépendant de l'université de Waikato), et développé et distribué en coopération avec l'UNESCO et l'ONG Human Info.C'est un logiciel Open Source, diffusé selon les termes de la licence publique générale de GNU, et qu'on peut obtenir à l'URL http://greenstone.org.</Text>
26<Comment>
27<Text id="6">Nous souhaitons nous assurer que ce logiciel fonctionne bien pour vous.<br/> Faites-nous part, en anglais, de tout problÚme à l'adresse électronique [email protected].</Text>
28</Comment>
29<Version>
30<Text id="7">Greenstone gsdl-2.50</Text>
31</Version>
32<Date>
33<Text id="8">Mars 2004</Text>
34</Date>
35<Section id="about_this_manual">
36<Title>
37<Text id="9">À propos de ce manuel</Text>
38</Title>
39<Content>
40<Text id="10">Ce document explique comment créer des collections de cédéroms à partir de documents papier. Il décrit en détail les procédures et les coûts relatifs à la numérisation et aux processus de reconnaissance optique de caractÚres (ROC, ou OCR), de maniÚre à obtenir des textes dans un format que Greenstone puisse accepter. Il décrit aussi comment créer et éditer le matériel associé à une collection.</Text>
41<Text id="11">Nous nous sommes efforcés d'être aussi clairs et complets que possible dans nos explication. Toute marque commerciale mentionnée ne l'est que dans un but d'illustration, et cela ne signifie en rien que nous conseillions, favorisions ou recommandions ce produit d'une quelconque maniÚre.</Text>
42</Content>
43</Section>
44<Section id="companion_documents">
45<Title>
46<Text id="12">Documents d'accompagnement</Text>
47</Title>
48<Content>
49<Text id="13">L'ensemble des documents de Greenstone comprend cinq volumes:</Text>
50<BulletList>
51<Bullet>
52<Text id="14">Guide d'installation de la bibliothÚque numérique Greenstone</Text>
53</Bullet>
54<Bullet>
55<Text id="15">Guide de l'utilisateur de la bibliothÚque numérique Greenstone</Text>
56</Bullet>
57<Bullet>
58<Text id="16">Guide du développeur de la bibliothÚque numérique Greenstone</Text>
59</Bullet>
60<Bullet>
61<Text id="17">BibliothÚque numérique Greenstone: du papier à la collection (<i>ce document-ci</i>)</Text>
62</Bullet>
63<Bullet>
64<Text id="18">BibliothÚque numérique Greenstone: Utilisation de "L'organizer"</Text>
65</Bullet>
66</BulletList>
67</Content>
68</Section>
69<Section id="copyright">
70<Title>
71<Text id="copyright-title">Copyright</Text>
72</Title>
73<Content>
74<Text id="right-text-1">Copyright &copy; 2002 2003 2004 2005 2006 2007 by the <Link url="http://www.nzdl.org">New Zealand Digital Library Project</Link> at <Link url="http://www.waikato.ac.nz">the University of Waikato</Link>, New Zealand.</Text>
75<Text id="right-text-2">Permission is granted to copy, distribute and/or modify this document under the terms of the <Link url="http://www.gnu.org/licenses/fdl.html">GNU Free Documentation License</Link>, Version 1.2 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled <Link url="http://greenstonewiki.cs.waikato.ac.nz/wiki/gsdoc/GNUFDL.html">“GNU Free Documentation License.”</Link></Text>
76</Content>
77</Section>
78<Section id="acknowledgements">
79<Title>
80<Text id="19">Remerciements</Text>
81</Title>
82<Content>
83<Text id="20">L'opération de numérisation, l'Organizer et tout le savoir-faire relatif à la création de collections à but non lucratif par le fruit d'un travail de collaboration furent développés par Michel Loots, docteur en médecine, membre des projets Human Info NGO et HumanityCD, et par Dan Camarzan de Simple Words, ainsi que par leurs collaborateurs de Brasov, en Roumanie.</Text>
84<Text id="21">Le logiciel Greenstone a vu le jour grâce à un effort de collaboration entre de nombreuses personnes. Rodger McNab et Stefan Boddie en sont les principaux architectes et développeurs. Des contributions ont été faites par David Bainbridge, George Buchanan, Hong Chen, Michael Dewsnip, Katherine Don, Elke Duncker, Carl Gutwin, Geoff Holmes, Dana McKay, John McPherson, Craig Nevill-Manning, Dynal Patel, Gordon Paynter, Bernhard Pfahringer, Todd Reed, Bill Rogers, John Thompson, et Stuart Yeates. D'autres membres du Projet de bibliothÚque numérique de Nouvelle-Zélande ont également donné des conseils et inspiré les concepteurs du systÚme: Mark Apperley, Sally Jo Cunningham, Steve Jones, Te Taka Keegan, Michel Loots, Malika Mahoui, et Lloyd Smith. Nous remercions aussi tous ceux qui ont contribué au développement des modules sous licence GNU GPL qui font partie de cette distribution: MG, GDBM, PDFTOHTML, PERL, WGET, WVWARE, XLHTML.</Text>
85</Content>
86</Section>
87<Chapter id="introduction">
88<Title>
89<Text id="22">Introduction</Text>
90</Title>
91<Content>
92<Text id="23">L'un des objectifs du logiciel de bibliothÚque numérique Greenstone est de permettre à des entités telles que des universités, des agences des Nations Unies, des organisations non gouvernementales, des associations à but non lucratif, ou des gouvernements, de créer des collections variées d'informations qui pourront être diffusées en ligne ou sur cédérom.</Text>
93<Text id="24">Les étapes à suivre seront typiquement:</Text>
94<NumberedList>
95<NumberedItem>
96<Text id="25">Sélection des documents à inclure</Text>
97</NumberedItem>
98<NumberedItem>
99<Text id="26">S'assurer des atorisations d'utilisation de ces documents (droits d'auteurs et copyrights) dans la bibliothÚque numérique</Text>
100</NumberedItem>
101<NumberedItem>
102<Text id="27">Numérisation et ROC des documents papier non disponibles sous forme numérique de maniÚre à disposer d'un format numérique parfait</Text>
103</NumberedItem>
104<NumberedItem>
105<Text id="28">Conversion de tous les documents dans un format (comprenant texte et images) qu'il est possible d'importer dans Greenstone (de préférence HTML ou Microsoft Word, mais d'autres formats sont également possibles, et traités plus ou moins précisément par un «greffon» (plugin) qui leur est propre (voir à ce sujet le Guide de l'utilisateur de la bibliothÚque numérique Greenstone))</Text>
106</NumberedItem>
107<NumberedItem>
108<Text id="29">Étiquetage des chapitres, paragraphes et images des documents numériques</Text>
109</NumberedItem>
110<NumberedItem>
111<Text id="30">Organisation de la collection sous forme d'une bibliothÚque numérique structurée de maniÚre optimale</Text>
112</NumberedItem>
113<NumberedItem>
114<Text id="31">Construction de la bibliothÚque numérique à l'aide du logiciel Greenstone</Text>
115</NumberedItem>
116<NumberedItem>
117<Text id="32">Pressage et distribution de la collection sur cédérom et/ou distribution sur l'Internet</Text>
118</NumberedItem>
119</NumberedList>
120<Text id="33">Pour créer une collection numérique, les publications doivent être disponibles dans un format numérique. Si des livres, revues ou d'autres documents ne sont disponibles que sous forme de papier, il faudra les numériser et les traiter sous un format lisible par ordinateur (étape iii). Généralement on procÚde par reconnaissance optique de caractÚres (ROC, ou OCR), mais parfois on saisit les documents à nouveau, au clavier. Ce processus est décrit dans les sections 2à 4du présent manuel.</Text>
121<Text id="34">L'étape v active les différentes portions d'un document qui pourront être sélectionnées indépendamment et affichées par les lecteurs dans la bibliothÚque résultante, alors que l'étape vi correspond à l'affectation d'attributs à des documents tels que les catégories de thÚmes, de mots-clefs, et les données bibliographiques, utilisées pour le classement et la recherche dans la bibliothÚque. Ces étapes sont traitées au chapitre 5de ce manuel.</Text>
122<Text id="35">Ce manuel présente les nombreux problÚmes qui se posent lors du processus d'édition et de création d'une collection à partir de documents papier. Avant de poursuivre la lecture, posez-vous les questions suivantes:</Text>
123<BulletList>
124<Bullet>
125<Text id="36">Quel but poursuit la collection?</Text>
126</Bullet>
127<Bullet>
128<Text id="37">Quel public est ciblé?</Text>
129</Bullet>
130<Bullet>
131<Text id="38">Quelle couverture géographique -- locale, régionale, mondiale?</Text>
132</Bullet>
133<Bullet>
134<Text id="39">Combien de documents seront rendus disponibles?</Text>
135</Bullet>
136<Bullet>
137<Text id="40">Combien de pages?</Text>
138</Bullet>
139<Bullet>
140<Text id="41">Quelle quantité de contenus graphiques?</Text>
141</Bullet>
142<Bullet>
143<Text id="42">Le contenu se divise-t-il en portions que seul un public limité consultera et en portions à disséminer plus largement?</Text>
144</Bullet>
145<Bullet>
146<Text id="43">Les documents sont-ils déjà disponibles sous forme électronique?</Text>
147</Bullet>
148<Bullet>
149<Text id="44">Si tel est le cas, sous quels formats? (remarquez au passage que des fichiers au format PDF ne sont pas toujours équivalents à leur contenu textuel sous forme numérique, puisqu'ils ne contiennent souvent que des images, une par page)</Text>
150</Bullet>
151<Bullet>
152<Text id="45">Quels sont les droits qui s'appliquent aux documents?</Text>
153</Bullet>
154<Bullet>
155<Text id="46">Qui possÚde des droits?</Text>
156</Bullet>
157<Bullet>
158<Text id="47">Existe-t-il d'autres organisations ciblant le même public?</Text>
159</Bullet>
160<Bullet>
161<Text id="48">Souhaitez-vous collaborer avec d'autres groupes?</Text>
162</Bullet>
163<Bullet>
164<Text id="49">Quel est le budget global du projet?</Text>
165</Bullet>
166<Bullet>
167<Text id="50">De quelles ressources humaines (en hommes-mois) disposez-vous pour la coordination, l'édition, la numérisation et la programmation?</Text>
168</Bullet>
169<Bullet>
170<Text id="51">De combien d'ordinateurs disposez-vous pour ce projet?</Text>
171</Bullet>
172<Bullet>
173<Text id="52">Combien de cédéroms souhaitez-vous distribuer? </Text>
174</Bullet>
175<Bullet>
176<Text id="53">Seront-ils gratuits ou payants? </Text>
177</Bullet>
178</BulletList>
179</Content>
180</Chapter>
181<Chapter id="scanners_and_scanning">
182<Title>
183<Text id="54">Les scanners et la numérisation</Text>
184</Title>
185<Content>
186<Text id="55">La premiÚre étape dans la conversion de documents papier en une collection pour bibliothÚque numérique est d'obtenir des images de toutes les pages de toutes les publications sous forme numérique. L'étape suivante consiste à appliquer une reconnaissance optique de caractÚres (ROC, ou OCR), pour la réussite de laquelle il est essentiel de disposer d'images propres et de bonne qualité. Le processus de numérisation utilise un scanner qui travaille à une résolution minimale de 300 dpi (points par pouce, ou dots per inch). La plupart des numérisations peuvent se faire en noir et blanc, mais en présence d'illustrations en couleurs il faut utiliser un scanner couleur. Dans la plupart des cas les couvertures des livres sont en couleurs et il faudra les numériser en tant que photographie couleur.</Text>
187<Section id="scanners">
188<Title>
189<Text id="56">Les scanners</Text>
190</Title>
191<Content>
192<Text id="57">On trouve des scanners à tous les prix, de toutes tailles et de toutes formes. Ils coûtent de 100$ pour les scanners à plat à 50 000$ pour de gros scanners industriels de fabricants tels que Bell &amp; Howell<FootnoteRef id="1"/>. On trouve de nombreux sites web qui proposent de nombreux scanners à vendre. Vous les trouverez facilement en tapant le mot-clef «scanner» dans des moteurs de recherche tels que Google, Altavista, ou Yahoo. </Text>
193<Text id="58">Le format de sortie des scanners est un fichier informatique dont le format est souvent TIFF ou bitmap. Le meilleur format est le TIFF IV compressé: une page numérisée et convertie en ce format n'occupe en moyenne que 50 kilo-octets, à comparer aux 2 méga-octets qu'elle occuperait sous forme bitmap non compressée.</Text>
194<Subsection id="low-cost_flat-bed_scanner">
195<Title>
196<Text id="59">Scanners à plat de bas de gamme</Text>
197</Title>
198<Content>
199<Text id="60">Les scanners à plat sont les moins onéreux et les plus communs. De nombreuses marques en proposent: HP, Agfa, Acer, etc. Les prix s'étalent de 100 à 300$. On peut numériser à la fois des images en noir et blanc ou en couleurs. Le faible prix permet d'équiper chaque ordinateur de son propre scanner.</Text>
200<Text id="61">Ces scanners ont pour inconvénients une qualité moyenne du résultat, une faible vitesse de numérisation, une fiabilité réduite quand la température s'élÚve, et des pannes fréquentes. Il faut numériser les pages manuellement, une à une. Chaque page doit être placée avec attention sur la vitre de numérisation de maniÚre à obtenir un alignement correct. Ces scanners ont une faible productivité. Bien que les fabricants prétendent qu'on peut scanner une page en moins d'une minute, il est rare dans la pratique de pouvoir scanner plus de douze pages en une heure. Le processus de numérisation monopolise l'ordinateur utilisé.</Text>
201<Text id="62">C'est pourquoi de tels scanners ne sont utiles que pour des petits travaux de numérisation, avec de 200 à 400 pages par mois de maniÚre réguliÚre, ou de 1000 à 2000 pages de maniÚre exceptionnelle.</Text>
202</Content>
203</Subsection>
204<Subsection id="low-end_scanner_with_sheet_feeder">
205<Title>
206<Text id="63">Scanners de bas de gamme avec chargeur</Text>
207</Title>
208<Content>
209<Text id="64">Ces scanners coûtent de 500 à 1200$. On peut insérer, scanner et traiter de 10 à 50 pages d'un coup: l'opérateur ne doit pas rester constamment aux cÎtés de la machine. Cela permet d'atteindre une productivité de 150 à 200 pages par jour. Ces scanners sont plus robustes et tombent en panne moins souvent -- ils permettent généralement de traiter de 30 à 50 000 pages avant de nécessiter une réparation.</Text>
210<Text id="65">Ils ont pour inconvénient de ne numériser qu'une face de chaque feuille à la fois -- il faut retourner la pile de feuilles et la numériser de nouveau pour obtenir les versos. Ceci crée des problÚmes car les chargeurs causent souvent des ennuis des bourrages papier.</Text>
211<Text id="66">Ces scanners sont utiles pour des volumes de 1500 à 3000 pages par mois.</Text>
212</Content>
213</Subsection>
214<Subsection id="color_scanners">
215<Title>
216<Text id="67">Scanners couleur</Text>
217</Title>
218<Content>
219<Text id="68">Toute opération de numérisation se heurte tÎt ou tard au problÚme des images couleur, c'est pourquoi il faudra toujours disposer d'un scanner couleur. De maniÚre générale, moins de 5% de toute publication contient des images couleur, sans compter la couverture. C'est pourquoi un scanner à plat tel que décrit ci-dessus suffira. Nous conseillons de choisir un scanner capable d'une résolution de 600 dpi.</Text>
220</Content>
221</Subsection>
222<Subsection id="professional_duplex_scanners">
223<Title>
224<Text id="69">Scanners professionnels bi-faces</Text>
225</Title>
226<Content>
227<Text id="70">Les scanners professionnels sont des machines fiables et industrielles, capables de traiter un grand volume -- de 2 à 10 000 pages par jour. Ils disposent d'un systÚme de chargeur automatique à plateau qui peut recevoir des paquets de 50 à 200 pages. Les meilleurs et les plus rapides sont des machines duplex qui peuvent numériser les deux faces d'une feuille d'un coup.</Text>
228<Text id="71">Les scanners professionnels duplex ont besoin d'un ordinateur puissant équipé d'un disque dur de 10 à 20 giga-octets. Les prix s'étalent de 5 à 50 000$. Par exemple, le scanner duplex Canon DR-6020 coûte 5000$ et peut traiter des documents recto-verso. Il a une capacité d'environ 2000 pages par jour et une durée de vie de 600 à 800 000 pages. Les scanners Bell &amp; Howell et Fujitsu coûtent de 10 à 50 000$ et ont une durée de vie de plusieurs millions de pages.</Text>
229<Text id="72">Les scanners à micro-fiches coûtent de 15 000$ pour une unité semi-automatique à 80 000$ pour une unité entiÚrement automatisée.</Text>
230</Content>
231</Subsection>
232<Subsection id="scanning_programs">
233<Title>
234<Text id="73">Logiciels de numérisation</Text>
235</Title>
236<Content>
237<Text id="74">Tous les scanners sont fournis avec leur propre logiciel, qui doit donc être installé sur l'ordinateur qui pilote le scanner. Certains scanners disposent d'une carte à enficher sur l'ordinateur pour accélérer l'opération de numérisation.</Text>
238</Content>
239</Subsection>
240</Content>
241</Section>
242<Section id="preparing_the_documents">
243<Title>
244<Text id="75">La préparation des documents</Text>
245</Title>
246<Content>
247<Text id="76">Avant d'être numérisés, les documents doivent être correctement préparés. Il faut dépoussiérer, sécher, enlever les agrafes, et aplanir les pages pliées.</Text>
248<Text id="77">Il faut Îter la reliure des livres par une coupure nette, droite et précise. Les livres des bibliothÚques devront souvent être reliés à nouveau, auquel cas la plus grande attention est nécessaire lors de cette opération, ce qui facilitera la mise en place de la nouvelle reliure.</Text>
249<Text id="78">Pour un nombre limité de documents, la coupe peut se faire à la rÚgle et au cutter. Faites attention à vos mains! Pour des plus gros volumes, il existe des machines à couper faites pour.</Text>
250<Text id="79">Pour des gros volumes (à partir de 20 documents) nous recommandons de demander à un imprimeur ou une boîte à copies l'autorisation d'utiliser leur massicot professionnel. N'oubliez pas d'Îter toute agrafe ou trombone; ils pourraient endommager les lames.</Text>
251</Content>
252</Section>
253<Section id="the_scanning_process">
254<Title>
255<Text id="80">L'opération de numérisation</Text>
256</Title>
257<Content>
258<Text id="81">Quand on utilise le logiciel fourni avec le scanner, chaque page est numérisée et transformée en image numérique au format TIFF ou bitmap. Ces images doivent alors être stockées sur le disque dur sous des noms de fichiers habituels. La reconnaissance optique de caractÚres débute à la fin de la numérisation de tout ou partie d'un lot de documents.</Text>
259<Text id="82">Il faudra une résolution de 300 dpi pour la numérisation, même si parfois 200 dpi peuvent suffire.</Text>
260<Subsection id="quality_control">
261<Title>
262<Text id="83">ContrÎle qualité</Text>
263</Title>
264<Content>
265<Text id="84">La numérisation a pour but de passer les pages à la ROC pour produire des versions traitement de texte ou HTML des publications, ou de produire des fichiers image de bonne qualité tels que des fichiers image PDF. Dans tous les cas, la qualité de la numérisation est cruciale: une mauvaise qualité produira des images peu jolies, qui occuperont plus de mémoire. La netteté des images affecte énormément le processus de ROC: la productivité peut chuter jusqu'à 40% si la qualité n'est pas au rendez-vous. Sachant que l'opération de ROC représente plus de 90% du coût total de la transformation du papier en collection, on constate que la qualité de la numérisation peut avoir des effets trÚs marqués sur le coût global.</Text>
266<Text id="85">On peut améliorer la qualité du fichier TIFF en ajustant le processus de numérisation à chaque type de papier, en utilisant les réglages fournis par le logiciel de numérisation. Les papiers relativement transparents requerront des réglages plus clairs; il faut ajuster le contraste en fonction de la qualité d'impression, etc.</Text>
267<Text id="86">Commencez par diviser les feuilles en lots de texture de papier et de qualité d'impression comparables. Faites des tests de ROC sur un échantillon du premier lot pour déterminer les réglages optimaux. Numérisez ensuite tout ce lot avant de passer au suivant.</Text>
268</Content>
269</Subsection>
270<Subsection id="filename_conventions">
271<Title>
272<Text id="87">Conventions sur les noms de fichier</Text>
273</Title>
274<Content>
275<Text id="88">Attribuez à chaque livre ou document un numéro de traitement ou un code unique, qui sera utilisé en tant que nom du répertoire contenant tous les fichiers TIFF relatifs au document. Selon votre systÚme d'exploitation (DOS, Windows, Unix, Linux, etc.), vous pourrez utiliser de 8 à 128 caractÚres pour les noms de fichiers. Nous vous recommandons de vous limiter à 8 ou 16 caractÚres pour cet identifiant de document. Les 5 premiers caractÚres pourront par exemple identifier le document, la lettre suivante pourra contenir un code de langue de rédaction du document, et les caractÚres restants pourront identifier la page. Par exemple, l'identifiant u7548f12.tif pourra représenter l'image TIFF de la page 12 d'un livre écrit en français, de code u7548.</Text>
276<Text id="89">Réservez un répertoire du disque dur aux opérations de numérisation (appelons-le par exemple scanjobs). Puis créez un sous-répertoire pour chaque lot. Créez à nouveau un sous-répertoire pour chaque publication, comme par exemple u7548f pour le document ci-dessus évoqué. Stockez toutes les images TIFF de la publication, y compris les images couleur, dans ce répertoire.</Text>
277</Content>
278</Subsection>
279</Content>
280</Section>
281<Section id="productivity_and_resources">
282<Title>
283<Text id="90">De la productivité et des ressources nécessaires</Text>
284</Title>
285<Content>
286<Text id="91">Ne sous-estimez pas l'ampleur de l'opération de numérisation -- et en particulier celle de la ROC qui la suivra. Il vaut mieux considérer la numérisation et la ROC comme deux activités complÚtement séparées. Les choix optimaux, tant économiques que pratiques, seront faits indépendamment.</Text>
287<Text id="92">Les aspects auxquels réfléchir incluent les investissements nécessaires en matériel (scanners et ordinateurs); la disponibilité d'un espace disque suffisant ainsi que d'assez de ressources humaines; la formation des agents; les coûts salariaux; les nombres de pages initial et final à numériser, les dates maximales de fin de travaux; et les possibilités de sous-traitance.</Text>
288<Subsection id="scanning_costs">
289<Title>
290<Text id="93">Coûts de numérisation</Text>
291</Title>
292<Content>
293<Text id="94">Une décision importante consiste à trancher entre investir en achat d'équipement de numérisation et effectuer toute la numérisation soi-même, ou sous-traiter cette tâche à une société spécialisée. Les critÚres principaux sont:</Text>
294<BulletList>
295<Bullet>
296<Text id="95">urgence du travail de numérisation;</Text>
297</Bullet>
298<Bullet>
299<Text id="96">nombre total de pages;</Text>
300</Bullet>
301<Bullet>
302<Text id="97">coûts salariaux des opérateurs de numérisation.</Text>
303</Bullet>
304</BulletList>
305<Text id="98">Les opérateurs doivent être extrêmement motivés, doués techniquement, et soucieux de qualité. </Text>
306<Text id="99">Une société spécialisée réclamera en moyenne 0.06$ par page. Il faut ajouter à cela le coût du transfert des documents, qui peut s'élever à 0.03$ pour un envoi d'un pays en voie de développement vers un pays développé, et 0.015$ pour un envoi entre pays développés.</Text>
307<Text id="100">Le tableau <CrossRef target="Table" ref="table_scanning_cost"/> donne une estimation du coût du processus de numérisation s'il est effectué par vos soins, en utilisant différents types de scanners. Vous remarquerez que ces chiffres sont des estimations, et ne sont fournis qu'en tant que référence approximative en se fondant sur l'expérience des auteurs. Les trois premiÚres colonnes traitent des coûts salariaux. La premiÚre présente la capacité en pages par mois, sur la base d'un temps plein. On trouve les ressources nécessaires en homme-mois par page en divisant le nombre mensuel d'heures travaillées par la capacité en pages par mois de la deuxiÚme colonne. Il est présenté dans la troisiÚme colonne, sur la base de 180 heures travaillées par mois.</Text>
308<Table id="table_scanning_cost">
309<Title>
310<Text id="101">Coût de la numérisation</Text>
311</Title>
312<TableContent>
313<tr>
314<th width="90"/>
315<th width="71">
316<Text id="102">Capacité (pages/mois)</Text>
317</th>
318<th width="75">
319<Text id="103">Heures/page (180 h/mois)</Text>
320</th>
321<th width="83">
322<Text id="104">Coût/page (4$/h)</Text>
323</th>
324<th width="60">
325<Text id="105">Achat du scanner</Text>
326</th>
327<th width="66">
328<Text id="106">Durée de vie du scanner (en pages)</Text>
329</th>
330<th width="85">
331<Text id="107">Coût du scanner (0.06$/p.)</Text>
332</th>
333</tr>
334<tr>
335<th width="90">
336<Text id="108">Scanner à plat</Text>
337</th>
338<th width="71">
339<Text id="109">2 500</Text>
340</th>
341<th width="75">
342<Text id="110">0.072</Text>
343</th>
344<th width="83">
345<Text id="111">0.288$</Text>
346</th>
347<th width="60">
348<Text id="112">300$</Text>
349</th>
350<th width="66">
351<Text id="113">7 000</Text>
352</th>
353<th width="85">
354<Text id="114">5 000</Text>
355</th>
356</tr>
357<tr>
358<th width="90">
359<Text id="115">Scanner à chargeur</Text>
360</th>
361<th width="71">
362<Text id="116">8 000</Text>
363</th>
364<th width="75">
365<Text id="117">0.0225</Text>
366</th>
367<th width="83">
368<Text id="118">0.09$</Text>
369</th>
370<th width="60">
371<Text id="119">800$</Text>
372</th>
373<th width="66">
374<Text id="120">30 000</Text>
375</th>
376<th width="85">
377<Text id="121">13 000</Text>
378</th>
379</tr>
380<tr>
381<th width="90">
382<Text id="122">Scanner pro. bas de gamme</Text>
383</th>
384<th width="71">
385<Text id="123">40 000</Text>
386</th>
387<th width="75">
388<Text id="124">0.0045</Text>
389</th>
390<th width="83">
391<Text id="125">0.018$</Text>
392</th>
393<th width="60">
394<Text id="126">6 000$</Text>
395</th>
396<th width="66">
397<Text id="127">600 000</Text>
398</th>
399<th width="85">
400<Text id="128">100 000</Text>
401</th>
402</tr>
403<tr>
404<th width="90">
405<Text id="129">Scanner pro. haut de gamme</Text>
406</th>
407<th width="71">
408<Text id="130">150 000</Text>
409</th>
410<th width="75">
411<Text id="131">0.0012</Text>
412</th>
413<th width="83">
414<Text id="132">0.0048$</Text>
415</th>
416<th width="60">
417<Text id="133">50 000$</Text>
418</th>
419<th width="66">
420<Text id="134">8 000 000</Text>
421</th>
422<th width="85">
423<Text id="135">833 000</Text>
424</th>
425</tr>
426</TableContent>
427</Table>
428<br/>
429<Text id="136">Le prix par page s'obtient en multipliant le coût salarial horaire global dans votre cas par la deuxiÚme colonne du tableau <CrossRef target="Table" ref="table_scanning_cost"/>. Nous avons donné en exemple, dans la troisiÚme colonne, le prix d'une numérisation faite sur place avec un coût salarial de 4$ par heure -- ce qui ne comprend pas le coût des investissements.</Text>
430<Text id="137">Ces calculs supposent que le scanner est utilisé pour un volume suffisant, justifiant l'investissement. Les trois derniÚres colonnes du tableau <CrossRef target="Table" ref="table_scanning_cost"/> fournissent plus d'informations sur le coût du scanner à proprement parler. La premiÚre montre le coût d'achat du scanner, et la deuxiÚme fournit sa durée de vie moyenne. La derniÚre colonne montre le nombre de pages qu'on pourrait faire numériser par un sous-traitant, au prix de 0.06$ par page, pour le prix du scanner seul.</Text>
431<Text id="138">Bien sûr, de nombreux autres facteurs guident le choix du scanner: disponibilité des fonds, souhait d'indépendance, volonté de développer un pÎle de compétences local, rÚgles des bibliothÚques imposant une numérisation locale sans possibilité de transport des livres, etc.</Text>
432<Text id="139">Ces chiffres donnent une idée du volume de pages à traiter pour justifier différents niveaux d'investissement. Un institut ou une organisation aura rarement besoin de numériser plus de 800 000 pages. À de tels niveaux, des paramÚtres plus complexes entrent en ligne de compte -- tels que la maintenance et la possibilité de rentabiliser l'investissement en revendant des services de numérisation -- paramÚtres dont nous ne traiterons pas ici.</Text>
433<Text id="140">On peut être séduit par l'idée de développer une activité commerciale de numérisation, surtout dans les pays en voie de développement. Mais gardez à l'esprit que la numérisation est une activité non récurrente: une fois les documents numérisés, les clients ne passeront jamais une autre commande pour la numérisation des mêmes documents, même si les relations sont excellentes. D'un point de vue commercial, il faut prévoir d'intenses efforts de mercatique. Nous déconseillons aux ONG et aux autres organisations à but non lucratif de s'aventurer dans un tel projet sans essais liminaires trÚs complets et un projet financier extrêmement réfléchi.</Text>
434<Text id="141">En conclusion, on peut dire qu'il vaut mieux sous-traiter si la quantité de pages à numériser s'étale de 10 à 50 000 pages. Un scanner professionnel de bas de gamme, coûtant environ 6000$, ne se justifie que s'il faut numériser plus de 100 000 pages. On peut aussi envisager une association de plusieurs institutions (telles que des ONG ou des bibliothÚques) pour l'achat groupé d'une telle machine.</Text>
435</Content>
436</Subsection>
437</Content>
438</Section>
439</Content>
440</Chapter>
441<Chapter id="ocr">
442<Title>
443<Text id="142">ROC: reconnaissance optique de caractÚres</Text>
444</Title>
445<Content>
446<Text id="143">Un systÚme de reconnaissance optique de caractÚres, ou ROC, transforme une image numérisée en texte. Il accepte en entrée une image numérique au format TIFF ou bitmap, de préférence propre et de bonne qualité. Il fournit en sortie un fichier de traitement de texte ou pour le web, aux formats RTF, Word, ou HTML.</Text>
447<Text id="144">La conversion de documents papier sous forme électronique est un processus en quatre étapes:</Text>
448<BulletList>
449<Bullet>
450<Text id="145">numérisation; </Text>
451</Bullet>
452<Bullet>
453<Text id="146">analyse de la mise en page;</Text>
454</Bullet>
455<Bullet>
456<Text id="147">reconnaissance;</Text>
457</Bullet>
458<Bullet>
459<Text id="148">numérisation des images et des tableaux.</Text>
460</Bullet>
461</BulletList>
462<Text id="149">En suivant ces étapes, il faut effectuer des contrÎles qualité sur les fichiers produits, et les sauvegarder dans le format approprié.</Text>
463<Text id="150">On trouve beaucoup de bons programmes de ROC sur le marché, et leurs prix varient de 100 à 400$<FootnoteRef id="2"/>. On trouve par exemple, entre (nombreux) autres:</Text>
464
465<BulletList>
466<Bullet>
467<Text id="151">Read-Iris (http://www.readiris.com/)</Text>
468</Bullet>
469<Bullet>
470<Text id="152">Omnipage (http://www.omnipage.com/)</Text>
471</Bullet>
472<Bullet>
473<Text id="153">Fine-Reader (http://www.finereader.com/) </Text>
474</Bullet>
475</BulletList>
476<Text id="154">Les sites web des éditeurs vous fourniront toutes les informations nécessaires, y compris la liste des revendeurs dans votre région. L'expérience des auteurs les amÚne à recommander pour leur bonne ergonomie les programmes Fine-Reader et Omnipage. Fine-Reader est le moins cher, à environ 100$. Il est trÚs souple, et a les options de langue les plus variées.</Text>
477<Text id="155">Il faut choisir entre effectuer la numérisation et la ROC sur place, ou sous-traiter ces opérations à une organisation spécialisée. Un travail sur place nécessite un scanner, un logiciel de ROC, des compétences en ROC (donc des formations), et des opérateurs soucieux de qualité et extrêmement motivés.</Text>
478<Section id="the_ocr_process">
479<Title>
480<Text id="156">Le processus de ROC</Text>
481</Title>
482<Content>
483<Text id="157">Le processus de ROC change d'un programme à l'autre, et chacun est trÚs long à apprendre et à maîtriser. Le manuel du logiciel expliquera ce processus en détail. Quatre aspects méritent qu'on leur accorde une attention particuliÚre: le contrÎle qualité, les tableaux, les images, et les contenus spécialisés tels que formules, caractÚres d'autres alphabets ou langues, etc.</Text>
484<Subsection id="quality_control_1">
485<Title>
486<Text id="158">ContrÎle qualité</Text>
487</Title>
488<Content>
489<Text id="159">On n'insistera jamais assez sur ce point. Il vaut mieux faire mener ces contrÎles qualité par des locuteurs dont la langue traitée est la langue maternelle, ou des gens maîtrisant parfaitement cette langue. Les meilleurs candidats se recruteront à l'université ou au lycée. Remarquons que des relecteurs plus jeunes seront capables d'une concentration plus soutenue pour ce type de travail.</Text>
490<Text id="160">On compte normalement quatre contrÎles qualité.</Text>
491<Text id="161">Le premier est effectué au moment de la ROC. Tout programme de ROC dispose d'un vérificateur orthographique intégré qui met en valeur toutes les lettres suspectes. Il affiche en même temps l'image du mot concerné, ce qui facilite le travail de vérification et de correction de l'erreur.</Text>
492<Text id="162">Le deuxiÚme est une vérification globale du texte à la fin du processus de ROC. Il arrive souvent d'oublier une page, un paragraphe, un titre de chapitre, etc. Un examen global est nécessaire pour détecter d'éventuelles pages manquantes. Il est essentiel de vérifier les titres, les en-têtes de chapitres, les paragraphes, et les tableaux.</Text>
493<Text id="163">Le troisiÚme est une vérification orthographique utilisant Microsoft Word: ce programme dispose en effet d'un dictionnaire souvent plus sophistiqué que ceux qui sont embarqués dans les programmes de ROC. En important le livre dans Word et en y effectuant une vérification orthographique, on peut trouver et corriger des erreurs supplémentaires. Veillez à enseigner au vérificateur orthographique tous les mots particuliÚrement difficiles ou sujets à erreurs, ou encore les termes scientifiques et techniques communs dans le type de publication considéré.</Text>
494<Text id="164">Enfin, le document complet devrait être vérifié par un relecteur indépendant, qui en extrait des échantillons et contrÎle l'absence d'erreurs, de problÚmes avec les tableaux et les images, la typographie, et l'aspect général du texte résultant. Ce n'est qu'aprÚs cette étape qu'un livre peut être déclaré apte à la dissémination numérique.</Text>
495</Content>
496</Subsection>
497<Subsection id="tables">
498<Title>
499<Text id="165">Tableaux</Text>
500</Title>
501<Content>
502<Text id="166">Les programmes de ROC peinent à traiter les tableaux. De plus, il est difficile de les vérifier: ils contiennent de nombreux chiffres, souvent avec des espaces, points ou virgules, et il est aisé de décaler des cellules d'une ligne ou d'une colonne. Il leur faut un effort de concentration particulier et une relecture obstinée et intense, une vérification soigneuse, et un bon contrÎle qualité. On peut les traiter de trois maniÚres extrêmement différentes.</Text>
503<Text id="167">D'abord, les tableaux peuvent être traités en tant qu'images. Cela implique de les numériser sous forme d'image noir et blanc et de les placer au bon endroit dans le document résultant. C'est la solution la plus facile: aucun risque d'erreur, et le temps nécessaire est uniquement celui de la création de l'image. Cependant, cette solution est plus gourmande en mémoire. Un autre problÚme concerne la résolution, pas toujours suffisante lorsqu'il faut afficher de grands tableaux sur un écran d'ordinateur: si on affiche tout le tableau, il est illisible, et si on agrandit l'image (en la faisant sortir de l'écran) pour la rendre lisible, l'utilisateur doit s'y déplacer pour pouvoir en lire toutes les lignes et colonnes, et manque d'une vue d'ensemble.</Text>
504<Text id="168">Ensuite, les tableaux peuvent être recréés manuellement en créant une table comptant le même nombre de lignes et de colonnes et en tapant les cellules une à une, caractÚre par caractÚre.</Text>
505<Text id="169">Enfin, le tableau peut passer à la ROC. C'est plus rapide que la saisie manuelle, mais présente un plus grand risque d'erreurs. Les colonnes sont parfois fusionnées, et les points et les virgules ne sont pas bien reconnus.</Text>
506</Content>
507</Subsection>
508<Subsection id="images">
509<Title>
510<Text id="170">Images</Text>
511</Title>
512<Content>
513<Text id="171">Les publications contiennent trois grands types d'images différents:</Text>
514<BulletList>
515<Bullet>
516<Text id="172">croquis en noir et blanc;</Text>
517</Bullet>
518<Bullet>
519<Text id="173">photographies en noir et blanc;</Text>
520</Bullet>
521<Bullet>
522<Text id="174">photographies en couleurs.</Text>
523</Bullet>
524</BulletList>
525<Text id="175">Les croquis noir et blanc se numérisent en mode «croquis» et seront sauvegardés au format GIF ou PNG. Les photographies noir et blanc se numérisent en mode «niveaux de gris» et seront sauvegardées au format GIF ou JPEG. Les photographies couleur se numérisent en mode «couleur» et seront sauvegardées au format JPEG. Dans la plupart des cas, le JPEG de qualité moyenne fournit une résolution suffisante.</Text>
526<Text id="176">Pour la plupart des collections, ce sont les images qui consomment le plus de place sur le disque dur ou sur le cédérom. C'est pourquoi il est important d'optimiser chaque image du point de vue de la clarté et de la lisibilité, tout en minimisant sa taille. Vous économiserez de l'espace disque en négligeant de reprendre tout ou partie des images, de préférence celles qui ne sont pas pertinentes par rapport au texte.</Text>
527<Text id="177">Il faut numériser les images séparément, une à une. Nous vous recommandons de donner aux fichiers image un nom consistant en les 5 ou 6 premiers caractÚres utilisés pour identifier le document, suivis du numéro de page où apparaît l'image. Une autre solution, dans l'hypothÚse où chaque document dispose de son propre répertoire, est de se contenter d'utiliser la lettre p, suivie du numéro de page de l'image. Si plusieurs images apparaissent sur la même page, on ajoutera au nom de fichier une lettre supplémentaire: a, b, c... Si par exemple une image JPEG apparaît page 36 de la publication u7548f ci-dessus évoquée, elle sera placée dans un fichier appelé u7548e36.jpg ou p36.jpg.</Text>
528<Text id="178">AprÚs la numérisation des images, on peut mettre au travail les programmes de traitement par lots (batch), afin de changer les tailles ou d'améliorer la qualité de toutes les images en une seule passe.</Text>
529</Content>
530</Subsection>
531<Subsection id="specialized_material">
532<Title>
533<Text id="179">Contenus spécialisés</Text>
534</Title>
535<Content>
536<Text id="180">De nombreux documents renferment des contenus spécialisés tels que des caractÚres spéciaux, des formules, ou des pages difficiles. Les caractÚres spéciaux sont souvent issus de langues étrangÚres ou pourvus de signes diacritiques. Il faut alors utiliser l'option de langue du programme de ROC utilisé et lui indiquer la langue à reconnaître. Les formules devront être recréées manuellement. Parfois cette opération n'est pas possible dans le programme de ROC, et uniquement faisable dans un traitement de texte tel que Microsoft Word. Les pages difficiles, au contenu complexe ou si endommagées qu'on n'a pas pu en obtenir une image nette lors du processus de numérisation, devront parfois être retapées.</Text>
537</Content>
538</Subsection>
539</Content>
540</Section>
541<Section id="productivity_and_resources_1">
542<Title>
543<Text id="181">De la productivité et des ressources nécessaires</Text>
544</Title>
545<Content>
546<Text id="182">Comme on l'a déjà signalé, il ne faut pas sous-estimer la difficulté du processus de ROC. Même si ses aspects économiques et pratiques doivent être traités indépendamment de ceux relevant de la numérisation, on trouve des points communs: le nécessaire investissement en ordinateurs; la disponibilité en ressources humaines et leur encadrement; la formation des opérateurs; les coûts salariaux; le nombre total de pages à traiter; et la possibilité de sous-traiter des documents.</Text>
547<Text id="183">Dans cette section, nous faisons partager notre expérience d'opérations de ROC en Belgique, en Roumanie et en Inde. Toutes les études de cas, les calculs et les chiffres présentés font les hypothÚses implicites de situations moyennes et de documents de difficulté standard (incluant images et tableaux) tels qu'on en trouve dans la plupart des archives et des bibliothÚques, des résultats de trÚs bonne qualité, et une opération à moyen ou long terme.</Text>
548<Subsection id="intensive_ocr">
549<Title>
550<Text id="184">La ROC intensive</Text>
551</Title>
552<Content>
553<Text id="185">La ROC est une activité difficile, qui requiert une grande concentration et beaucoup de compétences. Avant d'atteindre une productivité et une qualité de croisiÚre, il faut prévoir une période d'apprentissage d'environ six semaines.</Text>
554<Text id="186">Les premiÚres heures de chaque jour sont souvent les plus fructueuses en matiÚre de résultats et de productivité. AprÚs trois heures de travail de ROC, la productivité décroît trÚs rapidement, jusqu'à 50% du niveau initial. AprÚs six heures de travail, la plupart des gens sont trÚs fatigués.</Text>
555<Text id="187">La même courbe se dessine au niveau supérieur, celui des semaines. Les premiÚres semaines, tout le monde travaille vite et bien, mais vient un moment où les deux tiers des agents s'ennuient et deviennent frustrés. Ces personnes abandonnent le projet ou se mettent à travailler de façon médiocre, en quantité comme en qualité. Même ceux qui passent le cap critique des 3 ou 5 semaines de travail et intÚgrent l'équipe, partent souvent aprÚs 6 à 12 mois, à la recherche d'un meilleur poste.</Text>
556<Text id="188">Les remarques de la section Section <CrossRef target="Section" ref="the_ocr_process"/> concernant le personnel sont particuliÚrement avérées dans le cadre d'un travail de ROC intensif. Il vaut mieux faire mener les contrÎles qualité par des locuteurs dont la langue traitée est la langue maternelle, ou des gens maîtrisant parfaitement cette langue. Des relecteurs plus jeunes seront capables d'une concentration plus soutenue pour des tâches de ROC. Empiriquement, on a constaté que des personnes âgées de 18 à 23 ans convenaient mieux que des personnes de plus de 25 ans.</Text>
557<Text id="189">Enfin, la ROC peut être un travail fastidieux, ce qui donne une importance exceptionnelle aux questions de motivation et de goût du travail bien fait.</Text>
558<Text id="190">Ces remarques sur la ROC mÚnent aux préceptes suivants:</Text>
559<BulletList>
560<Bullet>
561<Text id="191">Les jeunes gens âgés de 18 à 25 ans sont les plus indiqués pour ce travail.</Text>
562</Bullet>
563<Bullet>
564<Text id="192">Les premiÚres heures étant toujours les plus productives, il faut organiser le travail à temps partiel ou ne retenir que les gens les plus motivés et concentrés pour un travail à temps plein.</Text>
565</Bullet>
566<Bullet>
567<Text id="193">Les deux tiers des gens abandonnent ou s'ennuient aprÚs trois à cinq semaines, ce qui se traduit par une qualité et une productivité en baisse les derniÚres semaines.</Text>
568</Bullet>
569<Bullet>
570<Text id="194">Il faut veiller à fournir un travail régulier pour justifier la formation nécessaire, pour maintenir la concentration, et pour que restent hauts les c3#3urs.</Text>
571</Bullet>
572</BulletList>
573</Content>
574</Subsection>
575<Subsection id="achievable_productivity">
576<Title>
577<Text id="195">Productivité possible</Text>
578</Title>
579<Content>
580<Table id="table_ocr_productivity">
581<Title>
582<Text id="196">Productivité de l'OCR</Text>
583</Title>
584<TableContent>
585<tr>
586<th width="161"/>
587<th width="142">
588<Text id="197">Heures travaillées par jour</Text>
589</th>
590<th width="123">
591<Text id="198">Pages par jour</Text>
592</th>
593<th width="104">
594<Text id="199">Pages par mois</Text>
595</th>
596</tr>
597<tr>
598<th width="161">
599<Text id="200">Formation initiale (6 semaines)</Text>
600</th>
601<th width="142">
602<Text id="201">3</Text>
603</th>
604<th width="123">
605<Text id="202">6</Text>
606</th>
607<th width="104">
608<Text id="203">120</Text>
609</th>
610</tr>
611<tr>
612<th width="161">
613<Text id="204">Niveau de productivité optimale</Text>
614</th>
615<th width="142">
616<Text id="205">3</Text>
617</th>
618<th width="123">
619<Text id="206">9</Text>
620</th>
621<th width="104">
622<Text id="207">150 à 200</Text>
623</th>
624</tr>
625<tr>
626<th width="161"/>
627<th width="142">
628<Text id="208">7</Text>
629</th>
630<th width="123">
631<Text id="209">28</Text>
632</th>
633<th width="104">
634<Text id="210">500 à 600</Text>
635</th>
636</tr>
637</TableContent>
638</Table>
639<Text id="211">Le tableau <CrossRef target="Table" ref="table_ocr_productivity"/> donne les statistiques moyennes de productivité pour la ROC. Les documents sont de toutes tailles et de toutes qualités, et ces chiffres supposent que le lot de documents contient un nombre moyen d'images et de tableaux -- disons une image et une tableau de 5 lignes par 5 colonnes toutes les 8 pages. Ils supposent aussi que les images des pages sont de qualité moyenne à bonne (comme on l'a déjà signalé, ceci dépend de la numérisation) et que les opérateurs maîtrisent bien la langue.</Text>
640<Text id="212">Le tableau <CrossRef target="Table" ref="table_ocr_productivity"/> distingue les cas des opérateurs en formation et celui des opérateurs ayant atteint leur niveau de productivité optimal. Si un agent administratif devait passer 3 heures par jour à des activités de ROC, il pourrait produire 180 à 200 pages par mois. Dans le cas de personnel employé à temps plein, ayant reçu une formation adéquate, avec une concentration élevée et un goût du travail bien fait, on peut obtenir de 500 à 600 pages par mois.</Text>
641<Text id="213">Cependant, les taux obtenus sur des pages difficiles, de qualité médiocre, contenant beaucoup d'images ou de tableaux, sont bien plus faibles -- peut-être de 300 à 400 pages par mois pour un travail à temps plein.</Text>
642<Text id="214">Supposons que les coûts salariaux d'opérateurs de ROC motivés et soucieux de qualité travaillant à temps plein s'élÚvent à 400$ par mois, et que les frais d'infrastructure (comprenant les coûts d'encadrement, les ordinateurs, les bureaux, les fournitures, etc.) s'élÚvent à 300 à 400$ par personne et par mois. Alors le coût de la ROC est de 1.2$ à 1.6$ par page. Si on prend en compte le temps de formation, le volume total, la durée de l'opération, et les coûts de licenciement si l'opération devait prendre fin par manque de travail, ces coûts atteignent 1.5$ à 2.5$ par page.</Text>
643<Text id="215">Il faut comparer le coût d'une ROC menée sur place à celui d'une ROC sous-traitée à un professionnel. De telles sociétés demandent en général de 1.5$ à 4$ par page, en comptant les images et les tableaux. L'ONG Human Info/Simple Words dispose d'une telle unité en Roumanie, et pratique un tarif spécial pour les organisations humanitaires ou à but non lucratifs: de 1.2$ à 2$ par page. Contactez-nous à l'adresse électronique si vous souhaitez obtenir des informations ou des conseils complémentaires.</Text>
644</Content>
645</Subsection>
646</Content>
647</Section>
648<Section id="alternatives_to_ocr">
649<Title>
650<Text id="216">Pour éviter la ROC</Text>
651</Title>
652<Content>
653<Text id="217">Il existe deux solutions qui permettent d'éviter la ROC, et nous les présentons toutes deux ici.</Text>
654<Subsection id="manual_retyping">
655<Title>
656<Text id="218">Saisie manuelle</Text>
657</Title>
658<Content>
659<Text id="219">La premiÚre, qui élimine également la plupart des opérations de numérisation, consiste à retaper les documents à la main, en utilisant un traitement de texte. Il faut quand même numériser la couverture et les images, mais les autres pages n'ont pas besoin d'être numérisées, ce qui évite l'achat d'un scanner puissant et de logiciels de ROC.</Text>
660<Text id="220">Les opérateurs n'ont pas besoin de comprendre le texte: il leur suffit d'être des dactylographes précis, qui tapent exactement ce qu'ils voient. La saisie génÚre des erreurs, qu'on trouve et détecte par la méthode dite de double saisie. Elle consiste à demander à deux personnes de saisir le même document indépendamment, suite à quoi on comparer les deux versions numériques mot à mot à l'aide d'un logiciel spécial manipulé par un opérateur disposant du document original. On suppose implicitement qu'un mot tapé indépendamment deux fois de la même maniÚre est nécessairement correct. Mais cela ne suffit pas toujours, et on peut avoir recours à de la triple saisie pour obtenir une précision extrêmement élevée.</Text>
661<Text id="221">L'avantage de la saisie est l'économie effectuée: nul besoin d'un programme de ROC (qui nécessite des ordinateurs puissants), aussi des ordinateurs plus anciens, ou d'occasion peuvent suffire. De plus, ce travail peut être mené par des personnes moins qualifiées. L'inconvénient est la durée de la période de formation (d'un minimum de deux mois). Une simple saisie induisant souvent trop d'erreurs, il faut procéder à une double ou à une triple saisie.</Text>
662<Text id="222">Le coût dépend entiÚrement du salaire. Les dactylos sont généralement payées environ 150$ par mois dans les pays en voie de développement. La productivité est de 20 à 30 pages par jour, pour un total de 400 pages par mois, en comptant les images. Avec une double saisie, cela donne un coût de revient salarial d'environ 300$ par mois, plus les à cÎtés.</Text>
663</Content>
664</Subsection>
665<Subsection id="image_files">
666<Title>
667<Text id="223">Fichiers image</Text>
668</Title>
669<Content>
670<Text id="224">Une solution de remplacement à la ROC trÚs peu onéreuse est de se contenter d'utiliser une version image PDF des pages du document. Le coût est négligeable devant celui de la ROC -- environ 0.1$ par page.</Text>
671<Text id="225">À l'issue du processus de numérisation et une fois que les fichiers TIFF sont disponibles, un convertisseur automatique (on utilise en général Adobe Acrobat ou Adobe Photoshop) transforme tous les fichiers TIFF des pages du livre en fichiers PDF.</Text>
672<Text id="226">Le revers de la médaille est l'impossibilité de mener des recherches textuelles dans de tels fichiers. De plus, ils sont trÚs lourds: environ 50 kilo-octets par page, plus ou moins 20% selon la qualité du fichier TIFF original.</Text>
673<Text id="227">Les fichiers image PDF sont lents à télécharger (parfois, dans les pays en voie de développement, cette opération est impossible ou a un coût prohibitif). Ils tiennent rarement sur une disquette, et il est impossible de manipuler leur texte, ne serait-ce que pour effectuer des copier-coller.</Text>
674<Text id="228">Il faut réserver cette méthode aux situations où aucun budget ne peut être débloqué pour la ROC, et pour les documents susceptibles d'être utilisés par un petit nombre de personnes, disposant d'une connexion Internet à haut débit.</Text>
675</Content>
676</Subsection>
677</Content>
678</Section>
679<Section id="combining_scanning_and_ocr">
680<Title>
681<Text id="229">Mettre bout à bout numérisation et ROC</Text>
682</Title>
683<Content>
684<Text id="230">Si un scanner est directement relié à l'ordinateur qui héberge le logiciel de ROC, la plupart des programmes de ROC peuvent numériser une page et effectuer immédiatement la reconnaissance de caractÚres. Procéder une page à la fois, en enchaînant numérisation puis ROC, est une stratégie raisonnable pour des petits volumes, mais s'avérera coûteux en temps pour des tâches plus importantes et plus continues.</Text>
685<Text id="231">Cette solution peut suffire pour 100 à 150 pages par mois. Pour des volumes plus élevés il est plus rapide et plus efficace de commencer par numériser le document, puis de démarrer en deuxiÚme lieu une opération de ROC sur toutes ses pages à la fois.</Text>
686</Content>
687</Section>
688</Content>
689</Chapter>
690<Chapter id="three_examples">
691<Title>
692<Text id="232">Trois exemples: de 1000 à 100 000 pages</Text>
693</Title>
694<Content>
695<Section id="typical_small_collection">
696<Title>
697<Text id="233">Cas d'une petite collection: de 500 à 1000 pages</Text>
698</Title>
699<Content>
700<Text id="234">La plupart des ONG ont un volume de 500 à 1000 pages à numériser. Un tel volume peut être traité sur place si on trouve des volontaires motivés.</Text>
701<Subsection id="scanning">
702<Title>
703<Text id="235">Numérisation</Text>
704</Title>
705<Content>
706<Text id="236">La premiÚre étape consiste à numériser les publications pour produire un fichier TIFF de bonne qualité de chaque page, et une image séparée pour chaque illustration (croquis, image en niveaux de gris ou en couleurs). Si on fait l'hypothÚse que 1000 pages doivent être numérisées, ceci peut représenter un travail à temps partiel d'environ un mois -- pour la numérisation seule. Les fichiers TIFF occuperont de 60 à 80 méga-octets d'espace disque, et c'est une bonne idée que de graver un cédérom réinscriptible contenant ces fichiers. Un scanner à plat de bas de gamme de 100 à 300$ suffira à mener cette tâche de numérisation à bien. La numérisation peut être prise en charge par un volontaire, aprÚs les heures de bureau ou les jours non ouvrés, au bureau ou à la maison.</Text>
707</Content>
708</Subsection>
709<Subsection id="ocr">
710<Title>
711<Text id="237">ROC</Text>
712</Title>
713<Content>
714<Text id="238">La ROC, menée par un autre volontaire ou par une équipe de volontaires, doués en langue et en correction, vient ensuite. Les fichiers TIFF peuvent être partagés entre ordinateurs, ou bien on peut utiliser un seul ordinateur pour l'ensemble du travail. Il faudra en moyenne de 5 à 6 mois à temps partiel (par exemple, environ 20 heures par semaine) pour convertir 1000 pages en bons documents Word ou HTML.</Text>
715</Content>
716</Subsection>
717<Subsection id="outsourcing">
718<Title>
719<Text id="239">Sous-traiter</Text>
720</Title>
721<Content>
722<Text id="240">On peut aussi envisager de sous-traiter les opérations de numérisation et de ROC. Il en coûtera probablement de 1500 à 2000$ pour tout convertir en bons fichiers Word ou HTML.</Text>
723</Content>
724</Subsection>
725</Content>
726</Section>
727<Section id="all_publications_from_an_organization">
728<Title>
729<Text id="241">Toutes les publications d'une organisation: 5000 pages</Text>
730</Title>
731<Content>
732<Text id="242">De nombreuses organisations plus importantes disposent d'environ 5000 pages d'archives de livres, journaux, revues, et autres documents, actuels ou épuisés.</Text>
733<Subsection id="scanning_1">
734<Title>
735<Text id="243">Numérisation</Text>
736</Title>
737<Content>
738<Text id="244">Voilà un volume trop important pour un scanner à plat. La numérisation doit donc être sous-traitée (ce qui coûtera environ 400$ pour 5000 pages) ou confiée à un scanner à chargeur (qui coûte environ 900$). On peut aussi envisager l'achat groupé d'un scanner plus performant, avec d'autres institutions ou ONG (il en coûtera 6000$, à diviser par le nombre de participants). Les 5000 pages converties au format TIFF occuperont 300 à 400 méga-octets d'espace disque. Là encore, c'est une bonne idée de graver un cédérom réinscriptible contenant ces fichiers.</Text>
739</Content>
740</Subsection>
741<Subsection id="ocr_1">
742<Title>
743<Text id="245">ROC</Text>
744</Title>
745<Content>
746<Text id="246">La ROC, menée par un volontaire ou par une équipe de volontaires, doués en langue et en correction, vient ensuite. Ici encore, les fichiers TIFF peuvent être partagés entre ordinateurs, ou bien on peut utiliser un seul ordinateur pour l'ensemble du travail. Il faudra en moyenne de 25 à 30 mois à temps partiel (par exemple, environ 20 heures par semaine) pour convertir 5000 pages en bons documents Word ou HTML. En pratique, c'est là une tâche trop longue et gourmande en ressources informatiques pour pouvoir fonctionner sur la base du volontariat. Il faudrait rémunérer les volontaires, surveiller leurs performances et la qualité de leur travail, fournir l'espace adéquat, etc., pour obtenir un travail finalisé de bonne qualité dans des délais raisonnables.</Text>
747<Text id="247">On peut aussi créer des fichiers image PDF, ce qui occupera de 300 à 400 méga-octets d'espace disque, et sera plus difficile à télécharger depuis l'Internet.</Text>
748</Content>
749</Subsection>
750<Subsection id="outsourcing_1">
751<Title>
752<Text id="248">Sous-traiter</Text>
753</Title>
754<Content>
755<Text id="249">On peut aussi envisager de sous-traiter les opérations de numérisation et de ROC. Il en coûtera probablement de 7500 à 10 000$ pour tout convertir en bons fichiers Word ou HTML.</Text>
756</Content>
757</Subsection>
758</Content>
759</Section>
760<Section id="a_small_library">
761<Title>
762<Text id="250">Une petite bibliothÚques: 100 000 pages</Text>
763</Title>
764<Content>
765<Text id="251">Des organisations plus importantes, des universités, des gouvernements, et des bibliothÚques spécialisées disposeront peut-être de toute une bibliothÚque à numériser -- disons, 100 000 pages. La premiÚre question à se poser est celle des droits attachés aux publications: si elles ne sont pas placées ou tombées dans le domaine public, il faut obtenir des détenteurs des droits l'autorisation explicite de les numériser. Pensez aussi à vérifier si les fichiers ne sont pas déjà disponibles sous forme numérique.</Text>
766<Subsection id="scanning_2">
767<Title>
768<Text id="252">Numérisation</Text>
769</Title>
770<Content>
771<Text id="253">Le volume est trop important pour un scanner à chargeur. Il faut donc sous-traiter la numérisation (il en coûtera 8000$ pour 100 000 pages) ou acheter un scanner plus performant en commun avec quelques autres institutions ou ONG (il en coûtera 6000$, à diviser par le nombre de participants). Les 100 000 pages converties au format TIFF occuperont 6 à 8 giga-octets d'espace disque. La meilleure idée est de graver une série de copies de ces fichiers sur cédérom réinscriptible.</Text>
772</Content>
773</Subsection>
774<Subsection id="ocr_2">
775<Title>
776<Text id="254">ROC</Text>
777</Title>
778<Content>
779<Text id="255">La ROC vient ensuite (on peut aussi penser à créer des fichiers PDF pour des documents moins largement utilisés). Il faudra en moyenne de 500 à 700 mois à temps partiel pour convertir 5000 pages en documents Word ou HTML. C'est une opération impossible à mener sur la base du volontariat, et il faut avoir une approche professionnelle.</Text>
780<Text id="256">On peut réduire les coûts en transformant les pages les moins fréquemment utilisées (par exemple, les 80% les moins utilisés, ce qui représente 80 000 pages) en PDF, et ne transformer que les 20 000 pages restantes en Word et en HTML. Les fichiers PDF occuperont 6 à 8 giga-octets d'espace disque et seront plus difficiles à télécharger sur l'Internet, mais ils ne coûteront que 0.2$ par page à faire produire par des professionnels (pour un coût total de 16 000$). S'il fallait faire créer 80 000 fichiers PDF à partir de fichiers TIFF par des volontaires utilisant des programmes de conversion vers PDF tels qu'Adobe Acrobat, il faudrait prévoir 10 à 20 mois de travail à temps partiel sur un ordinateur puissant.</Text>
781</Content>
782</Subsection>
783<Subsection id="outsourcing_2">
784<Title>
785<Text id="257">Sous-traiter</Text>
786</Title>
787<Content>
788<Text id="258">On peut aussi envisager de sous-traiter le travail. Si on reste sur l'hypothÚse de 80% des pages converties en PDF et les 20% les plus fréquents en HTML, le coût du PDF s'élévera à environ 16 000$ et celui du HTML de 30 à 40 000$, pour un budget global d'environ 50 000$. Si toutes les pages passaient à la ROC, il en coûterait de 150 à 200 000$ pour convertir toute la collection en fichiers Word et HTML. </Text>
789</Content>
790</Subsection>
791</Content>
792</Section>
793</Content>
794</Chapter>
795<Chapter id="creating_an_electronic_collection">
796<Title>
797<Text id="259">Créer une collection électronique</Text>
798</Title>
799<Content>
800<Text id="260">Quand on décide de créer une collection, il faut garder à l'esprit trois aspects importants. D'abord, il faut organiser la collection. Plus dense et complet sera le contenu, plus le besoin d'indexation et de systÚmes de recherche puissants se fera sentir. De tels outils sont indispensables pour des collections de 3000 à 5000 pages ou plus. Ensuite, il faut donner la priorité aux besoins des utilisateurs finals. Identifiez le public ciblé par la collection, et consultez-le réguliÚrement. Enfin, le budget disponible tranchera tous les choix en matiÚre de développement ou raffinement.</Text>
801<Section id="methods_of_collection_building">
802<Title>
803<Text id="261">Méthodes de construction de collections</Text>
804</Title>
805<Content>
806<Text id="262">On trouve de nombreux exemples d'excellents cédéroms créés sur le modÚle de la page web. Les documents HTML, PDF ou Word peuvent être ajoutés et reliés au reste de la collection grâce à des liens hypertexte. La navigation est simple et attrayante grâce aux liens hypertexte, aux cadres, aux mots-clefs, aux index, etc. De tels systÚmes peuvent convenir pour des volumes de quelques milliers de pages, mais à partir de 3000 ou 5000 pages ils atteindront leurs limites et il deviendra important de disposer d'une collection bien structurée et de fonctionnalités de recherche puissantes. C'est là que Greenstone peut rendre service.</Text>
807<Text id="263">Le logiciel de bibliothÚque numérique Greenstone crée une bibliothÚque numérique structurée disposant d'un moteur de recherche trÚs puissant. On peut indexer jusqu'à 150 000 pages sur un simple cédérom, et chaque cédérom peut se transformer en serveur web. Greenstone est un logiciel libre, disponible selon les termes de la licence publique générale de GNU.</Text>
808<Text id="264">Les manuels fournis décrivent la maniÚre de confectionner des collections Greenstone. Il y a essentiellement trois façons de créer des collections.</Text>
809
810<BulletList>
811<Bullet>
812<Text id="265">Le "Librarian Interface" (l'Interface Bibliothécaire)</Text>
813</Bullet>
814<Bullet>
815<Text id="266">Le "Collector" (Le collectionneur)</Text>
816</Bullet>
817<Bullet>
818<Text id="267">La création à partir de la ligne de commande.</Text>
819</Bullet>
820</BulletList>
821<Text id="268">La premiÚre est le "Librarian Interface" (l'Interface Bibliothécaire) décrit dans le "Guide de l'utilisateur de la bibliothÚque numérique Greenstone" (Chapitre 3, "Réaliser des collections Greenstone"). C'est un outil interactif fonctionnel dans la création des collections. Avec lui, on peut collecter des groupes de documents, importer ou assigner des méta-données, et confectionner une collection Greenstone. La deuxiÚme méthode est le sous-systÚme "collectionneur", décrit au chapitre 4 du guide de l'utilisateur. C'est un outil plus ancien qui fournit une maniÚre alternative de créer des collections de pages Web et autres documents. Il vous guide à travers une séquence de pages Web conventionnelles qui exigent l'information requise. Il ne fournit cependant aucun moyen d'ajouter une métadata aux documents et, parce que c'est une interface Web, il n'est vraiment pas adapté aux collections qui prennent plus que quelques minutes pour être créées. La troisiÚme méthode consiste à exécuter directement, à partir de la ligne de commande, les programmes de création de collections; elle figure dans le "Guide du développeur de la collection Greenstone" (Chapitre 1). Elle offre plus de flexibilité dans l'exécution individuelle des programmes et dans la sauvegarde des résultats intermédiaires, hautement souhaitable pour les collections qui prennent des heures à être créées. La lecture du chapitre 2 du Developer's Guide s'avÚre aussi nécessaire pour exploiter de façon optimale la puissance de Greenstone dans la confection des collections de pointe.</Text>
822<Text id="269">Une quatriÚme méthode de création et d'édition du matériel associé à la collection existe; c'est un programme appelé "The Collection Organizer" (Organisateur de la Collection). Cependant, sa fonctionnalité a été dépassée par le "Librarian Interface" (l'Interface Bibliothécaire) mentionné ci-dessus. Ce document est décrit comme un leg sous le titre "Using the Organizer" (Utiliser l'organisateur).</Text>
823</Content>
824</Section>
825<Section id="getting_started_in_seven_steps_and_15_minutes">
826<Title>
827<Text id="270">Commencer en sept étapes et en 15 minutes</Text>
828</Title>
829<Content>
830<Text id="271">La meilleure façon d'appréhender et de sentir l'Interface Bibliothécaire est en fait de créer une bibliothÚque par un petit test. Si vous disposez de 15 minutes on vous conseille de suivre ces étapes pour une meilleure compréhension de ces programmes.</Text>
831<Text id="272">Avant tout, vous installez Greenstone (Voir Le Guide d'installation de Greenstone) "The Greenstone intaller's Guide" qui comprend la collection de démonstration "Demo Collection" dans un format DLS et ses fichiers sources. Noter que si vous souhaitez ajouter à la collection l'un quelconque des 140 documents de la collection DLS (au lieu seulement des 11 de la collection Demo de Greenstone), vous devez installer DLS comme un des modÚles des bibliothÚques Greenstone. Dans CProgram Filesgsdlcollect, comme d'ailleurs Demo, dans les sous-repertoires respectifs DLS et Demo. Si Greenstone avait déjà été installé sans la collection DLS et que vous souhaitez installer celle-ci, vous devez réinsérer le Cd-rom de Greenstone et procéder à l'ajout de DLS. La désinstallation de Greenstone n'est en aucun cas nécessaire.</Text>
832<Text id="273">Nous vous conseillons d'imprimer les instructions ci-dessous et de les suivre pas à pas:</Text>
833<NumberedList>
834<NumberedItem>
835<Text id="274">Démarrer le "Librarian Interface" (l'Interface Bibliothécaire) sous Windows en sélectionnant Greenstone Digital Library à partir de la section Programmes du menu de Démarrage et en sélectionnant "Librarian interface". Si vous utilisez Unix à la place, il faut taper:</Text>
836<CodeLine>cd ~/gsdl cd gli ./gli.sh</CodeLine>
837<Text id="275">où /gsdl est le répertoire contenant votre systÚme Greenstone.</Text>
838</NumberedItem>
839<NumberedItem>
840<Text id="276">Sélectionner "Nouveau" à partir du menu "Fichier" dans la barre de menu horizontale placée en haut de la fenêtre. Lui donner un titre, par exemple "Ma premiÚre collection" et mettre votre adresse électronique et une description sommaire de la collection. Dans le menu "Baser cette collection sur", choisir "greenstone demo" (démonstration de greenstone) ou "Developement Library Subset" (le résultat est le même parce que ces deux collections ont la même structure).</Text>
841</NumberedItem>
842<NumberedItem>
843<Text id="277">Ajouter des documents à partir de la collection Demo (ou la collection DLS si elle est installée) à votre nouvelle collection. Pour ce faire, double-cliquer sur le répertoire des Collections Greenstone à gauche du panneau, et double-cliquer sur la collection désirée. Les documents qui s'y trouvent sont affichés en dessous. Sélectionnez-en un, le faire glisser et le déposer dans le panneau de droite ("glisser-coller"). Celle-ci représente la collection en cours de création. Choisir plusieurs documents, les faire glisser un à un à l'intérieur, ou utiliser une sélection multiple de façon standard.</Text>
844</NumberedItem>
845<NumberedItem>
846<Text id="278">Ajouter vos propres documents qui ne sont pas dans la collection Demo ou DLS. Fermer le répertoire des collections Greenstone du panneau de gauche et double-cliquer sur le répertoire "Local filespace". Naviguer vers le répertoire qui contient des documents(c'est à dire de petits fichiers Word et HTML). En faire glisser quelques-uns dans le panneau de droite pour les inclure dans votre collection.</Text>
847</NumberedItem>
848<NumberedItem>
849<Text id="279">Ajouter des méta-données aux documents de votre collection. Jusqu'à présent, l'exécution se déroulait sous le panneau "Gather", indiqué par l'onglet "Gather" en-dessous de la barre de menu horizontale en haut de Windows. Cliquer sur l'onglet "Enrich" qui se trouve à cÎté. Les documents dans votre collection apparaissent maintenant dans le panneau de gauche : cliquer sur l'un et examiner la méta-donnée qui lui est associée dans la liste "Elément ... Valeurs" en haut à droite. Utiliser le panneau en-dessous pour changer les valeurs individuelles en sélectionnant l'élément désiré et, soit choisir une valeur existante sur la liste, ou taper une nouvelle valeur dans la boîte située en bas. Ajouter les meta-données Titre, Organisation et Mot-clé à chacun de vos propres documents figurant sur la collection. AprÚs la saisie de chaque valeur, il est nécessaire de cliquer sur "Ajouter" pour ajouter cette valeur à la méta-donnée.</Text>
850</NumberedItem>
851<NumberedItem>
852<Text id="280">Cliquez l'onglet "Créer" pour quitter le mode "Enrich" et créer votre nouvelle collection. Cliquer sur l'onglet "Créer la Collection" en bas. Pendant que l'ordinateur élabore la collection, vous recevrez en feedback un compte rendu sur ce qui est en cours d'exécution.</Text>
853</NumberedItem>
854<NumberedItem>
855<Text id="281">En fin d'exécution, cliquer sur l'onglet Preview pour visualiser la collection à partir du "Librarian Interface" (l'Interface Bibliothécaire). Vérifier les titres a-z, organisations et comment lister pour vous assurer que vos documents ont été inclus dans la collection. En visitant votre page Web Greenstone, le constat est fait aussi que la collection a été installée parmi les collections de Greenstone.</Text>
856</NumberedItem>
857</NumberedList>
858</Content>
859</Section>
860</Content>
861</Chapter>
862<FootnoteList>
863<Footnote id="1">
864<Text id="282">Tous les prix mentionnés représentent des dollars américains (USD) et sont donnés sur la base du marché en 2001.</Text>
865</Footnote>
866<Footnote id="2">
867<Text id="283">Rappel: tous les prix mentionnés représentent des dollars américains (USD) et sont donnés sur la base du marché en 2001.</Text>
868</Footnote>
869</FootnoteList>
870</Manual>
Note: See TracBrowser for help on using the repository browser.