source: trunk/gsdl-documentation/manuals/xml-source/es/Paper_es.xml@ 13781

Last change on this file since 13781 was 13781, checked in by lh92, 17 years ago

added SupplementaryText and 'id' 'lang' attribute to 'Manual' element, for back to manual index and back to top index links

  • Property svn:keywords set to Author Date Id Revision
File size: 69.6 KB
Line 
1<?xml version="1.0" encoding="UTF-8"?>
2<Manual id="Paper" lang="es">
3<Heading>
4<Text id="1">BIBLIOTECA DIGITAL GREENSTONE</Text>
5</Heading>
6<Title>
7<Text id="2">DEL PAPEL A LA COLECCIÓN</Text>
8</Title>
9<Author>
10<Text id="3">Dr. Michel Loots, Dan Camarzan e Ian H. Witten</Text>
11</Author>
12<Affiliation>
13<Text id="4">Human Info (Bélgica) <br/>Simple Words (Rumania)<br/>Universidad de Waikato (Nueva Zelanda)</Text>
14</Affiliation>
15<SupplementaryText>
16<Text id="manual_index">De regreso al index</Text>
17<Text id="top_index">De regreso al top index</Text>
18</SupplementaryText>
19<Text id="5">Greenstone es un conjunto de programas y aplicaciones de software especialmente diseñados para la creación y difusión de colecciones documentales digitales, el cual le ofrece una nueva forma de organizar la información y publicarla en Internet o CD-ROM. Greenstone ha sido elaborado como parte del proyecto de Biblioteca Digital de Nueva Zelanda de la Universidad de Waikato y actualmente es desarrollado y distribuido en colaboración con la UNESCO y la ONG Human Info. Es un software de código abierto disponible en <i>http://greenstone.org</i> bajo los términos y condiciones de la Licencia Pública General de GNU.</Text>
20<Comment>
21<Text id="6">Queremos estar seguros que este software trabaje bien para usted. Por favor comuníquenos cualquier problema que tenga con él a la siguiente dirección: <i>[email protected]</i>
22</Text>
23</Comment>
24<Version>
25<Text id="7">Greenstone gsdl-2.50</Text>
26</Version>
27<Date>
28<Text id="8">Marzo de 2004</Text>
29</Date>
30<Section id="about_this_manual">
31<Title>
32<Text id="9">Acerca de este manual</Text>
33</Title>
34<Content>
35<Text id="10">El presente documento explica la forma de crear colecciones en CD-ROM a partir de documentos impresos y expone con detalle los procedimientos y costos de los procesos de escaneado y reconocimiento óptico de caracteres (OCR por sus siglas en inglés) para obtener al final un texto con el formato adecuado para los programas Greenstone. También se describe la forma de crear y editar el material asociado a una colección.</Text>
36<Text id="11">Hemos procurado formular nuestras explicaciones de la manera más sencilla posible. Cualquier referencia a productos o empresas responde a un propósito meramente ilustrativo, y no presupone por nuestra parte valoración o preferencia alguna por tales productos en perjuicio de cualquier otro.</Text>
37</Content>
38</Section>
39<Section id="companion_documents">
40<Title>
41<Text id="12">Conjunto de documentos</Text>
42</Title>
43<Content>
44<Text id="13">La serie completa de documentos comprende cinco volúmenes:</Text>
45<BulletList>
46<Bullet>
47<Text id="14">La Guía de Instalación de la Biblioteca Digital Greenstone</Text>
48</Bullet>
49<Bullet>
50<Text id="15">La Guía del Usuario de la Biblioteca Digital Greenstone</Text>
51</Bullet>
52<Bullet>
53<Text id="16">La Guía del Programador de la Biblioteca Digital Greenstone</Text>
54</Bullet>
55<Bullet>
56<Text id="17">La Biblioteca Digital Greenstone: del Papel a la Colección (<i>el presente documento</i>)</Text>
57</Bullet>
58<Bullet>
59<Text id="18">La Biblioteca Digital Greenstone: uso del Organizador</Text>
60</Bullet>
61</BulletList>
62</Content>
63</Section>
64<Section id="acknowledgements">
65<Title>
66<Text id="19">Agradecimientos</Text>
67</Title>
68<Content>
69<Text id="20">Los capítulos dedicados al escaneado, el Organizador y demás información relativa a la creación de colecciones documentales colectivas sin fines de lucro son obra del Dr. Michel Loots , Gerente de la ONG Human Info y de HumanityCD , Dan Camarzan de Simple Words y el equipo que colabora con ambos desde Brasov (Rumania).</Text>
70<Text id="21">El programa Greenstone es fruto de la colaboración de muchas personas. Rodger McNab y Stefan Boddie son los principales arquitectos y programadores. También han contribuido David Bainbridge, George Buchanan, Hong Chen, Michael Dewsnip, Katherine Don, Elke Duncker, Carl Gutwin, Geoff Holmes, Dana McKay, John McPherson, Craig Nevill-Manning, Dynal Patel, Gordon Paynter, Bernhard Pfahringer, Todd Reed, Bill Rogers, John Thompson y Stuart Yeates. Otros miembros del proyecto Biblioteca Digital de Nueva Zelanda que proporcionaron asesoría y valiosas ideas para la concepción del sistema son: Mark Apperley, Sally Jo Cunningham, Matt Jones, Steve Jones, Te Taka Keegan, Michel Loots, Malika Mahoui, Gary Marsden, Dave Nichols y Lloyd Smith. También queremos dar las gracias a todos aquellos que contribuyeron a los paquetes de programas con licencias GNU incluidos en esta distribución: MG, GDBM, PDFTOHTML, PERL, WGET, WVWARE y XLHTML.</Text>
71</Content>
72</Section>
73<Chapter id="introduction">
74<Title>
75<Text id="22">Introducción</Text>
76</Title>
77<Content>
78<Text id="23">Uno de los objetivos de la Biblioteca Digital Greenstone es hacer posible que instituciones como las universidades, organismos del sistema de las Naciones Unidas, organizaciones no gubernamentales, gobiernos y organizaciones no lucrativas puedan crear diversas colecciones de información y difundirlas por Internet o en forma de CD-ROM.</Text>
79<Text id="24">El proceso suele comprender los siguientes pasos:</Text>
80<NumberedList>
81<NumberedItem>
82<Text id="25">Determinar los documentos que han de figurar en la colección.</Text>
83</NumberedItem>
84<NumberedItem>
85<Text id="26">Obtener la autorización de los titulares de los derechos de autor para incluir esos documentos en la biblioteca digital.</Text>
86</NumberedItem>
87<NumberedItem>
88<Text id="27">Escanear y reconocer por medio de OCR los documentos impresos que no estén disponibles en formato digital.</Text>
89</NumberedItem>
90<NumberedItem>
91<Text id="28">Convertir todos los documentos en un formato que integre texto e imágenes y se pueda importar a Greenstone, de preferencia en formato HTML o Word de Microsoft, aunque también se cuenta con plugins que reconocen otros formatos con un nivel variable de precisión (véase la <i>Guía del Usuario de la Biblioteca Digital Greenstone</i>).</Text>
92</NumberedItem>
93<NumberedItem>
94<Text id="29">Etiquetar los capítulos, párrafos e imágenes de los documentos electrónicos.</Text>
95</NumberedItem>
96<NumberedItem>
97<Text id="30">Dotar a la colección de la estructura idónea para que funcione como biblioteca digital.</Text>
98</NumberedItem>
99<NumberedItem>
100<Text id="31">Crear la biblioteca digital utilizando los programas Greenstone.</Text>
101</NumberedItem>
102<NumberedItem>
103<Text id="32">Editar y distribuir la colección en CD-ROM y/o distribuirla por Internet.</Text>
104</NumberedItem>
105</NumberedList>
106<Text id="33">Para crear una colección digital es preciso que las publicaciones existan antes en formato digital. Los libros, revistas u otros documentos que sólo existan en forma impresa deberán ser escaneados, procesados y convertidos en un formato que la computadora reconozca (paso iii). El procedimiento más usual para ello es el reconocimiento óptico de caracteres (OCR por sus siglas en inglés), aunque a veces se opta por capturar íntegramente el texto. De este proceso tratan los capítulos 2 a 4 del presente manual.</Text>
107<Text id="34">El paso v) sirve para que, una vez finalizada la biblioteca, el usuario pueda seleccionar y ver en pantalla por separado las distintas partes de un documento. El paso vi) consiste en asignar atributos a cada documento, como por ejemplo categorías temáticas, palabras clave y datos bibliográficos con arreglo a los cuales se pueda ordenar y consultar la biblioteca. Estos pasos se explican en el Capítulo 5 del presente manual.</Text>
108<Text id="35">Asimismo, en el presente manual se tratan numerosas cuestiones relativas al procedimiento editorial y a la creación de una colección digital a partir de documentos impresos. Antes de seguir adelante, el lector debe plantearse las siguientes preguntas:</Text>
109<BulletList>
110<Bullet>
111<Text id="36">¿Cuál es el objetivo de mi colección?</Text>
112</Bullet>
113<Bullet>
114<Text id="37">¿A qué grupo de usuarios se dirige?</Text>
115</Bullet>
116<Bullet>
117<Text id="38">¿Cuán grande es dicho grupo? ¿Tiene dimensión local, regional o mundial?</Text>
118</Bullet>
119<Bullet>
120<Text id="39">¿Cuántos documentos tengo pensado incluir en la colección?</Text>
121</Bullet>
122<Bullet>
123<Text id="40">¿Cuántas páginas?</Text>
124</Bullet>
125<Bullet>
126<Text id="41">¿Cuánta información gráfica contienen?</Text>
127</Bullet>
128<Bullet>
129<Text id="42">¿Cabe subdividir la documentación en partes que sean de interés para un público reducido y otras que requieran una difusión más amplia?</Text>
130</Bullet>
131<Bullet>
132<Text id="43">¿Existen ya en forma electrónica los documentos?</Text>
133</Bullet>
134<Bullet>
135<Text id="44">De ser así, ¿en qué formato? (Señalemos de paso que un archivo PDF no equivale automáticamente al texto completo en formato electrónico, pues a menudo contiene sólo la imagen de las páginas.)</Text>
136</Bullet>
137<Bullet>
138<Text id="45">¿A qué derechos de autor están sujetos los documentos?</Text>
139</Bullet>
140<Bullet>
141<Text id="46">¿Quién es el titular de los derechos de autor?</Text>
142</Bullet>
143<Bullet>
144<Text id="47">¿Hay otras organizaciones que se dirijan al mismo público? </Text>
145</Bullet>
146<Bullet>
147<Text id="48">¿Tengo deseos de colaborar con otros grupos?</Text>
148</Bullet>
149<Bullet>
150<Text id="49">¿De qué presupuesto dispongo para el conjunto del proyecto?</Text>
151</Bullet>
152<Bullet>
153<Text id="50">¿De qué recursos humanos (en personas-mes) dispongo para las labores de coordinación, edición, escaneado y programación?</Text>
154</Bullet>
155<Bullet>
156<Text id="51">¿De cuántas computadoras dispongo para el proyecto?</Text>
157</Bullet>
158<Bullet>
159<Text id="52">¿Cuántos CD-ROM tengo pensado distribuir?</Text>
160</Bullet>
161<Bullet>
162<Text id="53">¿Voy a distribuirlos gratuitamente o a venderlos?</Text>
163</Bullet>
164</BulletList>
165</Content>
166</Chapter>
167<Chapter id="scanners_and_scanning">
168<Title>
169<Text id="54">Escáneres y escaneado</Text>
170</Title>
171<Content>
172<Text id="55">En el proceso de conversión de documentos impresos en una colección de biblioteca digital, el primer paso consiste en obtener imágenes digitales de todas las páginas de todas las publicaciones. La siguiente etapa es la del reconocimiento óptico de caracteres (OCR), proceso que requiere, para un resultado óptimo, imágenes de partida limpias y de buena calidad. Para el proceso de digitalización se necesita un escáner que pueda trabajar a una resolución de 300 ppp (puntos por pulgada). Gran parte del trabajo puede hacerse en blanco y negro, aunque deberá utilizarse un escáner capaz de obtener imágenes en color cuando el documento las contenga. La mayoría de las cubiertas de libro son en color, por lo que hay que escanearlas en forma de imagen fotográfica en color.</Text>
173<Section id="scanners">
174<Title>
175<Text id="56">Escáneres</Text>
176</Title>
177<Content>
178<Text id="57">Existen escáneres de todos los precios, formas y tamaños, que pueden costar desde 100 dólares (un escáner plano) hasta más de 50.000 dólares (los grandes escáneres industriales de fabricantes como Bell &amp; Howell<FootnoteRef id="1"/>). Hay muchos sitios Web en los que se ofrece a la venta un amplio surtido de escáneres. Para encontrarlos basta con introducir la palabra “scanner” (escáner) en buscadores como Google, Altavista o Yahoo.</Text>
179<Text id="58">El formato de salida de una página escaneada es un archivo informático, por lo general en formato TIFF o Bitmap. El mejor formato es el TIFF IV comprimido. Una página normal, escaneada y convertida en este formato, ocupa sólo 50 Kb de memoria, mientras que una página equivalente en formato Bitmap no comprimido puede llegar a los 2 Mb.</Text>
180<Subsection id="low-cost_flat-bed_scanner">
181<Title>
182<Text id="59">Escáneres planos (o de sobremesa) de gama baja</Text>
183</Title>
184<Content>
185<Text id="60">Los escáneres de este tipo son los más económicos y difundidos. Existen muchas marcas: HP, Agfa, Acer, etc., con precios que van de los 100 a los 300 dólares. Con ellos pueden obtenerse imágenes tanto en blanco y negro como en color. <b/> El bajo precio de estas máquinas permite conectar cada computadora a su propio escáner.</Text>
186<Text id="61">Entre sus inconvenientes cabe citar la mediocre calidad del resultado, la lentitud con que trabajan, su escasa fiabilidad a temperaturas altas y la relativa frecuencia con que se averían. Es preciso escanear las páginas manualmente, una por una, colocándolas cuidadosamente en la placa de escaneado para que queden correctamente alineadas. De ahí que su productividad resulte baja. Aunque los fabricantes aseguran que se puede escanear una página en menos de un minuto, en la práctica rara vez se consiguen resultados superiores a las doce páginas por hora. Además, el proceso de escaneado monopoliza la computadora con la que se está realizando el trabajo.</Text>
187<Text id="62">Por todo lo dicho, estos escáneres sólo son útiles para realizar trabajos de escasa envergadura y pocas páginas: no más de 200 a 400 páginas al mes cuando se trate de un trabajo sistemático, y de 1.000 a 2.000 páginas para operaciones de carácter esporádico.</Text>
188</Content>
189</Subsection>
190<Subsection id="low-end_scanner_with_sheet_feeder">
191<Title>
192<Text id="63">Escáneres de gama baja con alimentador de papel</Text>
193</Title>
194<Content>
195<Text id="64">Los escáneres de este tipo suelen costar entre 500 y 1.200 dólares. Ofrecen la posibilidad de escanear y procesar de 10 a 50 páginas de una vez, lo que evita que el operador tenga que estar continuamente pendiente de la máquina y aumenta la productividad hasta unas 150 a 200 páginas diarias. Estos escáneres son más robustos y gozan de una vida útil más larga antes de necesitar reparaciones (lo que suele ocurrir al cabo de 30.000 a 50.000 páginas).</Text>
196<Text id="65">Una de sus desventajas es que sólo pueden escanear una cara a la vez, lo que obliga a invertir el paquete de páginas y escanearlas de nuevo para obtener imágenes por ambas caras. Ello da lugar a frecuentes problemas, pues los alimentadores nunca funcionan a la perfección y a veces las páginas se atascan.</Text>
197<Text id="66">Estos escáneres son útiles para trabajos de 1.500 a 3.000 páginas mensuales.</Text>
198</Content>
199</Subsection>
200<Subsection id="color_scanners">
201<Title>
202<Text id="67">Escáneres en color</Text>
203</Title>
204<Content>
205<Text id="68">Toda operación de escaneado conlleva siempre imágenes en color, lo que hace imprescindible un escáner capaz de procesarlas. Por regla general, menos del 5% de una publicación contiene imágenes en color, sin contar la cubierta. En consecuencia, será suficiente un escáner plano de gama baja como los mencionados más arriba. Es aconsejable elegir una máquina que pueda trabajar a una resolución de hasta 600 ppp.</Text>
206</Content>
207</Subsection>
208<Subsection id="professional_duplex_scanners">
209<Title>
210<Text id="69">Escáneres dúplex profesionales</Text>
211</Title>
212<Content>
213<Text id="70">Los escáneres profesionales son máquinas fiables y resistentes, capaces de tratar un gran número de páginas (normalmente entre 2.000 y 10.000 páginas diarias). Están provistos de una bandeja de alimentación automática con capacidad para 50 a 200 páginas. Los mejores y más rápidos son los dúplex, es decir, capaces de escanear simultáneamente las dos caras de una hoja.</Text>
214<Text id="71">Para utilizar un escáner dúplex profesional se requiere una computadora potente, dotada de un disco duro de 10 a 20 Gb de capacidad como mínimo. El precio de estos escáneres oscila entre los 5.000 y los 50.000 dólares. El escáner dúplex Canon DR-6020, por ejemplo, cuesta 5.000 dólares y puede trabajar con documentos impresos por ambas caras. Ofrece un rendimiento de unas 2.000 páginas diarias y un periodo de vida útil de 600.000 a 800.000 páginas. Los escáneres Bell &amp; Howell y Fujitsu cuestan entre 10.000 y 50.000 dólares y gozan de un periodo de vida útil de muchos millones de páginas.</Text>
215<Text id="72">Los escáneres para microfichas cuestan entre 15.000 (por una unidad semimanual) y 80.000 dólares (por un escáner completamente automático).</Text>
216</Content>
217</Subsection>
218<Subsection id="scanning_programs">
219<Title>
220<Text id="73">Programas de escaneado</Text>
221</Title>
222<Content>
223<Text id="74">Cada escáner viene acompañado de su propio programa informático, que es necesario instalar en la computadora desde la que vaya a controlarse el escaneado. Algunos traen consigo una tarjeta controladora que se instala en la computadora para acelerar la digitalización.</Text>
224</Content>
225</Subsection>
226</Content>
227</Section>
228<Section id="preparing_the_documents">
229<Title>
230<Text id="75">Preparación de los documentos</Text>
231</Title>
232<Content>
233<Text id="76">Antes de escanear los documentos hay que prepararlos adecuadamente, eliminando posibles motas de polvo, secándolos si están húmedos, extrayendo clips y grapas y alisando las páginas dobladas o arrugadas.</Text>
234<Text id="77">Es preciso desmontar el lomo de los libros, cortándolo en línea recta y desprendiéndolo con precisión. A menudo habrán de encuadernarse de nuevo los libros procedentes de bibliotecas, en cuyo caso conviene extremar las precauciones al desmontar el lomo para facilitar la posterior encuadernación.</Text>
235<Text id="78">Cuando se trabaje con pocos documentos se puede retirar el lomo manualmente, con ayuda de una regla y una cuchilla. ¡Pero cuidado con los dedos! Para un mayor número de documentos merece la pena recurrir a guillotinas manuales especiales</Text>
236<Text id="79">Para grandes volúmenes, por ejemplo más de 20 documentos, recomendamos pedir permiso a una imprenta o copistería para utilizar su guillotina profesional. Recuérdese que es preciso extraer los clips y las grapas para no dañar las cuchillas.</Text>
237</Content>
238</Section>
239<Section id="the_scanning_process">
240<Title>
241<Text id="80">El proceso de escaneado</Text>
242</Title>
243<Content>
244<Text id="81">Con el programa informático suministrado con el escáner se genera a partir de cada página una imagen electrónica, que se transforma en una imagen Bitmap o TIFF y se memoriza acto seguido en el disco duro, asignando a cada archivo un nombre normalizado. Una vez escaneados todos o una parte de los documentos de un lote empieza el proceso de OCR, del que puede ocuparse el operador del escáner o cualquier otra persona.</Text>
245<Text id="82">En general se necesita una resolución de 300 ppp, aunque a veces también resulte aceptable un valor de 200 ppp.</Text>
246<Subsection id="quality_control">
247<Title>
248<Text id="83">Control de calidad</Text>
249</Title>
250<Content>
251<Text id="84">La digitalización sirve para obtener una versión perfecta de las publicaciones en formato de texto o HTML mediante el proceso de OCR, o bien para crear archivos gráficos mejorados como los PDF. En ambos casos es de suma importancia que la imagen sea de buena calidad. En caso contrario los archivos gráficos resultan poco nítidos y consumen más memoria. La calidad influye sobremanera en el proceso de OCR: con imágenes de calidad mediocre la productividad puede caer hasta en un 40%. Sabiendo que el OCR suele representar más del 90% del costo total, se deduce que la calidad del escaneado es determinante para el costo final del proceso.</Text>
252<Text id="85">Es posible mejorar la calidad de un archivo TIFF adaptando el proceso de escaneado a cada tipo de papel mediante las opciones de ajuste que ofrece el programa del escáner. Un tipo de papel relativamente transparente requerirá parámetros más claros, el contraste deberá ajustarse en función de la calidad de la impresión, etc.</Text>
253<Text id="86">Ante todo conviene dividir el material en lotes de documentos que presenten similar calidad de papel e impresión, y después realizar pruebas de OCR con una muestra del primer lote para determinar los parámetros de ajuste idóneos. A continuación se escanearán todos los documentos de ese primer lote antes de continuar con el siguiente.</Text>
254</Content>
255</Subsection>
256<Subsection id="filename_conventions">
257<Title>
258<Text id="87">Convenciones para designar los archivos</Text>
259</Title>
260<Content>
261<Text id="88">Es preciso asignar a cada libro o documento un número de trabajo o código único, que a su vez dará nombre a la carpeta en la que se archiven todas las imágenes TIFF correspondientes a ese documento. Según el sistema operativo del que se trate (DOS, Windows, UNIX, LINUX, etc.), el nombre de un archivo puede comprender entre 8 y 128 caracteres, aunque es aconsejable limitarse a un máximo de 16 caracteres. Si se utilizan 8 caracteres, los cinco primeros servirían para identificar el documento, el siguiente sería una letra indicativa del código de idioma y los dos restantes caracteres indicarían el número de página. Por ejemplo: el identificador <i>u7548e12.tif</i> correspondería a la imagen TIFF de la página 12 de un libro escrito en inglés que tuviera por código <i>u7548e.</i>
262</Text>
263<Text id="89">Conviene asignar un directorio del disco duro a los trabajos de escaneado (por ejemplo con el nombre de <i>scanjobs</i>). Después se puede crear un subdirectorio para cada uno de los trabajos, en cuyo interior se creará un nuevo subdirectorio para cada publicación (en el ejemplo anterior, <i>u7548e</i>), donde se guardan todas las imágenes TIFF correspondientes a esa publicación, incluidas las imágenes en color.</Text>
264</Content>
265</Subsection>
266</Content>
267</Section>
268<Section id="productivity_and_resources">
269<Title>
270<Text id="90">Productividad y recursos necesarios</Text>
271</Title>
272<Content>
273<Text id="91">No hay que subestimar la carga de trabajo que suponen los procesos de escaneado y, sobre todo, de OCR. Es preferible considerar que ambos procesos son completamente independientes y elegir el procedimiento idóneo (desde el punto de vista económico y también práctico) para cada uno de ellos por separado.</Text>
274<Text id="92">Entre los aspectos que conviene tener en cuenta cabe señalar: la inversión necesaria en escáneres y computadoras, la existencia de los recursos humanos y el espacio necesarios, la formación del personal, los gastos salariales, el número inicial y total de páginas por escanear, los plazos en que ha de realizarse el trabajo y la posibilidad de subcontratarlo a terceros.</Text>
275<Subsection id="scanning_costs">
276<Title>
277<Text id="93">Costos del proceso de escaneado</Text>
278</Title>
279<Content>
280<Text id="94">Es importante decidir si se ha de invertir en un equipo de escaneado y asumir internamente esa labor o bien subcontratarla a una empresa especializada. Las principales consideraciones que deben tenerse en cuenta son:</Text>
281<BulletList>
282<Bullet>
283<Text id="95">los plazos en que ha de realizarse el trabajo;</Text>
284</Bullet>
285<Bullet>
286<Text id="96">el número total de páginas;</Text>
287</Bullet>
288<Bullet>
289<Text id="97">los costos salariales correspondientes a las personas encargadas del escaneado.</Text>
290</Bullet>
291</BulletList>
292<Text id="98">Las personas a quienes se encomiende el escaneado deben estar muy motivadas y preparadas técnicamente, y tener muy clara la importancia de cumplir los criterios de calidad.</Text>
293<Text id="99">Una empresa especializada suele cobrar 0,06 dólares por página, a lo que hay que añadir los gastos de envío, que pueden ser de hasta 0,03 dólares por página cuando se remite el material de un país en desarrollo a un país desarrollado y de 0,015 dólares por página cuando se trata de un envío nacional.</Text>
294<Text id="100">En el Cuadro <CrossRef target="Table" ref="table_scanning_cost"/> se ofrecen estimaciones de los costos de escaneado por cuenta propia según el tipo de escáner que se utilice. Conviene tener en cuenta que estas cifras son aproximadas y corresponden más bien a órdenes generales de magnitud, basados en la experiencia de los autores. En las tres primeras columnas se presentan los costos laborales. En la primera se indica la productividad (en páginas mensuales) suponiendo que se trabaje a jornada completa. Dividiendo las horas mensuales de trabajo por la productividad en páginas/mes se obtienen los recursos necesarios en términos de horas de trabajo/página, guarismo que figura en la segunda columna (suponiendo que se trabajen 180 horas al mes).</Text>
295<Table id="table_scanning_cost">
296<Title>
297<Text id="101">Costos del proceso de escaneado</Text>
298</Title>
299<TableContent>
300<tr>
301<th width="90"/>
302<th width="71">
303<Text id="102">Rendimiento (páginas/mes)</Text>
304</th>
305<th width="75">
306<Text id="103">Horas/página (180 horas/mes)</Text>
307</th>
308<th width="83">
309<Text id="104">Costo/página (suponiendo 4 dólares/hora)</Text>
310</th>
311<th width="60">
312<Text id="105">Adquisición del escáner (dólares)</Text>
313</th>
314<th width="66">
315<Text id="106">Vida útil del escáner (páginas)</Text>
316</th>
317<th width="85">
318<Text id="107">Páginas que se podrían subcontratar por el precio del escáner (a 0,06 dólares c/u)</Text>
319</th>
320</tr>
321<tr>
322<th width="90">
323<Text id="108">Escáner plano</Text>
324</th>
325<th width="71">
326<Text id="109">2.500</Text>
327</th>
328<th width="75">
329<Text id="110">0,072</Text>
330</th>
331<th width="83">
332<Text id="111">0,288</Text>
333</th>
334<th width="60">
335<Text id="112">300</Text>
336</th>
337<th width="66">
338<Text id="113">7.000</Text>
339</th>
340<th width="85">
341<Text id="114">5.000</Text>
342</th>
343</tr>
344<tr>
345<th width="90">
346<Text id="115">Escáner con alimentador de papel</Text>
347</th>
348<th width="71">
349<Text id="116">8.000</Text>
350</th>
351<th width="75">
352<Text id="117">0,0225</Text>
353</th>
354<th width="83">
355<Text id="118">0,09</Text>
356</th>
357<th width="60">
358<Text id="119">800</Text>
359</th>
360<th width="66">
361<Text id="120">30.000 </Text>
362</th>
363<th width="85">
364<Text id="121">13.000</Text>
365</th>
366</tr>
367<tr>
368<th width="90">
369<Text id="122">Profesional: dúplex de gama baja</Text>
370</th>
371<th width="71">
372<Text id="123">40.000</Text>
373</th>
374<th width="75">
375<Text id="124">0,0045</Text>
376</th>
377<th width="83">
378<Text id="125">0,018</Text>
379</th>
380<th width="60">
381<Text id="126">6.000</Text>
382</th>
383<th width="66">
384<Text id="127">600.000</Text>
385</th>
386<th width="85">
387<Text id="128">100.000</Text>
388</th>
389</tr>
390<tr>
391<th width="90">
392<Text id="129">Profesional: dúplex de gama alta</Text>
393</th>
394<th width="71">
395<Text id="130">150.000</Text>
396</th>
397<th width="75">
398<Text id="131">0,0012</Text>
399</th>
400<th width="83">
401<Text id="132">0,0048</Text>
402</th>
403<th width="60">
404<Text id="133">50.000</Text>
405</th>
406<th width="66">
407<Text id="134">8.000.000</Text>
408</th>
409<th width="85">
410<Text id="135">833.000</Text>
411</th>
412</tr>
413</TableContent>
414</Table>
415<Text id="136">Para determinar el precio por página se multiplican los costos salariales por hora totales (que dependerán de cada caso) por la segunda columna del Cuadro <CrossRef target="Table" ref="table_scanning_cost"/>. En la tercera columna se indica, a título de ejemplo, el precio de escanear por cuenta propia suponiendo que se pague un sueldo de 4 dólares/hora, excluidos los gastos de inversión.</Text>
416<Text id="137">Estos cálculos presuponen que se procesa un número de páginas suficiente para justificar la adquisición de un escáner. En las tres últimas columnas del Cuadro <CrossRef target="Table" ref="table_scanning_cost"/> se ofrece información sobre los costos derivados del propio escáner. En la primera de ellas se indica el precio de adquisición de la máquina, en la siguiente el tiempo de vida útil que se le supone y en la última el número de páginas que podrían subcontratarse por el precio del escáner, contando una tarifa de 0,06 dólares/página.</Text>
417<Text id="138">Hay, desde luego, muchos otros factores que influyen en la decisión de adquirir o no un escáner: la disponibilidad de fondos suficientes, la necesidad de reducir al mínimo la dependencia para con terceras partes, el deseo de crear capacidades a escala local, la obligación que imponen las bibliotecas de escanear los libros en la propia localidad y no transportarlos, etc.</Text>
418<Text id="139">Las cifras del Cuadro 1 dan una idea aproximada del número de páginas necesario para justificar distintos niveles de inversión. No es frecuente que una institución u otra entidad necesite escanear 800.000 páginas. Con tales niveles de trabajo se plantean cuestiones más complejas que no vamos a tratar en estas líneas, como el mantenimiento del equipo o la posibilidad de recuperar gastos ofreciendo a terceros el servicio de escaneado.</Text>
419<Text id="140">Es tentador contemplar el desarrollo de la capacidad de escaneado como una actividad comercial, sobre todo en los países en desarrollo. Pero conviene tener muy en cuenta que no se trata de un proceso repetitivo. Una vez escaneado un documento, el cliente nunca cursará un nuevo pedido para repetir la operación, por muy buena que haya sido su relación de trabajo con la empresa. Desde un punto de vista comercial, se requiere un enorme trabajo de publicidad y comercialización. Desaconsejamos a cualquier ONG u otras organizaciones sin fines de lucro que se aventuren en este terreno sin haber procedido a ensayos exhaustivos y elaborado un minucioso plan comercial.</Text>
420<Text id="141">En conclusión, para escanear entre 10.000 y 50.000 páginas conviene plantearse la posibilidad de subcontratar el trabajo. Los cerca de 6.000 dólares que cuesta un escáner profesional de gama baja sólo se amortizan a partir de un volumen superior a las 100.000 páginas. Otra posible solución consiste en asociarse con otras instituciones (ONG o bibliotecas, por ejemplo) para adquirir colectivamente un escáner de ese tipo.</Text>
421</Content>
422</Subsection>
423</Content>
424</Section>
425</Content>
426</Chapter>
427<Chapter id="ocr">
428<Title>
429<Text id="142">OCR: reconocimiento óptico de caracteres</Text>
430</Title>
431<Content>
432<Text id="143">Los sistemas de reconocimiento óptico de caracteres (OCR) transforman en texto una imagen escaneada. El punto de partida es una imagen digitalizada en formato TIFF o Bitmap, de la mayor nitidez y calidad posibles, y el resultado final un archivo de texto (generalmente en formato RTF o Word) o para la Web (formato HTML). </Text>
433<Text id="144">El proceso de conversión de un documento impreso en un archivo informático comprende las siguientes etapas:</Text>
434<BulletList>
435<Bullet>
436<Text id="145">escaneado;</Text>
437</Bullet>
438<Bullet>
439<Text id="146">análisis de la compaginación;</Text>
440</Bullet>
441<Bullet>
442<Text id="147">reconocimiento óptico de caracteres;</Text>
443</Bullet>
444<Bullet>
445<Text id="148">escaneado de ilustraciones y cuadros.</Text>
446</Bullet>
447</BulletList>
448<Text id="149">A lo largo del proceso se efectúan controles de calidad de los archivos resultantes y se memorizan éstos en el formato apropiado.</Text>
449<Text id="150">El mercado ofrece muchos y buenos programas de OCR, con precios que oscilan entre los 100 y los 400 dólares<FootnoteRef id="2"/>. Entre muchos otros ejemplos cabe citar los siguientes:</Text>
450<BulletList>
451<Bullet>
452<Text id="151"><i>Read-Iris</i> (http://www.readiris.com/)</Text>
453</Bullet>
454<Bullet>
455<Text id="152"><i>Omnipage</i> (http://www.omnipage.com/)</Text>
456</Bullet>
457<Bullet>
458<Text id="153"><i>Fine-Reader</i> (http://www.finereader.com/)</Text>
459</Bullet>
460</BulletList>
461<Text id="154">En los sitios Web de los fabricantes se ofrece toda la información necesaria, comprendida la lista de distribuidores locales. Los autores, de acuerdo con su experiencia,  consideran que los programas de más fácil manejo son Fine-Reader y Omnipage. El primero, que cuesta unos 100 dólares, es el más barato y ofrece no sólo gran flexibilidad sino también el mayor repertorio de idiomas.</Text>
462<Text id="155">Es necesario decidir si se efectúan los procesos de escaneado y OCR internamente o se subcontratan a una empresa especializada. Hacerlo por cuenta propia exige disponer de un escáner, de un programa de OCR, de conocimientos técnicos en la materia y de personal muy motivado y atento a los requisitos de calidad.</Text>
463<Section id="the_ocr_process">
464<Title>
465<Text id="156">El proceso de OCR</Text>
466</Title>
467<Content>
468<Text id="157">El proceso de OCR difiere según se utilice uno u otro programa de OCR, y cada uno de ellos exige un tiempo considerable de aprendizaje. En el manual de cada programa se exponen todos los detalles relativos al proceso. Hay cuatro aspectos que merecen especial atención: el control de calidad, los cuadros, las ilustraciones y los textos especiales como fórmulas, caracteres extranjeros, etc.</Text>
469<Subsection id="quality_control_1">
470<Title>
471<Text id="158">Control de calidad</Text>
472</Title>
473<Content>
474<Text id="159">Es preciso insistir en la importancia del control de calidad. Lo ideal es que esos controles estén a cargo de personas cuya lengua materna sea el idioma en que está escrito el documento o de gente con un excelente dominio del mismo. El perfil idóneo es el de alguien con estudios universitarios o secundarios. Conviene saber además que en este tipo de tarea los jóvenes suelen mantener un nivel de concentración superior.</Text>
475<Text id="160">Normalmente hay cuatro controles de calidad.</Text>
476<Text id="161">El primero se efectúa al mismo tiempo que el proceso de OCR. Cada programa tiene un verificador ortográfico incorporado que señala todas las posibles letras erróneas y muestra la imagen de la palabra entera para facilitar la comprobación y eventual corrección del error.</Text>
477<Text id="162">El segundo es un control general del texto una vez finalizado el proceso de OCR. Uno de los errores más frecuentes es la omisión de una página, un párrafo, los títulos de un capítulo, etc. Debe llevarse a cabo un repaso general para comprobar que no falta ninguna página. Es esencial asimismo comprobar los títulos, los encabezamientos de capítulo, los párrafos y los cuadros.</Text>
478<Text id="163">El tercer control es el ortográfico, para el que en general se utiliza Word de Microsoft porque su diccionario suele ser más completo que el de los programas de OCR. Importando el libro a un archivo Word y realizando un control ortográfico con este programa se puede detectar y corregir un mayor número de errores. Es indispensable añadir al verificador ortográfico cualquier palabra especialmente difícil o susceptible de generar una señal de error, así como los términos científicos y técnicos que abunden en el tipo de publicación con que se esté trabajando. </Text>
479<Text id="164">Finalmente, otra persona debe efectuar un último control del documento finalizado, tomando al azar fragmentos del libro completo y cerciorándose de que no haya errores o problemas con los cuadros, las ilustraciones, las leyendas o el aspecto general del documento. Sólo después de este último control puede considerarse que el libro está listo para su difusión electrónica.</Text>
480</Content>
481</Subsection>
482<Subsection id="tables">
483<Title>
484<Text id="165">Cuadros</Text>
485</Title>
486<Content>
487<Text id="166">Los cuadros suelen plantear dificultades a los programas de OCR. Controlar su contenido es además una labor ardua: contienen muchos dígitos, a veces con puntos y comas, y es fácil que las cifras acaben colocadas en la casilla equivocada. Es una tarea que exige concentración, dedicación, un intenso trabajo de relectura, comprobaciones minuciosas y un buen control de calidad. Hay básicamente tres formas distintas de proceder.</Text>
488<Text id="167">La primera consiste simplemente en escanear los cuadros como si fueran imágenes en blanco y negro e insertarlos con este formato en el lugar correspondiente del documento. Esta es la solución más sencilla, pues no genera errores y no exige más tiempo que el necesario para crear la imagen. Pero consume más memoria que las dos restantes, y además la resolución obtenida no siempre basta para trabajar en la computadora con cuadros de gran tamaño: si se reduce todo el cuadro a los límites de la pantalla, la resolución es demasiado pequeña; si por el contrario el cuadro desborda la pantalla, el usuario debe desplazarse para ver todas las columnas y filas, con lo que pierde visión de conjunto.</Text>
489<Text id="168">El segundo método es la copia manual: crear un nuevo cuadro con el mismo número de filas y columnas y copiar los valores correspondientes a cada casilla, carácter por carácter.</Text>
490<Text id="169">La tercera solución consiste en someter el cuadro al proceso de OCR. Aunque este procedimiento ahorra tiempo en comparación con el manual, la probabilidad de error es más alta. A veces las columnas quedan fusionadas, o el programa es incapaz de reconocer los puntos y comas.</Text>
491</Content>
492</Subsection>
493<Subsection id="images">
494<Title>
495<Text id="170">Ilustraciones</Text>
496</Title>
497<Content>
498<Text id="171">Las ilustraciones contenidas en una publicación corresponden en general a tres grandes tipos de imagen:</Text>
499<BulletList>
500<Bullet>
501<Text id="172">ilustraciones en blanco y negro, sin tonos intermedios;</Text>
502</Bullet>
503<Bullet>
504<Text id="173">fotografías en blanco y negro;</Text>
505</Bullet>
506<Bullet>
507<Text id="174">fotografías en color.</Text>
508</Bullet>
509</BulletList>
510<Text id="175">Las ilustraciones en blanco y negro deben escanearse en modo “dibujos de líneas simples” y guardarse en formato GIF o PNG. Para las fotografías en blanco y negro conviene utilizar el modo “escala de grises” y guardar el resultado en archivos GIF o JPEG. En cuanto a las fotografías en color, es preciso escanearlas en modo “color” y guardarlas en archivos JPEG. En términos generales, el formato JPEG de calidad media ofrece una resolución suficiente.</Text>
511<Text id="176">Las ilustraciones suelen consumir gran parte del espacio que ocupa una colección en el disco duro o el CD-ROM. De ahí la importancia de lograr para cada imagen la mayor claridad y visibilidad junto con el menor tamaño posible. Para ahorrar espacio cabe la posibilidad de prescindir de algunas imágenes o de todas ellas cuando no sean necesarias para entender el texto.</Text>
512<Text id="177">Las ilustraciones deben escanearse por separado, una por una. Para denominar los archivos gráficos recomendamos un nombre compuesto por los cinco o seis primeros caracteres utilizados para designar el documento seguidos del número de la página en que se encuentre la ilustración. Una alternativa, suponiendo que haya un directorio para cada documento, consiste simplemente en utilizar la letra <i>p</i> [ <i>picture</i> ] seguida del número de la página. Cuando en una misma página haya varias ilustraciones, bastará con añadir una letra <i>a, b, c ...</i> al nombre del archivo. Por ejemplo, a una imagen JPEG que aparezca en la página 36 de la antedicha publicación <i>u7548e</i> corresponderá un archivo llamado <i>u7548e36.jpg</i> o <i>p36.jpg.</i></Text>
513<Text id="178">Una vez escaneadas las imágenes, se pueden aplicar programas de procesamiento por lotes para modificar las dimensiones o mejorar la definición de todas las imágenes a la vez.</Text>
514</Content>
515</Subsection>
516<Subsection id="specialized_material">
517<Title>
518<Text id="179">Textos con características especiales</Text>
519</Title>
520<Content>
521<Text id="180">Muchos documentos contienen elementos que conviene tratar aparte (caracteres especiales, fórmulas, páginas especialmente dificultosas, etc.). Los caracteres especiales suelen provenir de idiomas distintos u ostentar marcas diacríticas. En tal caso hay que seleccionar el idioma del que se trate en la opción “idioma” del programa OCR. Las fórmulas deberán reproducirse manualmente, lo que a veces es imposible con un programa de OCR, en cuyo caso hay que recurrir a un procesador de texto como Word de Microsoft. Las páginas de las que no pueda obtenerse una imagen nítida, ya sea por la complejidad del texto o por el mal estado en que se encuentren, deberán ser reproducidas manualmente.</Text>
522</Content>
523</Subsection>
524</Content>
525</Section>
526<Section id="productivity_and_resources_1">
527<Title>
528<Text id="181">Productividad y recursos necesarios</Text>
529</Title>
530<Content>
531<Text id="182">Como hemos dicho, no hay que subestimar la dificultad del proceso de OCR. Aunque conviene estudiar separadamente las alternativas económicas y prácticas del proceso de escaneado y del de OCR, ambos plantean interrogantes parecidos: la inversión necesaria en computadoras, la disponibilidad de personal y de capacidad de gestión, la formación del personal, los costos salariales, el número total de páginas que deben tratarse y las posibilidades de subcontratar el trabajo a terceros.</Text>
532<Text id="183">Esta sección se basa en la experiencia de los autores en el trabajo de OCR en Bélgica, Rumania y la India. Todos los ejemplos, cálculos y cifras que aquí se exponen corresponden a una situación ordinaria: documentos de dificultad normal (con cuadros e ilustraciones) como los que pueden encontrarse en la mayoría de los archivos o bibliotecas, resultados de muy buena calidad y trabajo a medio o largo plazo.</Text>
533<Subsection id="intensive_ocr">
534<Title>
535<Text id="184">Trabajo intensivo de OCR</Text>
536</Title>
537<Content>
538<Text id="185">El OCR es un proceso difícil, que exige gran concentración y destreza. Antes de alcanzar un nivel óptimo de rendimiento y calidad, el operador necesita un periodo de aprendizaje de unas seis semanas.</Text>
539<Text id="186">Los mejores resultados y la productividad más alta se consiguen por lo general durante las primeras horas de trabajo. Al cabo de tres horas la productividad baja con rapidez, quizá hasta un 50% del nivel inicial. Al cabo de seis horas, la mayoría de la gente se encuentra muy cansada.</Text>
540<Text id="187">Algo parecido ocurre durante las primeras semanas de trabajo, en las que todo el mundo alcanza una productividad bastante elevada. Posteriormente, sin embargo, hasta dos tercios de los operadores de OCR empiezan a sentirse aburridos y descontentos. A la larga esas personas acaban abandonando el trabajo o rindiendo poco en términos de calidad y productividad. Incluso los que superan el periodo crítico de tres a cinco semanas y se integran en el equipo de trabajo suelen renunciar y partir en busca de una mejor ocupación al cabo de 6 a 12 meses.</Text>
541<Text id="188">Las observaciones sobre el personal que formulamos en la sección <CrossRef target="Section" ref="the_ocr_process"/> son especialmente aplicables al trabajo intensivo de OCR. Los controles de calidad resultan mejores cuando corren a cargo de hablantes nativos o profundos conocedores del idioma en cuestión. En general los jóvenes pueden mantener un nivel de concentración superior al de las personas mayores en las labores de OCR. La experiencia demuestra que las personas de entre 18 y 23 años de edad tienden a adaptarse mejor a ese cometido que las mayores de 25 años.</Text>
542<Text id="189">Por último, considerando lo aburrido que puede resultar el trabajo de OCR, la motivación y un constante prurito de calidad son elementos de excepcional importancia.</Text>
543<Text id="190">De todo lo dicho se desprenden las siguientes directrices generales sobre el proceso de OCR:</Text>
544<BulletList>
545<Bullet>
546<Text id="191">Los jóvenes de entre 18 y 25 años de edad son los más aptos para este tipo de trabajo. </Text>
547</Bullet>
548<Bullet>
549<Text id="192">Dado que las primeras horas son siempre las más productivas, conviene organizar turnos de trabajo a tiempo parcial o, en su defecto, encomendar la labor a jornada completa a las personas más motivadas y con mayor capacidad de concentración.</Text>
550</Bullet>
551<Bullet>
552<Text id="193">Después de tres a cinco semanas de actividad, dos tercios de los operadores tienden a renunciar o a sentirse hastiados. Ello se traduce en un descenso de la calidad y la productividad en las últimas semanas.</Text>
553</Bullet>
554<Bullet>
555<Text id="194">Es preciso un suministro periódico de trabajo para justificar la necesaria formación del personal, mantener la concentración y conservar alta la moral del equipo.</Text>
556</Bullet>
557</BulletList>
558</Content>
559</Subsection>
560<Subsection id="achievable_productivity">
561<Title>
562<Text id="195">Objetivos asequibles de productividad</Text>
563</Title>
564<Content>
565<Table id="table_ocr_productivity">
566<Title>
567<Text id="196">Productividad en el proceso de OCR</Text>
568</Title>
569<TableContent>
570<tr>
571<th width="161"/>
572<th width="142">
573<Text id="197">Horas de trabajo/día</Text>
574</th>
575<th width="123">
576<Text id="198">Páginas/día</Text>
577</th>
578<th width="104">
579<Text id="199">Páginas/mes</Text>
580</th>
581</tr>
582<tr>
583<th width="161">
584<Text id="200">Formación inicial (seis semanas)</Text>
585</th>
586<th width="142">
587<Text id="201">3</Text>
588</th>
589<th width="123">
590<Text id="202">6</Text>
591</th>
592<th width="104">
593<Text id="203">120</Text>
594</th>
595</tr>
596<tr>
597<th width="161">
598<Text id="204">Nivel óptimo de productividad</Text>
599</th>
600<th width="142">
601<Text id="205">3</Text>
602</th>
603<th width="123">
604<Text id="206">9</Text>
605</th>
606<th width="104">
607<Text id="207">150 a 200</Text>
608</th>
609</tr>
610<tr>
611<th width="161"> </th>
612<th width="142">
613<Text id="208">7</Text>
614</th>
615<th width="123">
616<Text id="209">28</Text>
617</th>
618<th width="104">
619<Text id="210">500 a 600</Text>
620</th>
621</tr>
622</TableContent>
623</Table>
624<Text id="211">En el Cuadro <CrossRef target="Table" ref="table_ocr_productivity"/> se presentan las cifras más frecuentes de productividad en el trabajo de OCR. Teniendo en cuenta que puede tratarse de documentos de todos los tamaños y niveles de calidad, estas cifras parten del supuesto de que el conjunto de documentos contiene un número promedio de ilustraciones y cuadros (por ejemplo una ilustración y un cuadro de 5x5 cada ocho páginas), que las ilustraciones son de calidad entre media y alta (recordemos que ello depende de la calidad del escaneado) y que los operadores de OCR dominan el idioma en que está escrito el documento.</Text>
625<Text id="212">En el Cuadro <CrossRef target="Table" ref="table_ocr_productivity"/> se distingue entre las estadísticas de personas en periodo de formación y las de quienes han alcanzado su nivel óptimo de productividad. Si un miembro del personal administrativo dedicara tres horas diarias al trabajo de OCR, su rendimiento sería de entre 180 y 200 páginas al mes. Un operador a jornada completa bien formado, con gran capacidad de concentración y escrupulosa atención a los criterios de calidad, en cambio, podría alcanzar una productividad de entre 500 y 600 páginas al mes.</Text>
626<Text id="213">Sin embargo, con páginas de especial dificultad y escasa calidad, con abundantes cuadros o columnas, se obtienen cifras muy inferiores (quizá de 300 a 400 páginas mensuales a jornada completa).</Text>
627<Text id="214">Supongamos que el costo salarial de un operador a jornada completa muy aplicado y motivado asciende a 400 dólares mensuales, y que los gastos generales (gastos de gestión, computadoras, espacio de oficina, instalaciones, etc.) suponen otros 300 a 400 dólares mensuales por persona. En tal caso, el costo del proceso de OCR viene a ser de 1,2 a 1,6 dólares por página. Si además se toma en cuenta el periodo de formación, el volumen total, el lapso de tiempo considerado y los eventuales costes de la suspensión de las operaciones cuando falte el trabajo, el costo asciende a un valor entre 1,5 y 2,5 dólares por página.</Text>
628<Text id="215">Conviene comparar los costos del proceso de OCR efectuado por cuenta propia con los de la subcontratación a una empresa especializada. Estas empresas suelen cobrar entre 1,5 y 4 dólares por página, incluyendo las ilustraciones y los cuadros. Human Info/Simple Word, que posee una unidad de este tipo en Rumania, aplica tarifas especiales para las organizaciones humanitarias sin fines de lucro (entre 1,2 y 2 dólares por página). Puede solicitarse información o asesoramiento escribiéndonos a la dirección:[email protected].</Text>
629</Content>
630</Subsection>
631</Content>
632</Section>
633<Section id="alternatives_to_ocr">
634<Title>
635<Text id="216">Alternativas al proceso de OCR</Text>
636</Title>
637<Content>
638<Text id="217">En las siguientes líneas exponemos dos posibles alternativas al OCR.</Text>
639<Subsection id="manual_retyping">
640<Title>
641<Text id="218">Mecanografiado manual</Text>
642</Title>
643<Content>
644<Text id="219">La primera posibilidad, que además elimina buena parte del escaneado, consiste en mecanografiar de nuevo los documentos con un programa de tratamiento de texto. Utilizando este procedimiento hay que escanear únicamente las ilustraciones y la cubierta (y no las restantes páginas), lo que hace innecesario disponer de un escáner y un programa de OCR potentes. </Text>
645<Text id="220">No es preciso que los operadores entiendan el texto. Sólo tienen que ser buenos mecanógrafos y reproducir exactamente lo que ven. Dado que este proceso suele generar errores, a menudo se utiliza el doble mecanografiado para detectarlos y corregirlos. Este método requiere que dos personas mecanografíen independientemente el mismo documento, después de lo cual un operador provisto del texto original compara ambas versiones electrónicas palabra por palabra, con ayuda de un programa informático especial. Se parte de la premisa de que si una misma palabra ha sido escrita dos veces por separado de la misma manera, será correcta. Pero ello no siempre es así, y cuando se quiere trabajar con la máxima fiabilidad se recurre al triple mecanografiado.</Text>
646<Text id="221">Teniendo en cuenta que el uso de un programa de OCR entraña el de computadoras de gran potencia, la ventaja básica de este método es que prescinde del OCR y por lo tanto permite utilizar computadoras más antiguas, sencillas o de segunda mano, lo que supone un ahorro considerable. Además, esta labor requiere trabajadores menos especializados. En cuanto a sus inconvenientes, éstos residen en el periodo de formación (de al menos dos meses) que se necesita y en la abundancia de errores que suelen darse con un proceso de mecanografiado único, lo que obliga a trabajar por duplicado o triplicado.</Text>
647<Text id="222">Los costos de este procedimiento dependen exclusivamente del nivel salarial. Los mecanógrafos de países en desarrollo suelen cobrar unos 150 dólares mensuales. Su productividad oscila entre 20 y 30 páginas diarias, lo que equivale a 400 páginas mensuales, comprendidas las ilustraciones. Suponiendo que se trabaje por duplicado, los costos salariales suman en total 300 dólares al mes, sin contar los gastos generales.</Text>
648</Content>
649</Subsection>
650<Subsection id="image_files">
651<Title>
652<Text id="223">Archivos gráficos</Text>
653</Title>
654<Content>
655<Text id="224">Una alternativa sumamente barata al proceso de OCR consiste en utilizar simplemente una versión gráfica en PDF de las páginas del documento, lo que reduce los costos a unos 0,1 dólares por página (una pequeña fracción de lo que costaría un proceso de OCR).</Text>
656<Text id="225">Una vez concluido el escaneado y creados los archivos TIFF, se utiliza un convertidor automático (en general Acrobat o Photoshop de Adobe) para convertir en formato PDF todos los archivos TIFF correspondientes a las páginas del libro.</Text>
657<Text id="226">El problema es que en esos archivos no se pueden efectuar búsquedas y que además son bastante pesados (por lo general 50 Kb por página, con un margen de variación del 20% según la calidad del archivo TIFF original).</Text>
658<Text id="227">La descarga de un archivo gráfico PDF es un proceso lento, a veces imposible o de precio prohibitivo en los países en desarrollo. Esos archivos caben rara vez en un disquete y no admiten operaciones de manipulación del texto como la de “cortar y pegar”.</Text>
659<Text id="228">Sólo se optará por esta solución cuando se carezca del presupuesto necesario para un proceso de OCR o cuando se trate de documentos destinados a un público poco numeroso y provisto de una conexión a Internet de bajo costo y alta velocidad.</Text>
660</Content>
661</Subsection>
662</Content>
663</Section>
664<Section id="combining_scanning_and_ocr">
665<Title>
666<Text id="229">Combinación de escaneado y OCR</Text>
667</Title>
668<Content>
669<Text id="230">La mayoría de los programas de OCR pueden escanear una página y efectuar inmediatamente el reconocimiento óptico, a condición de que el escáner esté conectado directamente a la computadora que ejecuta el programa. Aunque escanear y efectuar el OCR página a página es un método razonable cuando se trabaja con pocos documentos, resulta muy largo para trabajos más voluminosos y continuos.</Text>
670<Text id="231">Esta solución es adecuada para cantidades entre 100 a 150 página al mes. Para tratar volúmenes superiores, en cambio, es más rápido y eficaz escanear en primer lugar el documento y aplicar después el proceso de OCR a todas las páginas de una sola vez.</Text>
671</Content>
672</Section>
673</Content>
674</Chapter>
675<Chapter id="three_examples">
676<Title>
677<Text id="232">De 1.000 a 100.000 páginas en tres ejemplos</Text>
678</Title>
679<Content>
680<Section id="typical_small_collection">
681<Title>
682<Text id="233">Una colección de pequeñas dimensiones: de 500 a 1.000 páginas</Text>
683</Title>
684<Content>
685<Text id="234">La mayoría de las ONG tienen un volumen de 500 a 1.000 páginas por escanear. Si disponen de voluntarios motivados pueden asumir por cuenta propia el proceso de OCR.</Text>
686<Part id="scanning">
687<Title>
688<Text id="235">Escaneado</Text>
689</Title>
690<Content>
691<Text id="236">El primer paso consiste en escanear las publicaciones para generar un archivo TIFF de alta calidad para cada página y una imagen bitmap independiente (ya sea de dibujo de líneas simples, escala de grises o color) para cada ilustración. Suponiendo que deban escanearse 1.000 páginas, ello puede equivaler a cerca de un mes de trabajo a tiempo parcial (sólo para el escaneado). Los archivos TIFF ocuparían entre 60 y 80 Mb de espacio en el disco duro, por lo que es aconsejable utilizar un CD-ROM para dar cabida a esos archivos. Un escáner plano de precio reducido (entre 100 y 300 dólares) basta para realizar ese trabajo, del que puede ocuparse un voluntario después de la jornada laboral o durante los fines de semana, ya sea en la oficina o en casa.</Text>
692</Content>
693</Part>
694<Part id="ocr">
695<Title>
696<Text id="237">OCR</Text>
697</Title>
698<Content>
699<Text id="238">La segunda etapa es la del proceso de OCR, que se encomendará a otro voluntario, o equipo de voluntarios, con buenos conocimientos lingÌísticos y de corrección ortográfica. Cabe la posibilidad de repartir los archivos TIFF entre varias computadoras o bien de utilizar una sola máquina para la totalidad del trabajo. Por lo general se requieren entre cinco y seis meses de trabajo a tiempo parcial (a razón de 20 horas semanales, por ejemplo) para convertir 1.000 páginas en documentos impecables en formato Word o HTML.</Text>
700</Content>
701</Part>
702<Part id="outsourcing">
703<Title>
704<Text id="239">Subcontratación</Text>
705</Title>
706<Content>
707<Text id="240">Una posibilidad alternativa es la de subcontratar los procesos de escaneado y OCR. La conversión de todos los documentos en archivos Word y HTML impecables costaría probablemente entre 1.500 y 2.000 dólares.</Text>
708</Content>
709</Part>
710</Content>
711</Section>
712<Section id="all_publications_from_an_organization">
713<Title>
714<Text id="241">Todas las publicaciones de una organización: 5.000 páginas</Text>
715</Title>
716<Content>
717<Text id="242">Los archivos de muchas organizaciones de mayor tamaño pueden contener unas 5.000 páginas de libros (en catálogo o agotados), revistas, boletines, documentos, etc.</Text>
718<Part id="scanning_1">
719<Title>
720<Text id="243">Escaneado</Text>
721</Title>
722<Content>
723<Text id="244">Se trata de un volumen excesivo para un escáner plano, lo que deja dos opciones: subcontratar el trabajo (contando unos 400 dólares por 5.000 páginas) o adquirir un escáner con alimentador de papel (aproximadamente 900 dólares). Otra alternativa es que varias instituciones u ONG adquieran conjuntamente un escáner más caro (6.000 dólares, divididos por el número de participantes). Las 5.000 páginas en formato TIFF ocuparían entre 300 y 400 Mb en el disco duro. Señalemos de nuevo la conveniencia de utilizar un CD-ROM para guardar esos archivos.</Text>
724</Content>
725</Part>
726<Part id="ocr_1">
727<Title>
728<Text id="245">OCR</Text>
729</Title>
730<Content>
731<Text id="246">A continuación hay que ocuparse del proceso de OCR, que puede encargarse a otro voluntario, o equipo de voluntarios, diestro en técnicas de OCR y corrección ortográfica. Como en el caso anterior, es posible utilizar varias computadoras o una sola para esta tarea. La conversión de 5.000 páginas en archivos Word o HTML impecables exigiría entre 25 y 30 meses de trabajo a tiempo parcial (a razón de 20 horas semanales), lo que en la práctica descarta el empleo exclusivo de voluntarios porque lleva demasiado tiempo y requiere un uso excesivo de la computadora. Para concluir el trabajo en un plazo razonable y con un buen nivel de calidad habría que pagar a los voluntarios, supervisar su rendimiento y la calidad de su labor, proporcionarles espacio adecuado, etc.</Text>
732<Text id="247">Una posibilidad alternativa es la de crear archivos gráficos PDF, que ocuparían entre 300 y 400 Mb de memoria y resultarían más difíciles de descargar de Internet.</Text>
733</Content>
734</Part>
735<Part id="outsourcing_1">
736<Title>
737<Text id="248">Subcontratación</Text>
738</Title>
739<Content>
740<Text id="249">Otra alternativa es la de subcontratar los procesos de escaneado y OCR, lo que costaría probablemente entre 7.500 y 10.000 dólares.</Text>
741</Content>
742</Part>
743</Content>
744</Section>
745<Section id="a_small_library">
746<Title>
747<Text id="250">Una pequeña biblioteca: 100.000 páginas</Text>
748</Title>
749<Content>
750<Text id="251">Otras entidades de mayor envergadura, universidades, gobiernos o bibliotecas especializadas podrían tener una biblioteca entera por digitalizar, algo así como unas 100.000 páginas. Lo primero que se debe tener en cuenta es la situación de las publicaciones en materia de derecho de autor: bien están incluidas en el dominio público o bien hay que obtener permiso explícito de los titulares de los derechos para poder digitalizarlas. Conviene cerciorarse asimismo de que los documentos no existen ya en formato electrónico.</Text>
751<Part id="scanning_2">
752<Title>
753<Text id="252">Escaneado</Text>
754</Title>
755<Content>
756<Text id="253">100.000 páginas son demasiadas para un escáner con alimentador de papel, por lo que caben dos opciones: subcontratar el trabajo (a unos 8.000 dólares las 100.000 páginas) o adquirir, conjuntamente con otras instituciones u ONG, un equipo de mayor calidad y precio (6.000 dólares, divididos entre los participantes). 100.000 páginas en formato TIFF ocuparán entre 6 y 8 Gb en el disco duro. Lo ideal es crear copias de esos archivos en discos CD-ROM.</Text>
757</Content>
758</Part>
759<Part id="ocr_2">
760<Title>
761<Text id="254">OCR</Text>
762</Title>
763<Content>
764<Text id="255">La segunda etapa es el proceso de OCR (en el caso de documentos menos utilizados, también cabe la posibilidad de crear archivos PDF). Convertir 100.000 páginas en archivos Word o HTML impecables llevaría entre 500 y 700 meses de trabajo a tiempo parcial, lo que a todas luces descarta el uso de voluntarios para esta tarea, más propia de profesionales.</Text>
765<Text id="256">Para ahorrar costos se pueden convertir en PDF algunas de las páginas menos utilizadas (digamos el 80%, u 80.000 páginas), reservando los formatos Word o HTML para las 20.000 páginas restantes. Los archivos PDF ocuparían entre 4 y 6 Gb de espacio y no sería fácil descargarlos de Internet, pero en cambio saldrían baratos si los creara una empresa especializada (sólo 0,2 dólares por página, lo que supone un costo total de 16.000 dólares). Utilizando voluntarios para crear 80.000 archivos PDF a partir de archivos TIFF mediante programas de conversión como Acrobat de Adobe se precisarían 10 a 20 meses de trabajo a tiempo parcial con una computadora de gran potencia.</Text>
766</Content>
767</Part>
768<Part id="outsourcing_2">
769<Title>
770<Text id="257">Subcontratación</Text>
771</Title>
772<Content>
773<Text id="258">Una posible alternativa es la de subcontratar el trabajo. Suponiendo que se mantuviera la mencionada proporción del 80% en PDF y el 20% en HTML, los archivos PDF costarían unos 16.000 dólares y los archivos HTML entre 30.000 y 40.000 dólares, con lo que el presupuesto total ascendería a unos 50.000 dólares. Si se sometieran todos los documentos a un proceso de OCR, convertir toda la colección en archivos Word y HTML impecables costaría entre 150.000 y 200.000 dólares.</Text>
774</Content>
775</Part>
776</Content>
777</Section>
778</Content>
779</Chapter>
780<Chapter id="creating_an_electronic_collection">
781<Title>
782<Text id="259">Creación de una colección digital</Text>
783</Title>
784<Content>
785<Text id="260">Hay tres aspectos importantes que conviene tener en cuenta a la hora de crear una colección digital. En primer lugar es preciso organizarla. A mayor volumen de contenido, mayor necesidad hay de índices y sistemas potentes de búsqueda, indispensables cuando la colección supera las 3.000 a 5.000 páginas. En segundo lugar, deben prevalecer las necesidades del usuario final. Es preciso identificar los grupos que usarán la colección y establecer un proceso de consulta periódica con ellos. En tercer lugar, el presupuesto disponible determinará qué tanto se puede hacer.</Text>
786<Section id="methods_of_collection_building">
787<Title>
788<Text id="261">Métodos para crear colecciones</Text>
789</Title>
790<Content>
791<Text id="262">Abundan los ejemplos de excelentes CD-ROM elaborados siguiendo el modelo de una página Web, en la que por medio de hipervínculos se insertan y enlazan entre sí documentos en formato HTML, PDF o Word. El uso de hipervínculos, marcos y grupos estructurados, palabras clave, índices y demás elementos de este tipo hace fácil y atractiva la navegación. Estos sistemas funcionan bien con volúmenes de unos cuantos miles de páginas, pero a partir de 3.000 a 5.000 páginas es importante que la colección esté bien organizada y ofrezca un dispositivo de búsqueda potente. Ahí es donde el programa Greenstone puede resultar de utilidad.</Text>
792<Text id="263">El programa Greenstone crea una biblioteca digital estructurada y provista de un poderoso buscador y un mecanismo de recuperación. Es posible indexar hasta 150,000 páginas en un solo CD-ROM, que además puede funcionar como servidor de Internet. Greenstone es un software de código fuente abierto y por lo tanto puede obtenerse gratuitamente bajo las condiciones estipuladas en la Licencia Pública General de GNU.</Text>
793<Text id="264">En los manuales de consulta que acompañan al programa se explica cómo crear colecciones Greenstone. Básicamente existen tres formas de hacerlo.</Text>
794<BulletList>
795<Bullet>
796<Text id="265">Con la interfaz de bibliotecario</Text>
797</Bullet>
798<Bullet>
799<Text id="266">Con el programa de recopilación, también conocido como Colector</Text>
800</Bullet>
801<Bullet>
802<Text id="267">Crearlas desde la línea de comandos.</Text>
803</Bullet>
804</BulletList>
805<Text id="268">El primer método corresponde a la interfaz de bibliotecario descrita la <i>Guía del Usuario de la Biblioteca Digital Greenstone</i> (Capítulo 3, “Creando colecciones Greenstone”). Ésta es una herramienta interactiva para la creación de colecciones que permite reunir grupos de documentos, importar o asignar metadatos e integrarlos a una colección. El segundo método es el subsistema de recopilación descrito en el Capítulo 4 de la <i>Guía del Usuario</i> llamado “Colector”. Se trata de una herramienta que aparece en versiones anteriores y ofrece una alternativa para la creación de colecciones de páginas web u otros documentos, guiándolo a través de una secuencia de páginas Web interactivas que solicitan la información conforme vaya siendo necesaria. No obstante, no proporciona ninguna forma de agregar metadatos a los documentos y, debido a su interfaz Web, no es realmente adecuada para colecciones cuya construcción requiera más de unos cuantos minutos. El tercer método es ejecutar los programas que permiten construir la colección directamente desde la línea de comandos que se encuentra en el Capítulo 1 de la <i>Guía del Programador de la Biblioteca Digital Greenstone</i>. Este método le ofrece una mayor flexibilidad para ejecutar los programas de manera individual y le ahorra los pasos intermedios que quizá fueran deseables para colecciones que requirieran de muchas horas en su construcción. También necesitará leer el Capítulo 2 con el fin de aprovechar todo el poder que le ofrece Greenstone para la creación de colecciones avanzadas.</Text>
806<Text id="269">Existe una cuarta herramienta para crear y editar el material asociado a una colección llamada Organizador. Sin embargo, sus funciones han sido sustituidas por las de la interfaz de bibliotecario mencionada arriba. Este método se describe en el documento titulado <i>Uso del Organizador.</i>
807</Text>
808</Content>
809</Section>
810<Section id="getting_started_in_seven_steps_and_15_minutes">
811<Title>
812<Text id="270">Aprendiendo a usar la interfaz en siete pasos y 15 minutos</Text>
813</Title>
814<Content>
815<Text id="271">La mejor forma de conocer las características y el funcionamiento de la interfaz de bibliotecario  es crear una pequeña biblioteca de prueba. Si dispone de 15 minutos, por favor siga los pasos que se indican a continuación y así usted obtendrá una mejor comprensión de este programa.</Text>
816<Text id="272">Antes de empezar lo primero que deberá hacer es instalar Greenstone (vea la <i>Guía de Instalación</i>), el cual incluye una colección de muestra en formato DLS y sus archivos fuente. <b>Recuerde, si desea añadir a su colección cualquiera de los 140 documentos de la colección DLS completa (en vez de sólo los 11 de esta colección de muestra) también deberá instalar la DLS como una de las bibliotecas Greenstone de muestra.</b> Las colecciones de muestra y DLS se instalarán en <i>C:\Program Files\gsdl\collect</i>, en los subdirectorios <i>demo</i> y <i>dls</i> respectivamente. Si anteriormente usted ya instaló Greenstone sin la colección DLS y desea instalarla ahora, sólo tiene que insertar nuevamente el CD-ROM Greenstone y añadir la colección. No es necesario desinstalar Greenstone primero.</Text>
817<Text id="273">Le sugerimos que imprima las instrucciones que aparecen a continuación y las siga paso a paso :</Text>
818<NumberedList>
819<NumberedItem>
820<Text id="274">Para iniciar la interfaz bajo Windows seleccione <i>Biblioteca Digital Greenstone</i> en la sección de <i>Programas</i> del menú de <i>Inicio</i> y elija <i>Interfaz de Bibliotecario</i>Si en vez de Windows usted está usando UNIX escriba:</Text>
821<CodeLine>cd ~/gsdl</CodeLine>
822<CodeLine>cd gli</CodeLine>
823<CodeLine>./gli.sh</CodeLine>
824<Text id="275">donde <i>~/gsdl</i> es el directorio que contiene su sistema Greenstone.</Text>
825</NumberedItem>
826<NumberedItem>
827<Text id="276">Seleccione <i>Nueva</i> en el menú Archivo que se encuentra en la barra horizontal en la parte superior de la ventana. Dele un título, por ejemplo “Mi primera colección” y escriba su dirección de correo electrónico y una breve descripción de la colección. En el menú “Basar esta colección en” elija “colección de muestra Greenstone” o “Subconjunto de la Biblioteca para el Desarrollo” (DLS por sus siglas en inglés). El efecto es el mismo, ya que ambas colecciones tienen la misma estructura.</Text>
828</NumberedItem>
829<NumberedItem>
830<Text id="277">Añada algunos documentos de la colección de muestra (o de la colección DLS si está instalada) a su nueva colección. Para ello haga doble click en la carpeta de <i>Colecciones Greenstone</i> en el cuadro izquierdo y a continuación haga doble click en la colección que prefiera. Los documentos que hay en ella aparecerán en pantalla. Seleccione uno, arrástrelo y colóquelo en el cuadro derecho. Este panel representa la colección que está construyendo. Elija varios documentos y arrástrelos uno por uno o seleccione y arrastre varios de ellos al mismo tiempo de la manera normal.</Text>
831</NumberedItem>
832<NumberedItem>
833<Text id="278">Agregue algunos de sus propios documentos que no estén en la colección de muestra o en la DLS. Cierre la carpeta de <i>Colecciones Greenstone</i> en el cuadro izquierdo y haga doble click en la carpeta <i>Local Filespace (Espacio de archivo local)</i>Vaya a un directorio que contenga algunos documentos (p. ej. pequeños archivos de Word o HTML) y arrastre unos cuantos de ellos al cuadro derecho para incluirlos en su colección.</Text>
834</NumberedItem>
835<NumberedItem>
836<Text id="279">Añada metadatos a los documentos de su colección. Hasta este momento usted ha estado operando en el panel indicado por medio de la pestaña <i>Gather (Reunir)</i> que se encuentra debajo de la barra de menús horizontal en la parte superior de la ventana. Haga click en la pestaña <i>Enrich (Enriquecer)</i> que se encuentra a un lado. Los documentos de su colección aparecerán ahora en el cuadro del lado izquierdo. Haga click en uno y examine los metadatos asociados a él que se muestran en la tabla <i>“Element ... Value” (Elemento ... Valor)</i> en la parte superior derecha. Use el cuadro que está debajo para cambiar los valores individuales seleccionando el elemento que desee y escogiendo un valor existente de la lista o escribiendo un nuevo valor en el recuadro que se encuentra cerca de la parte inferior. Añada los metadatos <i>Título</i>, <i>Organización</i> y <i>Palabra clave</i> para cada uno de sus documentos que quiera poner en la colección. Después de escribir cada valor usted necesitará hacer click en <i>“Append” (Agregar)</i> para guardar dicho valor.</Text>
837</NumberedItem>
838<NumberedItem>
839<Text id="280">Haga click en la pestaña <i>Create (Crear)</i> para salir del modo <i>Enriquecer</i> y crear su nueva colección. Haga click en el botón <i>Build Collection (Construir la colección)</i> que se encuentra en la parte inferior. Conforme la computadora va construyendo la colección usted recibirá información sobre lo que está haciendo.</Text>
840</NumberedItem>
841<NumberedItem>
842<Text id="281">Una vez que haya terminado haga click en la pestaña <i>Preview (Vista previa)</i> para ver la colección desde el interior de la interfaz de bibliotecario. Revise las listas de <i>títulos de la “a” la “z”</i>, <i>organizaciones</i> y <i>cómo hacer</i> para asegurarse de que sus documentos han sido incluidos en la colección. Asimismo cuando visite su página principal de Greenstone usted encontrará que la colección ha sido instalada como una de las colecciones regulares.</Text>
843</NumberedItem>
844</NumberedList>
845</Content>
846</Section>
847</Content>
848</Chapter>
849<FootnoteList>
850<Footnote id="1">
851<Text id="282">Todos los importes indicados en este documento se expresan en dólares estadounidenses y corresponden a las tarifas vigentes en 2001.</Text>
852</Footnote>
853<Footnote id="2">
854<Text id="283">Recordemos que todos los importes están expresados en dólares estadounidenses de 2001 y corresponden a las tarifas vigentes en 2001.</Text>
855</Footnote>
856</FootnoteList>
857</Manual>
Note: See TracBrowser for help on using the repository browser.