Context Navigation

source: trunk/gsdl-documentation/manuals/xml-source/es/Paper_es.xml@ 14099

Last change on this file since 14099 was 14099, checked in by lh92, 17 years ago
Added the copyright information
Property svn:keywords set to `Author Date Id Revision`
File size: 70.5 KB

Line
1	<?xml version="1.0" encoding="UTF-8"?>
2	<Manual id="Paper" lang="es">
3	<Heading>
4	<Text id="1">BIBLIOTECA DIGITAL GREENSTONE</Text>
5	</Heading>
6	<Title>
7	<Text id="2">DEL PAPEL A LA COLECCIÃN</Text>
8	</Title>
9	<Author>
10	<Text id="3">Dr. Michel Loots, Dan Camarzan e Ian H. Witten</Text>
11	</Author>
12	<Affiliation>
13	<Text id="4">Human Info (BÃ©lgica) <br/>Simple Words (Rumania)<br/>Universidad de Waikato (Nueva Zelanda)</Text>
14	</Affiliation>
15	<SupplementaryText>
16	<Text id="manual_index">De regreso al index</Text>
17	<Text id="top_index">De regreso al top index</Text>
18	</SupplementaryText>
19	<Text id="5">Greenstone es un conjunto de programas y aplicaciones de software especialmente diseÃ±ados para la creaciÃ³n y difusiÃ³n de colecciones documentales digitales, el cual le ofrece una nueva forma de organizar la informaciÃ³n y publicarla en Internet o CD-ROM. Greenstone ha sido elaborado como parte del proyecto de Biblioteca Digital de Nueva Zelanda de la Universidad de Waikato y actualmente es desarrollado y distribuido en colaboraciÃ³n con la UNESCO y la ONG Human Info. Es un software de cÃ³digo abierto disponible en <i>http://greenstone.org</i> bajo los tÃ©rminos y condiciones de la Licencia PÃºblica General de GNU.</Text>
20	<Comment>
21	<Text id="6">Queremos estar seguros que este software trabaje bien para usted. Por favor comunÃquenos cualquier problema que tenga con Ã©l a la siguiente direcciÃ³n: <i>[email protected]</i>
22	</Text>
23	</Comment>
24	<Version>
25	<Text id="7">Greenstone gsdl-2.50</Text>
26	</Version>
27	<Date>
28	<Text id="8">Marzo de 2004</Text>
29	</Date>
30	<Section id="about_this_manual">
31	<Title>
32	<Text id="9">Acerca de este manual</Text>
33	</Title>
34	<Content>
35	<Text id="10">El presente documento explica la forma de crear colecciones en CD-ROM a partir de documentos impresos y expone con detalle los procedimientos y costos de los procesos de escaneado y reconocimiento Ã³ptico de caracteres (OCR por sus siglas en inglÃ©s) para obtener al final un texto con el formato adecuado para los programas Greenstone. TambiÃ©n se describe la forma de crear y editar el material asociado a una colecciÃ³n.</Text>
36	<Text id="11">Hemos procurado formular nuestras explicaciones de la manera mÃ¡s sencilla posible. Cualquier referencia a productos o empresas responde a un propÃ³sito meramente ilustrativo, y no presupone por nuestra parte valoraciÃ³n o preferencia alguna por tales productos en perjuicio de cualquier otro.</Text>
37	</Content>
38	</Section>
39	<Section id="companion_documents">
40	<Title>
41	<Text id="12">Conjunto de documentos</Text>
42	</Title>
43	<Content>
44	<Text id="13">La serie completa de documentos comprende cinco volÃºmenes:</Text>
45	<BulletList>
46	<Bullet>
47	<Text id="14">La GuÃa de InstalaciÃ³n de la Biblioteca Digital Greenstone</Text>
48	</Bullet>
49	<Bullet>
50	<Text id="15">La GuÃa del Usuario de la Biblioteca Digital Greenstone</Text>
51	</Bullet>
52	<Bullet>
53	<Text id="16">La GuÃa del Programador de la Biblioteca Digital Greenstone</Text>
54	</Bullet>
55	<Bullet>
56	<Text id="17">La Biblioteca Digital Greenstone: del Papel a la ColecciÃ³n (<i>el presente documento</i>)</Text>
57	</Bullet>
58	<Bullet>
59	<Text id="18">La Biblioteca Digital Greenstone: uso del Organizador</Text>
60	</Bullet>
61	</BulletList>
62	</Content>
63	</Section>
64	<Section id="copyright">
65	<Title>
66	<Text id="copyright-title">Copyright</Text>
67	</Title>
68	<Content>
69	<Text id="right-text-1">Copyright 2002 2003 2004 2005 2006 2007 by the <Link url="http://www.nzdl.org">New Zealand Digital Library Project</Link> at <Link url="http://www.waikato.ac.nz">the University of Waikato</Link>, New Zealand.</Text>
70	<Text id="right-text-2">Permission is granted to copy, distribute and/or modify this document under the terms of the <Link url="http://www.gnu.org/licenses/fdl.html">GNU Free Documentation License</Link>, Version 1.2 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled <Link url="http://greenstonewiki.cs.waikato.ac.nz/wiki/gsdoc/GNUFDL.html">âGNU Free Documentation License.â</Link></Text>
71	</Content>
72	</Section>
73	<Section id="acknowledgements">
74	<Title>
75	<Text id="19">Agradecimientos</Text>
76	</Title>
77	<Content>
78	<Text id="20">Los capÃtulos dedicados al escaneado, el Organizador y demÃ¡s informaciÃ³n relativa a la creaciÃ³n de colecciones documentales colectivas sin fines de lucro son obra del Dr. Michel Loots , Gerente de la ONG Human Info y de HumanityCD , Dan Camarzan de Simple Words y el equipo que colabora con ambos desde Brasov (Rumania).</Text>
79	<Text id="21">El programa Greenstone es fruto de la colaboraciÃ³n de muchas personas. Rodger McNab y Stefan Boddie son los principales arquitectos y programadores. TambiÃ©n han contribuido David Bainbridge, George Buchanan, Hong Chen, Michael Dewsnip, Katherine Don, Elke Duncker, Carl Gutwin, Geoff Holmes, Dana McKay, John McPherson, Craig Nevill-Manning, Dynal Patel, Gordon Paynter, Bernhard Pfahringer, Todd Reed, Bill Rogers, John Thompson y Stuart Yeates. Otros miembros del proyecto Biblioteca Digital de Nueva Zelanda que proporcionaron asesorÃa y valiosas ideas para la concepciÃ³n del sistema son: Mark Apperley, Sally Jo Cunningham, Matt Jones, Steve Jones, Te Taka Keegan, Michel Loots, Malika Mahoui, Gary Marsden, Dave Nichols y Lloyd Smith. TambiÃ©n queremos dar las gracias a todos aquellos que contribuyeron a los paquetes de programas con licencias GNU incluidos en esta distribuciÃ³n: MG, GDBM, PDFTOHTML, PERL, WGET, WVWARE y XLHTML.</Text>
80	</Content>
81	</Section>
82	<Chapter id="introduction">
83	<Title>
84	<Text id="22">IntroducciÃ³n</Text>
85	</Title>
86	<Content>
87	<Text id="23">Uno de los objetivos de la Biblioteca Digital Greenstone es hacer posible que instituciones como las universidades, organismos del sistema de las Naciones Unidas, organizaciones no gubernamentales, gobiernos y organizaciones no lucrativas puedan crear diversas colecciones de informaciÃ³n y difundirlas por Internet o en forma de CD-ROM.</Text>
88	<Text id="24">El proceso suele comprender los siguientes pasos:</Text>
89	<NumberedList>
90	<NumberedItem>
91	<Text id="25">Determinar los documentos que han de figurar en la colecciÃ³n.</Text>
92	</NumberedItem>
93	<NumberedItem>
94	<Text id="26">Obtener la autorizaciÃ³n de los titulares de los derechos de autor para incluir esos documentos en la biblioteca digital.</Text>
95	</NumberedItem>
96	<NumberedItem>
97	<Text id="27">Escanear y reconocer por medio de OCR los documentos impresos que no estÃ©n disponibles en formato digital.</Text>
98	</NumberedItem>
99	<NumberedItem>
100	<Text id="28">Convertir todos los documentos en un formato que integre texto e imÃ¡genes y se pueda importar a Greenstone, de preferencia en formato HTML o Word de Microsoft, aunque tambiÃ©n se cuenta con plugins que reconocen otros formatos con un nivel variable de precisiÃ³n (vÃ©ase laÂ <i>GuÃa del Usuario de la Biblioteca Digital Greenstone</i>).</Text>
101	</NumberedItem>
102	<NumberedItem>
103	<Text id="29">Etiquetar los capÃtulos, pÃ¡rrafos e imÃ¡genes de los documentos electrÃ³nicos.</Text>
104	</NumberedItem>
105	<NumberedItem>
106	<Text id="30">Dotar a la colecciÃ³n de la estructura idÃ³nea para que funcione como biblioteca digital.</Text>
107	</NumberedItem>
108	<NumberedItem>
109	<Text id="31">Crear la biblioteca digital utilizando los programas Greenstone.</Text>
110	</NumberedItem>
111	<NumberedItem>
112	<Text id="32">Editar y distribuir la colecciÃ³n en CD-ROM y/o distribuirla por Internet.</Text>
113	</NumberedItem>
114	</NumberedList>
115	<Text id="33">Para crear una colecciÃ³n digital es preciso que las publicaciones existan antes en formato digital. Los libros, revistas u otros documentos que sÃ³lo existan en forma impresa deberÃ¡n ser escaneados, procesados y convertidos en un formato que la computadora reconozca (paso iii). El procedimiento mÃ¡s usual para ello es el reconocimiento Ã³ptico de caracteres (OCR por sus siglas en inglÃ©s), aunque a veces se opta por capturar Ãntegramente el texto. De este proceso tratan los capÃtulos 2 a 4 del presente manual.</Text>
116	<Text id="34">El paso v) sirve para que, una vez finalizada la biblioteca, el usuario pueda seleccionar y ver en pantalla por separado las distintas partes de un documento. El paso vi) consiste en asignar atributos a cada documento, como por ejemplo categorÃas temÃ¡ticas, palabras clave y datos bibliogrÃ¡ficos con arreglo a los cuales se pueda ordenar y consultar la biblioteca. Estos pasos se explican en el CapÃtulo 5 del presente manual.</Text>
117	<Text id="35">Asimismo, en el presente manual se tratan numerosas cuestiones relativas al procedimiento editorial y a la creaciÃ³n de una colecciÃ³n digital a partir de documentos impresos. Antes de seguir adelante, el lector debe plantearse las siguientes preguntas:</Text>
118	<BulletList>
119	<Bullet>
120	<Text id="36">Â¿CuÃ¡l es el objetivo de mi colecciÃ³n?</Text>
121	</Bullet>
122	<Bullet>
123	<Text id="37">Â¿A quÃ© grupo de usuarios se dirige?</Text>
124	</Bullet>
125	<Bullet>
126	<Text id="38">Â¿CuÃ¡n grande es dicho grupo? Â¿Tiene dimensiÃ³n local, regional o mundial?</Text>
127	</Bullet>
128	<Bullet>
129	<Text id="39">Â¿CuÃ¡ntos documentos tengo pensado incluir en la colecciÃ³n?</Text>
130	</Bullet>
131	<Bullet>
132	<Text id="40">Â¿CuÃ¡ntas pÃ¡ginas?</Text>
133	</Bullet>
134	<Bullet>
135	<Text id="41">Â¿CuÃ¡nta informaciÃ³n grÃ¡fica contienen?</Text>
136	</Bullet>
137	<Bullet>
138	<Text id="42">Â¿Cabe subdividir la documentaciÃ³n en partes que sean de interÃ©s para un pÃºblico reducido y otras que requieran una difusiÃ³n mÃ¡s amplia?</Text>
139	</Bullet>
140	<Bullet>
141	<Text id="43">Â¿Existen ya en forma electrÃ³nica los documentos?</Text>
142	</Bullet>
143	<Bullet>
144	<Text id="44">De ser asÃ, Â¿en quÃ© formato? (SeÃ±alemos de paso que un archivo PDF no equivale automÃ¡ticamente al texto completo en formato electrÃ³nico, pues a menudo contiene sÃ³lo la imagen de las pÃ¡ginas.)</Text>
145	</Bullet>
146	<Bullet>
147	<Text id="45">Â¿A quÃ© derechos de autor estÃ¡n sujetos los documentos?</Text>
148	</Bullet>
149	<Bullet>
150	<Text id="46">Â¿QuiÃ©n es el titular de los derechos de autor?</Text>
151	</Bullet>
152	<Bullet>
153	<Text id="47">Â¿Hay otras organizaciones que se dirijan al mismo pÃºblico? </Text>
154	</Bullet>
155	<Bullet>
156	<Text id="48">Â¿Tengo deseos de colaborar con otros grupos?</Text>
157	</Bullet>
158	<Bullet>
159	<Text id="49">Â¿De quÃ© presupuesto dispongo para el conjunto del proyecto?</Text>
160	</Bullet>
161	<Bullet>
162	<Text id="50">Â¿De quÃ© recursos humanos (en personas-mes) dispongo para las labores de coordinaciÃ³n, ediciÃ³n, escaneado y programaciÃ³n?</Text>
163	</Bullet>
164	<Bullet>
165	<Text id="51">Â¿De cuÃ¡ntas computadoras dispongo para el proyecto?</Text>
166	</Bullet>
167	<Bullet>
168	<Text id="52">Â¿CuÃ¡ntos CD-ROM tengo pensado distribuir?</Text>
169	</Bullet>
170	<Bullet>
171	<Text id="53">Â¿Voy a distribuirlos gratuitamente o a venderlos?</Text>
172	</Bullet>
173	</BulletList>
174	</Content>
175	</Chapter>
176	<Chapter id="scanners_and_scanning">
177	<Title>
178	<Text id="54">EscÃ¡neres y escaneado</Text>
179	</Title>
180	<Content>
181	<Text id="55">En el proceso de conversiÃ³n de documentos impresos en una colecciÃ³n de biblioteca digital, el primer paso consiste en obtener imÃ¡genes digitales de todas las pÃ¡ginas de todas las publicaciones. La siguiente etapa es la del reconocimiento Ã³ptico de caracteres (OCR), proceso que requiere, para un resultado Ã³ptimo, imÃ¡genes de partida limpias y de buena calidad. Para el proceso de digitalizaciÃ³n se necesita un escÃ¡ner que pueda trabajar a una resoluciÃ³n de 300 ppp (puntos por pulgada). Gran parte del trabajo puede hacerse en blanco y negro, aunque deberÃ¡ utilizarse un escÃ¡ner capaz de obtener imÃ¡genes en color cuando el documento las contenga. La mayorÃa de las cubiertas de libro son en color, por lo que hay que escanearlas en forma de imagen fotogrÃ¡fica en color.</Text>
182	<Section id="scanners">
183	<Title>
184	<Text id="56">EscÃ¡neres</Text>
185	</Title>
186	<Content>
187	<Text id="57">Existen escÃ¡neres de todos los precios, formas y tamaÃ±os, que pueden costar desde 100 dÃ³lares (un escÃ¡ner plano) hasta mÃ¡s de 50.000 dÃ³lares (los grandes escÃ¡neres industriales de fabricantes como Bell & Howell<FootnoteRef id="1"/>). Hay muchos sitios Web en los que se ofrece a la venta un amplio surtido de escÃ¡neres. Para encontrarlos basta con introducir la palabra âscannerâ (escÃ¡ner) en buscadores como Google, Altavista o Yahoo.</Text>
188	<Text id="58">El formato de salida de una pÃ¡gina escaneada es un archivo informÃ¡tico, por lo general en formato TIFF o Bitmap. El mejor formato es el TIFF IV comprimido. Una pÃ¡gina normal, escaneada y convertida en este formato, ocupa sÃ³lo 50 Kb de memoria, mientras que una pÃ¡gina equivalente en formato Bitmap no comprimido puede llegar a los 2 Mb.</Text>
189	<Subsection id="low-cost_flat-bed_scanner">
190	<Title>
191	<Text id="59">EscÃ¡neres planos (o de sobremesa) de gama baja</Text>
192	</Title>
193	<Content>
194	<Text id="60">Los escÃ¡neres de este tipo son los mÃ¡s econÃ³micos y difundidos. Existen muchas marcas: HP, Agfa, Acer, etc., con precios que van de los 100 a los 300 dÃ³lares. Con ellos pueden obtenerse imÃ¡genes tanto en blanco y negro como en color.Â <b/>Â El bajo precio de estas mÃ¡quinas permite conectar cada computadora a su propio escÃ¡ner.</Text>
195	<Text id="61">Entre sus inconvenientes cabe citar la mediocre calidad del resultado, la lentitud con que trabajan, su escasa fiabilidad a temperaturas altas y la relativa frecuencia con que se averÃan. Es preciso escanear las pÃ¡ginas manualmente, una por una, colocÃ¡ndolas cuidadosamente en la placa de escaneado para que queden correctamente alineadas. De ahÃ que su productividad resulte baja. Aunque los fabricantes aseguran que se puede escanear una pÃ¡gina en menos de un minuto, en la prÃ¡ctica rara vez se consiguen resultados superiores a las doce pÃ¡ginas por hora. AdemÃ¡s, el proceso de escaneado monopoliza la computadora con la que se estÃ¡ realizando el trabajo.</Text>
196	<Text id="62">Por todo lo dicho, estos escÃ¡neres sÃ³lo son Ãºtiles para realizar trabajos de escasa envergadura y pocas pÃ¡ginas: no mÃ¡s de 200 a 400 pÃ¡ginas al mes cuando se trate de un trabajo sistemÃ¡tico, y de 1.000 a 2.000 pÃ¡ginas para operaciones de carÃ¡cter esporÃ¡dico.</Text>
197	</Content>
198	</Subsection>
199	<Subsection id="low-end_scanner_with_sheet_feeder">
200	<Title>
201	<Text id="63">EscÃ¡neres de gama baja con alimentador de papel</Text>
202	</Title>
203	<Content>
204	<Text id="64">Los escÃ¡neres de este tipo suelen costar entre 500 y 1.200 dÃ³lares. Ofrecen la posibilidad de escanear y procesar de 10 a 50 pÃ¡ginas de una vez, lo que evita que el operador tenga que estar continuamente pendiente de la mÃ¡quina y aumenta la productividad hasta unas 150 a 200 pÃ¡ginas diarias. Estos escÃ¡neres son mÃ¡s robustos y gozan de una vida Ãºtil mÃ¡s larga antes de necesitar reparaciones (lo que suele ocurrir al cabo de 30.000 a 50.000 pÃ¡ginas).</Text>
205	<Text id="65">Una de sus desventajas es que sÃ³lo pueden escanear una cara a la vez, lo que obliga a invertir el paquete de pÃ¡ginas y escanearlas de nuevo para obtener imÃ¡genes por ambas caras. Ello da lugar a frecuentes problemas, pues los alimentadores nunca funcionan a la perfecciÃ³n y a veces las pÃ¡ginas se atascan.</Text>
206	<Text id="66">Estos escÃ¡neres son Ãºtiles para trabajos de 1.500 a 3.000 pÃ¡ginas mensuales.</Text>
207	</Content>
208	</Subsection>
209	<Subsection id="color_scanners">
210	<Title>
211	<Text id="67">EscÃ¡neres en color</Text>
212	</Title>
213	<Content>
214	<Text id="68">Toda operaciÃ³n de escaneado conlleva siempre imÃ¡genes en color, lo que hace imprescindible un escÃ¡ner capaz de procesarlas. Por regla general, menos del 5% de una publicaciÃ³n contiene imÃ¡genes en color, sin contar la cubierta. En consecuencia, serÃ¡ suficiente un escÃ¡ner plano de gama baja como los mencionados mÃ¡s arriba. Es aconsejable elegir una mÃ¡quina que pueda trabajar a una resoluciÃ³n de hasta 600 ppp.</Text>
215	</Content>
216	</Subsection>
217	<Subsection id="professional_duplex_scanners">
218	<Title>
219	<Text id="69">EscÃ¡neres dÃºplex profesionales</Text>
220	</Title>
221	<Content>
222	<Text id="70">Los escÃ¡neres profesionales son mÃ¡quinas fiables y resistentes, capaces de tratar un gran nÃºmero de pÃ¡ginas (normalmente entre 2.000 y 10.000 pÃ¡ginas diarias). EstÃ¡n provistos de una bandeja de alimentaciÃ³n automÃ¡tica con capacidad para 50 a 200 pÃ¡ginas. Los mejores y mÃ¡s rÃ¡pidos son los dÃºplex, es decir, capaces de escanear simultÃ¡neamente las dos caras de una hoja.</Text>
223	<Text id="71">Para utilizar un escÃ¡ner dÃºplex profesional se requiere una computadora potente, dotada de un disco duro de 10 a 20 Gb de capacidad como mÃnimo. El precio de estos escÃ¡neres oscila entre los 5.000 y los 50.000 dÃ³lares. El escÃ¡ner dÃºplex Canon DR-6020, por ejemplo, cuesta 5.000 dÃ³lares y puede trabajar con documentos impresos por ambas caras. Ofrece un rendimiento de unas 2.000 pÃ¡ginas diarias y un periodo de vida Ãºtil de 600.000 a 800.000 pÃ¡ginas. Los escÃ¡neres Bell & Howell y Fujitsu cuestan entre 10.000 y 50.000 dÃ³lares y gozan de un periodo de vida Ãºtil de muchos millones de pÃ¡ginas.</Text>
224	<Text id="72">Los escÃ¡neres para microfichas cuestan entre 15.000 (por una unidad semimanual) y 80.000 dÃ³lares (por un escÃ¡ner completamente automÃ¡tico).</Text>
225	</Content>
226	</Subsection>
227	<Subsection id="scanning_programs">
228	<Title>
229	<Text id="73">Programas de escaneado</Text>
230	</Title>
231	<Content>
232	<Text id="74">Cada escÃ¡ner viene acompaÃ±ado de su propio programa informÃ¡tico, que es necesario instalar en la computadora desde la que vaya a controlarse el escaneado. Algunos traen consigo una tarjeta controladora que se instala en la computadora para acelerar la digitalizaciÃ³n.</Text>
233	</Content>
234	</Subsection>
235	</Content>
236	</Section>
237	<Section id="preparing_the_documents">
238	<Title>
239	<Text id="75">PreparaciÃ³n de los documentos</Text>
240	</Title>
241	<Content>
242	<Text id="76">Antes de escanear los documentos hay que prepararlos adecuadamente, eliminando posibles motas de polvo, secÃ¡ndolos si estÃ¡n hÃºmedos, extrayendo clips y grapas y alisando las pÃ¡ginas dobladas o arrugadas.</Text>
243	<Text id="77">Es preciso desmontar el lomo de los libros, cortÃ¡ndolo en lÃnea recta y desprendiÃ©ndolo con precisiÃ³n. A menudo habrÃ¡n de encuadernarse de nuevo los libros procedentes de bibliotecas, en cuyo caso conviene extremar las precauciones al desmontar el lomo para facilitar la posterior encuadernaciÃ³n.</Text>
244	<Text id="78">Cuando se trabaje con pocos documentos se puede retirar el lomo manualmente, con ayuda de una regla y una cuchilla. Â¡Pero cuidado con los dedos! Para un mayor nÃºmero de documentos merece la pena recurrir a guillotinas manuales especiales</Text>
245	<Text id="79">Para grandes volÃºmenes, por ejemplo mÃ¡s de 20 documentos, recomendamos pedir permiso a una imprenta o copisterÃa para utilizar su guillotina profesional. RecuÃ©rdese que es preciso extraer los clips y las grapas para no daÃ±ar las cuchillas.</Text>
246	</Content>
247	</Section>
248	<Section id="the_scanning_process">
249	<Title>
250	<Text id="80">El proceso de escaneado</Text>
251	</Title>
252	<Content>
253	<Text id="81">Con el programa informÃ¡tico suministrado con el escÃ¡ner se genera a partir de cada pÃ¡gina una imagen electrÃ³nica, que se transforma en una imagen Bitmap o TIFF y se memoriza acto seguido en el disco duro, asignando a cada archivo un nombre normalizado. Una vez escaneados todos o una parte de los documentos de un lote empieza el proceso de OCR, del que puede ocuparse el operador del escÃ¡ner o cualquier otra persona.</Text>
254	<Text id="82">En general se necesita una resoluciÃ³n de 300 ppp, aunque a veces tambiÃ©n resulte aceptable un valor de 200 ppp.</Text>
255	<Subsection id="quality_control">
256	<Title>
257	<Text id="83">Control de calidad</Text>
258	</Title>
259	<Content>
260	<Text id="84">La digitalizaciÃ³n sirve para obtener una versiÃ³n perfecta de las publicaciones en formato de texto o HTML mediante el proceso de OCR, o bien para crear archivos grÃ¡ficos mejorados como los PDF. En ambos casos es de suma importancia que la imagen sea de buena calidad. En caso contrario los archivos grÃ¡ficos resultan poco nÃtidos y consumen mÃ¡s memoria. La calidad influye sobremanera en el proceso de OCR: con imÃ¡genes de calidad mediocre la productividad puede caer hasta en un 40%. Sabiendo que el OCR suele representar mÃ¡s del 90% del costo total, se deduce que la calidad del escaneado es determinante para el costo final del proceso.</Text>
261	<Text id="85">Es posible mejorar la calidad de un archivo TIFF adaptando el proceso de escaneado a cada tipo de papel mediante las opciones de ajuste que ofrece el programa del escÃ¡ner. Un tipo de papel relativamente transparente requerirÃ¡ parÃ¡metros mÃ¡s claros, el contraste deberÃ¡ ajustarse en funciÃ³n de la calidad de la impresiÃ³n, etc.</Text>
262	<Text id="86">Ante todo conviene dividir el material en lotes de documentos que presenten similar calidad de papel e impresiÃ³n, y despuÃ©s realizar pruebas de OCR con una muestra del primer lote para determinar los parÃ¡metros de ajuste idÃ³neos. A continuaciÃ³n se escanearÃ¡n todos los documentos de ese primer lote antes de continuar con el siguiente.</Text>
263	</Content>
264	</Subsection>
265	<Subsection id="filename_conventions">
266	<Title>
267	<Text id="87">Convenciones para designar los archivos</Text>
268	</Title>
269	<Content>
270	<Text id="88">Es preciso asignar a cada libro o documento un nÃºmero de trabajo o cÃ³digo Ãºnico, que a su vez darÃ¡ nombre a la carpeta en la que se archiven todas las imÃ¡genes TIFF correspondientes a ese documento. SegÃºn el sistema operativo del que se trate (DOS, Windows, UNIX, LINUX, etc.), el nombre de un archivo puede comprender entre 8 y 128 caracteres, aunque es aconsejable limitarse a un mÃ¡ximo de 16 caracteres. Si se utilizan 8 caracteres, los cinco primeros servirÃan para identificar el documento, el siguiente serÃa una letra indicativa del cÃ³digo de idioma y los dos restantes caracteres indicarÃan el nÃºmero de pÃ¡gina. Por ejemplo: el identificadorÂ <i>u7548e12.tif</i>Â corresponderÃa a la imagen TIFF de la pÃ¡gina 12 de un libro escrito en inglÃ©s que tuviera por cÃ³digoÂ <i>u7548e.</i>
271	</Text>
272	<Text id="89">Conviene asignar un directorio del disco duro a los trabajos de escaneado (por ejemplo con el nombre deÂ <i>scanjobs</i>). DespuÃ©s se puede crear un subdirectorio para cada uno de los trabajos, en cuyo interior se crearÃ¡ un nuevo subdirectorio para cada publicaciÃ³n (en el ejemplo anterior,Â <i>u7548e</i>), donde se guardan todas las imÃ¡genes TIFF correspondientes a esa publicaciÃ³n, incluidas las imÃ¡genes en color.</Text>
273	</Content>
274	</Subsection>
275	</Content>
276	</Section>
277	<Section id="productivity_and_resources">
278	<Title>
279	<Text id="90">Productividad y recursos necesarios</Text>
280	</Title>
281	<Content>
282	<Text id="91">No hay que subestimar la carga de trabajo que suponen los procesos de escaneado y, sobre todo, de OCR. Es preferible considerar que ambos procesos son completamente independientes y elegir el procedimiento idÃ³neo (desde el punto de vista econÃ³mico y tambiÃ©n prÃ¡ctico) para cada uno de ellos por separado.</Text>
283	<Text id="92">Entre los aspectos que conviene tener en cuenta cabe seÃ±alar: la inversiÃ³n necesaria en escÃ¡neres y computadoras, la existencia de los recursos humanos y el espacio necesarios, la formaciÃ³n del personal, los gastos salariales, el nÃºmero inicial y total de pÃ¡ginas por escanear, los plazos en que ha de realizarse el trabajo y la posibilidad de subcontratarlo a terceros.</Text>
284	<Subsection id="scanning_costs">
285	<Title>
286	<Text id="93">Costos del proceso de escaneado</Text>
287	</Title>
288	<Content>
289	<Text id="94">Es importante decidir si se ha de invertir en un equipo de escaneado y asumir internamente esa labor o bien subcontratarla a una empresa especializada. Las principales consideraciones que deben tenerse en cuenta son:</Text>
290	<BulletList>
291	<Bullet>
292	<Text id="95">los plazos en que ha de realizarse el trabajo;</Text>
293	</Bullet>
294	<Bullet>
295	<Text id="96">el nÃºmero total de pÃ¡ginas;</Text>
296	</Bullet>
297	<Bullet>
298	<Text id="97">los costos salariales correspondientes a las personas encargadas del escaneado.</Text>
299	</Bullet>
300	</BulletList>
301	<Text id="98">Las personas a quienes se encomiende el escaneado deben estar muy motivadas y preparadas tÃ©cnicamente, y tener muy clara la importancia de cumplir los criterios de calidad.</Text>
302	<Text id="99">Una empresa especializada suele cobrar 0,06 dÃ³lares por pÃ¡gina, a lo que hay que aÃ±adir los gastos de envÃo, que pueden ser de hasta 0,03 dÃ³lares por pÃ¡gina cuando se remite el material de un paÃs en desarrollo a un paÃs desarrollado y de 0,015 dÃ³lares por pÃ¡gina cuando se trata de un envÃo nacional.</Text>
303	<Text id="100">En el Cuadro <CrossRef target="Table" ref="table_scanning_cost"/> se ofrecen estimaciones de los costos de escaneado por cuenta propia segÃºn el tipo de escÃ¡ner que se utilice. Conviene tener en cuenta que estas cifras son aproximadas y corresponden mÃ¡s bien a Ã³rdenes generales de magnitud, basados en la experiencia de los autores. En las tres primeras columnas se presentan los costos laborales. En la primera se indica la productividad (en pÃ¡ginas mensuales) suponiendo que se trabaje a jornada completa. Dividiendo las horas mensuales de trabajo por la productividad en pÃ¡ginas/mes se obtienen los recursos necesarios en tÃ©rminos de horas de trabajo/pÃ¡gina, guarismo que figura en la segunda columna (suponiendo que se trabajen 180 horas al mes).</Text>
304	<Table id="table_scanning_cost">
305	<Title>
306	<Text id="101">Costos del proceso de escaneado</Text>
307	</Title>
308	<TableContent>
309	<tr>
310	<th width="90"/>
311	<th width="71">
312	<Text id="102">Rendimiento (pÃ¡ginas/mes)</Text>
313	</th>
314	<th width="75">
315	<Text id="103">Horas/pÃ¡gina (180 horas/mes)</Text>
316	</th>
317	<th width="83">
318	<Text id="104">Costo/pÃ¡gina (suponiendo 4 dÃ³lares/hora)</Text>
319	</th>
320	<th width="60">
321	<Text id="105">AdquisiciÃ³n del escÃ¡ner (dÃ³lares)</Text>
322	</th>
323	<th width="66">
324	<Text id="106">Vida Ãºtil del escÃ¡ner (pÃ¡ginas)</Text>
325	</th>
326	<th width="85">
327	<Text id="107">PÃ¡ginas que se podrÃan subcontratar por el precio del escÃ¡ner (a 0,06 dÃ³lares c/u)</Text>
328	</th>
329	</tr>
330	<tr>
331	<th width="90">
332	<Text id="108">EscÃ¡ner plano</Text>
333	</th>
334	<th width="71">
335	<Text id="109">2.500</Text>
336	</th>
337	<th width="75">
338	<Text id="110">0,072</Text>
339	</th>
340	<th width="83">
341	<Text id="111">0,288</Text>
342	</th>
343	<th width="60">
344	<Text id="112">300</Text>
345	</th>
346	<th width="66">
347	<Text id="113">7.000</Text>
348	</th>
349	<th width="85">
350	<Text id="114">5.000</Text>
351	</th>
352	</tr>
353	<tr>
354	<th width="90">
355	<Text id="115">EscÃ¡ner con alimentador de papel</Text>
356	</th>
357	<th width="71">
358	<Text id="116">8.000</Text>
359	</th>
360	<th width="75">
361	<Text id="117">0,0225</Text>
362	</th>
363	<th width="83">
364	<Text id="118">0,09</Text>
365	</th>
366	<th width="60">
367	<Text id="119">800</Text>
368	</th>
369	<th width="66">
370	<Text id="120">30.000 </Text>
371	</th>
372	<th width="85">
373	<Text id="121">13.000</Text>
374	</th>
375	</tr>
376	<tr>
377	<th width="90">
378	<Text id="122">Profesional: dÃºplex de gama baja</Text>
379	</th>
380	<th width="71">
381	<Text id="123">40.000</Text>
382	</th>
383	<th width="75">
384	<Text id="124">0,0045</Text>
385	</th>
386	<th width="83">
387	<Text id="125">0,018</Text>
388	</th>
389	<th width="60">
390	<Text id="126">6.000</Text>
391	</th>
392	<th width="66">
393	<Text id="127">600.000</Text>
394	</th>
395	<th width="85">
396	<Text id="128">100.000</Text>
397	</th>
398	</tr>
399	<tr>
400	<th width="90">
401	<Text id="129">Profesional: dÃºplex de gama alta</Text>
402	</th>
403	<th width="71">
404	<Text id="130">150.000</Text>
405	</th>
406	<th width="75">
407	<Text id="131">0,0012</Text>
408	</th>
409	<th width="83">
410	<Text id="132">0,0048</Text>
411	</th>
412	<th width="60">
413	<Text id="133">50.000</Text>
414	</th>
415	<th width="66">
416	<Text id="134">8.000.000</Text>
417	</th>
418	<th width="85">
419	<Text id="135">833.000</Text>
420	</th>
421	</tr>
422	</TableContent>
423	</Table>
424	<Text id="136">Para determinar el precio por pÃ¡gina se multiplican los costos salariales por hora totales (que dependerÃ¡n de cada caso) por la segunda columna del Cuadro <CrossRef target="Table" ref="table_scanning_cost"/>. En la tercera columna se indica, a tÃtulo de ejemplo, el precio de escanear por cuenta propia suponiendo que se pague un sueldo de 4 dÃ³lares/hora, excluidos los gastos de inversiÃ³n.</Text>
425	<Text id="137">Estos cÃ¡lculos presuponen que se procesa un nÃºmero de pÃ¡ginas suficiente para justificar la adquisiciÃ³n de un escÃ¡ner. En las tres Ãºltimas columnas del Cuadro <CrossRef target="Table" ref="table_scanning_cost"/> se ofrece informaciÃ³n sobre los costos derivados del propio escÃ¡ner. En la primera de ellas se indica el precio de adquisiciÃ³n de la mÃ¡quina, en la siguiente el tiempo de vida Ãºtil que se le supone y en la Ãºltima el nÃºmero de pÃ¡ginas que podrÃan subcontratarse por el precio del escÃ¡ner, contando una tarifa de 0,06 dÃ³lares/pÃ¡gina.</Text>
426	<Text id="138">Hay, desde luego, muchos otros factores que influyen en la decisiÃ³n de adquirir o no un escÃ¡ner: la disponibilidad de fondos suficientes, la necesidad de reducir al mÃnimo la dependencia para con terceras partes, el deseo de crear capacidades a escala local, la obligaciÃ³n que imponen las bibliotecas de escanear los libros en la propia localidad y no transportarlos, etc.</Text>
427	<Text id="139">Las cifras del Cuadro 1 dan una idea aproximada del nÃºmero de pÃ¡ginas necesario para justificar distintos niveles de inversiÃ³n. No es frecuente que una instituciÃ³n u otra entidad necesite escanear 800.000 pÃ¡ginas. Con tales niveles de trabajo se plantean cuestiones mÃ¡s complejas que no vamos a tratar en estas lÃneas, como el mantenimiento del equipo o la posibilidad de recuperar gastos ofreciendo a terceros el servicio de escaneado.</Text>
428	<Text id="140">Es tentador contemplar el desarrollo de la capacidad de escaneado como una actividad comercial, sobre todo en los paÃses en desarrollo. Pero conviene tener muy en cuenta que no se trata de un proceso repetitivo. Una vez escaneado un documento, el cliente nunca cursarÃ¡ un nuevo pedido para repetir la operaciÃ³n, por muy buena que haya sido su relaciÃ³n de trabajo con la empresa. Desde un punto de vista comercial, se requiere un enorme trabajo de publicidad y comercializaciÃ³n. Desaconsejamos a cualquier ONG u otras organizaciones sin fines de lucro que se aventuren en este terreno sin haber procedido a ensayos exhaustivos y elaborado un minucioso plan comercial.</Text>
429	<Text id="141">En conclusiÃ³n, para escanear entre 10.000 y 50.000 pÃ¡ginas conviene plantearse la posibilidad de subcontratar el trabajo. Los cerca de 6.000 dÃ³lares que cuesta un escÃ¡ner profesional de gama baja sÃ³lo se amortizan a partir de un volumen superior a las 100.000 pÃ¡ginas. Otra posible soluciÃ³n consiste en asociarse con otras instituciones (ONG o bibliotecas, por ejemplo) para adquirir colectivamente un escÃ¡ner de ese tipo.</Text>
430	</Content>
431	</Subsection>
432	</Content>
433	</Section>
434	</Content>
435	</Chapter>
436	<Chapter id="ocr">
437	<Title>
438	<Text id="142">OCR: reconocimiento Ã³ptico de caracteres</Text>
439	</Title>
440	<Content>
441	<Text id="143">Los sistemas de reconocimiento Ã³ptico de caracteres (OCR) transforman en texto una imagen escaneada. El punto de partida es una imagen digitalizada en formato TIFF o Bitmap, de la mayor nitidez y calidad posibles, y el resultado final un archivo de texto (generalmente en formato RTF o Word) o para la Web (formato HTML). </Text>
442	<Text id="144">El proceso de conversiÃ³n de un documento impreso en un archivo informÃ¡tico comprende las siguientes etapas:</Text>
443	<BulletList>
444	<Bullet>
445	<Text id="145">escaneado;</Text>
446	</Bullet>
447	<Bullet>
448	<Text id="146">anÃ¡lisis de la compaginaciÃ³n;</Text>
449	</Bullet>
450	<Bullet>
451	<Text id="147">reconocimiento Ã³ptico de caracteres;</Text>
452	</Bullet>
453	<Bullet>
454	<Text id="148">escaneado de ilustraciones y cuadros.</Text>
455	</Bullet>
456	</BulletList>
457	<Text id="149">A lo largo del proceso se efectÃºan controles de calidad de los archivos resultantes y se memorizan Ã©stos en el formato apropiado.</Text>
458	<Text id="150">El mercado ofrece muchos y buenos programas de OCR, con precios que oscilan entre los 100 y los 400 dÃ³lares<FootnoteRef id="2"/>. Entre muchos otros ejemplos cabe citar los siguientes:</Text>
459	<BulletList>
460	<Bullet>
461	<Text id="151"><i>Read-Iris</i>Â (http://www.readiris.com/)</Text>
462	</Bullet>
463	<Bullet>
464	<Text id="152"><i>Omnipage</i>Â (http://www.omnipage.com/)</Text>
465	</Bullet>
466	<Bullet>
467	<Text id="153"><i>Fine-Reader</i>Â (http://www.finereader.com/)</Text>
468	</Bullet>
469	</BulletList>
470	<Text id="154">En los sitios Web de los fabricantes se ofrece toda la informaciÃ³n necesaria, comprendida la lista de distribuidores locales. Los autores, de acuerdo con su experiencia,Â consideran que los programas de mÃ¡s fÃ¡cil manejo son Fine-Reader y Omnipage. El primero, que cuesta unos 100 dÃ³lares, es el mÃ¡s barato y ofrece no sÃ³lo gran flexibilidad sino tambiÃ©n el mayor repertorio de idiomas.</Text>
471	<Text id="155">Es necesario decidir si se efectÃºan los procesos de escaneado y OCR internamente o se subcontratan a una empresa especializada. Hacerlo por cuenta propia exige disponer de un escÃ¡ner, de un programa de OCR, de conocimientos tÃ©cnicos en la materia y de personal muy motivado y atento a los requisitos de calidad.</Text>
472	<Section id="the_ocr_process">
473	<Title>
474	<Text id="156">El proceso de OCR</Text>
475	</Title>
476	<Content>
477	<Text id="157">El proceso de OCR difiere segÃºn se utilice uno u otro programa de OCR, y cada uno de ellos exige un tiempo considerable de aprendizaje. En el manual de cada programa se exponen todos los detalles relativos al proceso. Hay cuatro aspectos que merecen especial atenciÃ³n: el control de calidad, los cuadros, las ilustraciones y los textos especiales como fÃ³rmulas, caracteres extranjeros, etc.</Text>
478	<Subsection id="quality_control_1">
479	<Title>
480	<Text id="158">Control de calidad</Text>
481	</Title>
482	<Content>
483	<Text id="159">Es preciso insistir en la importancia del control de calidad. Lo ideal es que esos controles estÃ©n a cargo de personas cuya lengua materna sea el idioma en que estÃ¡ escrito el documento o de gente con un excelente dominio del mismo. El perfil idÃ³neo es el de alguien con estudios universitarios o secundarios. Conviene saber ademÃ¡s que en este tipo de tarea los jÃ³venes suelen mantener un nivel de concentraciÃ³n superior.</Text>
484	<Text id="160">Normalmente hay cuatro controles de calidad.</Text>
485	<Text id="161">El primero se efectÃºa al mismo tiempo que el proceso de OCR. Cada programa tiene un verificador ortogrÃ¡fico incorporado que seÃ±ala todas las posibles letras errÃ³neas y muestra la imagen de la palabra entera para facilitar la comprobaciÃ³n y eventual correcciÃ³n del error.</Text>
486	<Text id="162">El segundo es un control general del texto una vez finalizado el proceso de OCR. Uno de los errores mÃ¡s frecuentes es la omisiÃ³n de una pÃ¡gina, un pÃ¡rrafo, los tÃtulos de un capÃtulo, etc. Debe llevarse a cabo un repaso general para comprobar que no falta ninguna pÃ¡gina. Es esencial asimismo comprobar los tÃtulos, los encabezamientos de capÃtulo, los pÃ¡rrafos y los cuadros.</Text>
487	<Text id="163">El tercer control es el ortogrÃ¡fico, para el que en general se utiliza Word de Microsoft porque su diccionario suele ser mÃ¡s completo que el de los programas de OCR. Importando el libro a un archivo Word y realizando un control ortogrÃ¡fico con este programa se puede detectar y corregir un mayor nÃºmero de errores. Es indispensable aÃ±adir al verificador ortogrÃ¡fico cualquier palabra especialmente difÃcil o susceptible de generar una seÃ±al de error, asÃ como los tÃ©rminos cientÃficos y tÃ©cnicos que abunden en el tipo de publicaciÃ³n con que se estÃ© trabajando. </Text>
488	<Text id="164">Finalmente, otra persona debe efectuar un Ãºltimo control del documento finalizado, tomando al azar fragmentos del libro completo y cerciorÃ¡ndose de que no haya errores o problemas con los cuadros, las ilustraciones, las leyendas o el aspecto general del documento. SÃ³lo despuÃ©s de este Ãºltimo control puede considerarse que el libro estÃ¡ listo para su difusiÃ³n electrÃ³nica.</Text>
489	</Content>
490	</Subsection>
491	<Subsection id="tables">
492	<Title>
493	<Text id="165">Cuadros</Text>
494	</Title>
495	<Content>
496	<Text id="166">Los cuadros suelen plantear dificultades a los programas de OCR. Controlar su contenido es ademÃ¡s una labor ardua: contienen muchos dÃgitos, a veces con puntos y comas, y es fÃ¡cil que las cifras acaben colocadas en la casilla equivocada. Es una tarea que exige concentraciÃ³n, dedicaciÃ³n, un intenso trabajo de relectura, comprobaciones minuciosas y un buen control de calidad. Hay bÃ¡sicamente tres formas distintas de proceder.</Text>
497	<Text id="167">La primera consiste simplemente en escanear los cuadros como si fueran imÃ¡genes en blanco y negro e insertarlos con este formato en el lugar correspondiente del documento. Esta es la soluciÃ³n mÃ¡s sencilla, pues no genera errores y no exige mÃ¡s tiempo que el necesario para crear la imagen. Pero consume mÃ¡s memoria que las dos restantes, y ademÃ¡s la resoluciÃ³n obtenida no siempre basta para trabajar en la computadora con cuadros de gran tamaÃ±o: si se reduce todo el cuadro a los lÃmites de la pantalla, la resoluciÃ³n es demasiado pequeÃ±a; si por el contrario el cuadro desborda la pantalla, el usuario debe desplazarse para ver todas las columnas y filas, con lo que pierde visiÃ³n de conjunto.</Text>
498	<Text id="168">El segundo mÃ©todo es la copia manual: crear un nuevo cuadro con el mismo nÃºmero de filas y columnas y copiar los valores correspondientes a cada casilla, carÃ¡cter por carÃ¡cter.</Text>
499	<Text id="169">La tercera soluciÃ³n consiste en someter el cuadro al proceso de OCR. Aunque este procedimiento ahorra tiempo en comparaciÃ³n con el manual, la probabilidad de error es mÃ¡s alta. A veces las columnas quedan fusionadas, o el programa es incapaz de reconocer los puntos y comas.</Text>
500	</Content>
501	</Subsection>
502	<Subsection id="images">
503	<Title>
504	<Text id="170">Ilustraciones</Text>
505	</Title>
506	<Content>
507	<Text id="171">Las ilustraciones contenidas en una publicaciÃ³n corresponden en general a tres grandes tipos de imagen:</Text>
508	<BulletList>
509	<Bullet>
510	<Text id="172">ilustraciones en blanco y negro, sin tonos intermedios;</Text>
511	</Bullet>
512	<Bullet>
513	<Text id="173">fotografÃas en blanco y negro;</Text>
514	</Bullet>
515	<Bullet>
516	<Text id="174">fotografÃas en color.</Text>
517	</Bullet>
518	</BulletList>
519	<Text id="175">Las ilustraciones en blanco y negro deben escanearse en modo âdibujos de lÃneas simplesâ y guardarse en formato GIF o PNG. Para las fotografÃas en blanco y negro conviene utilizar el modo âescala de grisesâ y guardar el resultado en archivos GIF o JPEG. En cuanto a las fotografÃas en color, es preciso escanearlas en modo âcolorâ y guardarlas en archivos JPEG. En tÃ©rminos generales, el formato JPEG de calidad media ofrece una resoluciÃ³n suficiente.</Text>
520	<Text id="176">Las ilustraciones suelen consumir gran parte del espacio que ocupa una colecciÃ³n en el disco duro o el CD-ROM. De ahÃ la importancia de lograr para cada imagen la mayor claridad y visibilidad junto con el menor tamaÃ±o posible. Para ahorrar espacio cabe la posibilidad de prescindir de algunas imÃ¡genes o de todas ellas cuando no sean necesarias para entender el texto.</Text>
521	<Text id="177">Las ilustraciones deben escanearse por separado, una por una. Para denominar los archivos grÃ¡ficos recomendamos un nombre compuesto por los cinco o seis primeros caracteres utilizados para designar el documento seguidos del nÃºmero de la pÃ¡gina en que se encuentre la ilustraciÃ³n. Una alternativa, suponiendo que haya un directorio para cada documento, consiste simplemente en utilizar la letraÂ <i>p</i>Â [Â <i>picture</i>Â ] seguida del nÃºmero de la pÃ¡gina. Cuando en una misma pÃ¡gina haya varias ilustraciones, bastarÃ¡ con aÃ±adir una letraÂ <i>a, b, c ...</i>Â al nombre del archivo. Por ejemplo, a una imagen JPEG que aparezca en la pÃ¡gina 36 de la antedicha publicaciÃ³nÂ <i>u7548e</i>Â corresponderÃ¡ un archivo llamadoÂ <i>u7548e36.jpg</i>Â oÂ <i>p36.jpg.</i></Text>
522	<Text id="178">Una vez escaneadas las imÃ¡genes, se pueden aplicar programas de procesamiento por lotes para modificar las dimensiones o mejorar la definiciÃ³n de todas las imÃ¡genes a la vez.</Text>
523	</Content>
524	</Subsection>
525	<Subsection id="specialized_material">
526	<Title>
527	<Text id="179">Textos con caracterÃsticas especiales</Text>
528	</Title>
529	<Content>
530	<Text id="180">Muchos documentos contienen elementos que conviene tratar aparte (caracteres especiales, fÃ³rmulas, pÃ¡ginas especialmente dificultosas, etc.). Los caracteres especiales suelen provenir de idiomas distintos u ostentar marcas diacrÃticas. En tal caso hay que seleccionar el idioma del que se trate en la opciÃ³n âidiomaâ del programa OCR. Las fÃ³rmulas deberÃ¡n reproducirse manualmente, lo que a veces es imposible con un programa de OCR, en cuyo caso hay que recurrir a un procesador de texto como Word de Microsoft. Las pÃ¡ginas de las que no pueda obtenerse una imagen nÃtida, ya sea por la complejidad del texto o por el mal estado en que se encuentren, deberÃ¡n ser reproducidas manualmente.</Text>
531	</Content>
532	</Subsection>
533	</Content>
534	</Section>
535	<Section id="productivity_and_resources_1">
536	<Title>
537	<Text id="181">Productividad y recursos necesarios</Text>
538	</Title>
539	<Content>
540	<Text id="182">Como hemos dicho, no hay que subestimar la dificultad del proceso de OCR. Aunque conviene estudiar separadamente las alternativas econÃ³micas y prÃ¡cticas del proceso de escaneado y del de OCR, ambos plantean interrogantes parecidos: la inversiÃ³n necesaria en computadoras, la disponibilidad de personal y de capacidad de gestiÃ³n, la formaciÃ³n del personal, los costos salariales, el nÃºmero total de pÃ¡ginas que deben tratarse y las posibilidades de subcontratar el trabajo a terceros.</Text>
541	<Text id="183">Esta secciÃ³n se basa en la experiencia de los autores en el trabajo de OCR en BÃ©lgica, Rumania y la India. Todos los ejemplos, cÃ¡lculos y cifras que aquÃ se exponen corresponden a una situaciÃ³n ordinaria: documentos de dificultad normal (con cuadros e ilustraciones) como los que pueden encontrarse en la mayorÃa de los archivos o bibliotecas, resultados de muy buena calidad y trabajo a medio o largo plazo.</Text>
542	<Subsection id="intensive_ocr">
543	<Title>
544	<Text id="184">Trabajo intensivo de OCR</Text>
545	</Title>
546	<Content>
547	<Text id="185">El OCR es un proceso difÃcil, que exige gran concentraciÃ³n y destreza. Antes de alcanzar un nivel Ã³ptimo de rendimiento y calidad, el operador necesita un periodo de aprendizaje de unas seis semanas.</Text>
548	<Text id="186">Los mejores resultados y la productividad mÃ¡s alta se consiguen por lo general durante las primeras horas de trabajo. Al cabo de tres horas la productividad baja con rapidez, quizÃ¡ hasta un 50% del nivel inicial. Al cabo de seis horas, la mayorÃa de la gente se encuentra muy cansada.</Text>
549	<Text id="187">Algo parecido ocurre durante las primeras semanas de trabajo, en las que todo el mundo alcanza una productividad bastante elevada. Posteriormente, sin embargo, hasta dos tercios de los operadores de OCR empiezan a sentirse aburridos y descontentos. A la larga esas personas acaban abandonando el trabajo o rindiendo poco en tÃ©rminos de calidad y productividad. Incluso los que superan el periodo crÃtico de tres a cinco semanas y se integran en el equipo de trabajo suelen renunciar y partir en busca de una mejor ocupaciÃ³n al cabo de 6 a 12 meses.</Text>
550	<Text id="188">Las observaciones sobre el personal que formulamos en la secciÃ³n <CrossRef target="Section" ref="the_ocr_process"/> son especialmente aplicables al trabajo intensivo de OCR. Los controles de calidad resultan mejores cuando corren a cargo de hablantes nativos o profundos conocedores del idioma en cuestiÃ³n. En general los jÃ³venes pueden mantener un nivel de concentraciÃ³n superior al de las personas mayores en las labores de OCR. La experiencia demuestra que las personas de entre 18 y 23 aÃ±os de edad tienden a adaptarse mejor a ese cometido que las mayores de 25 aÃ±os.</Text>
551	<Text id="189">Por Ãºltimo, considerando lo aburrido que puede resultar el trabajo de OCR, la motivaciÃ³n y un constante prurito de calidad son elementos de excepcional importancia.</Text>
552	<Text id="190">De todo lo dicho se desprenden las siguientes directrices generales sobre el proceso de OCR:</Text>
553	<BulletList>
554	<Bullet>
555	<Text id="191">Los jÃ³venes de entre 18 y 25 aÃ±os de edad son los mÃ¡s aptos para este tipo de trabajo. </Text>
556	</Bullet>
557	<Bullet>
558	<Text id="192">Dado que las primeras horas son siempre las mÃ¡s productivas, conviene organizar turnos de trabajo a tiempo parcial o, en su defecto, encomendar la labor a jornada completa a las personas mÃ¡s motivadas y con mayor capacidad de concentraciÃ³n.</Text>
559	</Bullet>
560	<Bullet>
561	<Text id="193">DespuÃ©s de tres a cinco semanas de actividad, dos tercios de los operadores tienden a renunciar o a sentirse hastiados. Ello se traduce en un descenso de la calidad y la productividad en las Ãºltimas semanas.</Text>
562	</Bullet>
563	<Bullet>
564	<Text id="194">Es preciso un suministro periÃ³dico de trabajo para justificar la necesaria formaciÃ³n del personal, mantener la concentraciÃ³n y conservar alta la moral del equipo.</Text>
565	</Bullet>
566	</BulletList>
567	</Content>
568	</Subsection>
569	<Subsection id="achievable_productivity">
570	<Title>
571	<Text id="195">Objetivos asequibles de productividad</Text>
572	</Title>
573	<Content>
574	<Table id="table_ocr_productivity">
575	<Title>
576	<Text id="196">Productividad en el proceso de OCR</Text>
577	</Title>
578	<TableContent>
579	<tr>
580	<th width="161"/>
581	<th width="142">
582	<Text id="197">Horas de trabajo/dÃa</Text>
583	</th>
584	<th width="123">
585	<Text id="198">PÃ¡ginas/dÃa</Text>
586	</th>
587	<th width="104">
588	<Text id="199">PÃ¡ginas/mes</Text>
589	</th>
590	</tr>
591	<tr>
592	<th width="161">
593	<Text id="200">FormaciÃ³n inicialÂ (seis semanas)</Text>
594	</th>
595	<th width="142">
596	<Text id="201">3</Text>
597	</th>
598	<th width="123">
599	<Text id="202">6</Text>
600	</th>
601	<th width="104">
602	<Text id="203">120</Text>
603	</th>
604	</tr>
605	<tr>
606	<th width="161">
607	<Text id="204">Nivel Ã³ptimo de productividad</Text>
608	</th>
609	<th width="142">
610	<Text id="205">3</Text>
611	</th>
612	<th width="123">
613	<Text id="206">9</Text>
614	</th>
615	<th width="104">
616	<Text id="207">150 a 200</Text>
617	</th>
618	</tr>
619	<tr>
620	<th width="161">Â </th>
621	<th width="142">
622	<Text id="208">7</Text>
623	</th>
624	<th width="123">
625	<Text id="209">28</Text>
626	</th>
627	<th width="104">
628	<Text id="210">500 a 600</Text>
629	</th>
630	</tr>
631	</TableContent>
632	</Table>
633	<Text id="211">En el Cuadro <CrossRef target="Table" ref="table_ocr_productivity"/> se presentan las cifras mÃ¡s frecuentes de productividad en el trabajo de OCR. Teniendo en cuenta que puede tratarse de documentos de todos los tamaÃ±os y niveles de calidad, estas cifras parten del supuesto de que el conjunto de documentos contiene un nÃºmero promedio de ilustraciones y cuadros (por ejemplo una ilustraciÃ³n y un cuadro de 5x5 cada ocho pÃ¡ginas), que las ilustraciones son de calidad entre media y alta (recordemos que ello depende de la calidad del escaneado) y que los operadores de OCR dominan el idioma en que estÃ¡ escrito el documento.</Text>
634	<Text id="212">En el Cuadro <CrossRef target="Table" ref="table_ocr_productivity"/> se distingue entre las estadÃsticas de personas en periodo de formaciÃ³n y las de quienes han alcanzado su nivel Ã³ptimo de productividad. Si un miembro del personal administrativo dedicara tres horas diarias al trabajo de OCR, su rendimiento serÃa de entre 180 y 200 pÃ¡ginas al mes. Un operador a jornada completa bien formado, con gran capacidad de concentraciÃ³n y escrupulosa atenciÃ³n a los criterios de calidad, en cambio, podrÃa alcanzar una productividad de entre 500 y 600 pÃ¡ginas al mes.</Text>
635	<Text id="213">Sin embargo, con pÃ¡ginas de especial dificultad y escasa calidad, con abundantes cuadros o columnas, se obtienen cifras muy inferiores (quizÃ¡ de 300 a 400 pÃ¡ginas mensuales a jornada completa).</Text>
636	<Text id="214">Supongamos que el costo salarial de un operador a jornada completa muy aplicado y motivado asciende a 400 dÃ³lares mensuales, y que los gastos generales (gastos de gestiÃ³n, computadoras, espacio de oficina, instalaciones, etc.) suponen otros 300 a 400 dÃ³lares mensuales por persona. En tal caso, el costo del proceso de OCR viene a ser de 1,2 a 1,6 dÃ³lares por pÃ¡gina. Si ademÃ¡s se toma en cuenta el periodo de formaciÃ³n, el volumen total, el lapso de tiempo considerado y los eventuales costes de la suspensiÃ³n de las operaciones cuando falte el trabajo, el costo asciende a un valor entre 1,5 y 2,5 dÃ³lares por pÃ¡gina.</Text>
637	<Text id="215">Conviene comparar los costos del proceso de OCR efectuado por cuenta propia con los de la subcontrataciÃ³n a una empresa especializada. Estas empresas suelen cobrar entre 1,5 y 4 dÃ³lares por pÃ¡gina, incluyendo las ilustraciones y los cuadros. Human Info/Simple Word, que posee una unidad de este tipo en Rumania, aplica tarifas especiales para las organizaciones humanitarias sin fines de lucro (entre 1,2 y 2 dÃ³lares por pÃ¡gina). Puede solicitarse informaciÃ³n o asesoramiento escribiÃ©ndonos a la direcciÃ³n:[email protected].</Text>
638	</Content>
639	</Subsection>
640	</Content>
641	</Section>
642	<Section id="alternatives_to_ocr">
643	<Title>
644	<Text id="216">Alternativas al proceso de OCR</Text>
645	</Title>
646	<Content>
647	<Text id="217">En las siguientes lÃneas exponemos dos posibles alternativas al OCR.</Text>
648	<Subsection id="manual_retyping">
649	<Title>
650	<Text id="218">Mecanografiado manual</Text>
651	</Title>
652	<Content>
653	<Text id="219">La primera posibilidad, que ademÃ¡s elimina buena parte del escaneado, consiste en mecanografiar de nuevo los documentos con un programa de tratamiento de texto. Utilizando este procedimiento hay que escanear Ãºnicamente las ilustraciones y la cubierta (y no las restantes pÃ¡ginas), lo que hace innecesario disponer de un escÃ¡ner y un programa de OCR potentes. </Text>
654	<Text id="220">No es preciso que los operadores entiendan el texto. SÃ³lo tienen que ser buenos mecanÃ³grafos y reproducir exactamente lo que ven. Dado que este proceso suele generar errores, a menudo se utiliza el doble mecanografiado para detectarlos y corregirlos. Este mÃ©todo requiere que dos personas mecanografÃen independientemente el mismo documento, despuÃ©s de lo cual un operador provisto del texto original compara ambas versiones electrÃ³nicas palabra por palabra, con ayuda de un programa informÃ¡tico especial. Se parte de la premisa de que si una misma palabra ha sido escrita dos veces por separado de la misma manera, serÃ¡ correcta. Pero ello no siempre es asÃ, y cuando se quiere trabajar con la mÃ¡xima fiabilidad se recurre al triple mecanografiado.</Text>
655	<Text id="221">Teniendo en cuenta que el uso de un programa de OCR entraÃ±a el de computadoras de gran potencia, la ventaja bÃ¡sica de este mÃ©todo es que prescinde del OCR y por lo tanto permite utilizar computadoras mÃ¡s antiguas, sencillas o de segunda mano, lo que supone un ahorro considerable. AdemÃ¡s, esta labor requiere trabajadores menos especializados. En cuanto a sus inconvenientes, Ã©stos residen en el periodo de formaciÃ³n (de al menos dos meses) que se necesita y en la abundancia de errores que suelen darse con un proceso de mecanografiado Ãºnico, lo que obliga a trabajar por duplicado o triplicado.</Text>
656	<Text id="222">Los costos de este procedimiento dependen exclusivamente del nivel salarial. Los mecanÃ³grafos de paÃses en desarrollo suelen cobrar unos 150 dÃ³lares mensuales. Su productividad oscila entre 20 y 30 pÃ¡ginas diarias, lo que equivale a 400 pÃ¡ginas mensuales, comprendidas las ilustraciones. Suponiendo que se trabaje por duplicado, los costos salariales suman en total 300 dÃ³lares al mes, sin contar los gastos generales.</Text>
657	</Content>
658	</Subsection>
659	<Subsection id="image_files">
660	<Title>
661	<Text id="223">Archivos grÃ¡ficos</Text>
662	</Title>
663	<Content>
664	<Text id="224">Una alternativa sumamente barata al proceso de OCR consiste en utilizar simplemente una versiÃ³n grÃ¡fica en PDF de las pÃ¡ginas del documento, lo que reduce los costos a unos 0,1 dÃ³lares por pÃ¡gina (una pequeÃ±a fracciÃ³n de lo que costarÃa un proceso de OCR).</Text>
665	<Text id="225">Una vez concluido el escaneado y creados los archivos TIFF, se utiliza un convertidor automÃ¡tico (en general Acrobat o Photoshop de Adobe) para convertir en formato PDF todos los archivos TIFF correspondientes a las pÃ¡ginas del libro.</Text>
666	<Text id="226">El problema es que en esos archivos no se pueden efectuar bÃºsquedas y que ademÃ¡s son bastante pesados (por lo general 50 Kb por pÃ¡gina, con un margen de variaciÃ³n del 20% segÃºn la calidad del archivo TIFF original).</Text>
667	<Text id="227">La descarga de un archivo grÃ¡fico PDF es un proceso lento, a veces imposible o de precio prohibitivo en los paÃses en desarrollo. Esos archivos caben rara vez en un disquete y no admiten operaciones de manipulaciÃ³n del texto como la de âcortar y pegarâ.</Text>
668	<Text id="228">SÃ³lo se optarÃ¡ por esta soluciÃ³n cuando se carezca del presupuesto necesario para un proceso de OCR o cuando se trate de documentos destinados a un pÃºblico poco numeroso y provisto de una conexiÃ³n a Internet de bajo costo y alta velocidad.</Text>
669	</Content>
670	</Subsection>
671	</Content>
672	</Section>
673	<Section id="combining_scanning_and_ocr">
674	<Title>
675	<Text id="229">CombinaciÃ³n de escaneado y OCR</Text>
676	</Title>
677	<Content>
678	<Text id="230">La mayorÃa de los programas de OCR pueden escanear una pÃ¡gina y efectuar inmediatamente el reconocimiento Ã³ptico, a condiciÃ³n de que el escÃ¡ner estÃ© conectado directamente a la computadora que ejecuta el programa. Aunque escanear y efectuar el OCR pÃ¡gina a pÃ¡gina es un mÃ©todo razonable cuando se trabaja con pocos documentos, resulta muy largo para trabajos mÃ¡s voluminosos y continuos.</Text>
679	<Text id="231">Esta soluciÃ³n es adecuada para cantidades entre 100 a 150 pÃ¡gina al mes. Para tratar volÃºmenes superiores, en cambio, es mÃ¡s rÃ¡pido y eficaz escanear en primer lugar el documento y aplicar despuÃ©s el proceso de OCR a todas las pÃ¡ginas de una sola vez.</Text>
680	</Content>
681	</Section>
682	</Content>
683	</Chapter>
684	<Chapter id="three_examples">
685	<Title>
686	<Text id="232">De 1.000 a 100.000 pÃ¡ginas en tres ejemplos</Text>
687	</Title>
688	<Content>
689	<Section id="typical_small_collection">
690	<Title>
691	<Text id="233">Una colecciÃ³n de pequeÃ±as dimensiones: de 500 a 1.000 pÃ¡ginas</Text>
692	</Title>
693	<Content>
694	<Text id="234">La mayorÃa de las ONG tienen un volumen de 500 a 1.000 pÃ¡ginas por escanear. Si disponen de voluntarios motivados pueden asumir por cuenta propia el proceso de OCR.</Text>
695	<Part id="scanning">
696	<Title>
697	<Text id="235">Escaneado</Text>
698	</Title>
699	<Content>
700	<Text id="236">El primer paso consiste en escanear las publicaciones para generar un archivo TIFF de alta calidad para cada pÃ¡gina y una imagen bitmap independiente (ya sea de dibujo de lÃneas simples, escala de grises o color) para cada ilustraciÃ³n. Suponiendo que deban escanearse 1.000 pÃ¡ginas, ello puede equivaler a cerca de un mes de trabajo a tiempo parcial (sÃ³lo para el escaneado). Los archivos TIFF ocuparÃan entre 60 y 80 Mb de espacio en el disco duro, por lo que es aconsejable utilizar un CD-ROM para dar cabida a esos archivos. Un escÃ¡ner plano de precio reducido (entre 100 y 300 dÃ³lares) basta para realizar ese trabajo, del que puede ocuparse un voluntario despuÃ©s de la jornada laboral o durante los fines de semana, ya sea en la oficina o en casa.</Text>
701	</Content>
702	</Part>
703	<Part id="ocr">
704	<Title>
705	<Text id="237">OCR</Text>
706	</Title>
707	<Content>
708	<Text id="238">La segunda etapa es la del proceso de OCR, que se encomendarÃ¡ a otro voluntario, o equipo de voluntarios, con buenos conocimientos lingÃŒÃsticos y de correcciÃ³n ortogrÃ¡fica. Cabe la posibilidad de repartir los archivos TIFF entre varias computadoras o bien de utilizar una sola mÃ¡quina para la totalidad del trabajo. Por lo general se requieren entre cinco y seis meses de trabajo a tiempo parcial (a razÃ³n de 20 horas semanales, por ejemplo) para convertir 1.000 pÃ¡ginas en documentos impecables en formato Word o HTML.</Text>
709	</Content>
710	</Part>
711	<Part id="outsourcing">
712	<Title>
713	<Text id="239">SubcontrataciÃ³n</Text>
714	</Title>
715	<Content>
716	<Text id="240">Una posibilidad alternativa es la de subcontratar los procesos de escaneado y OCR. La conversiÃ³n de todos los documentos en archivos Word y HTML impecables costarÃa probablemente entre 1.500 y 2.000 dÃ³lares.</Text>
717	</Content>
718	</Part>
719	</Content>
720	</Section>
721	<Section id="all_publications_from_an_organization">
722	<Title>
723	<Text id="241">Todas las publicaciones de una organizaciÃ³n: 5.000 pÃ¡ginas</Text>
724	</Title>
725	<Content>
726	<Text id="242">Los archivos de muchas organizaciones de mayor tamaÃ±o pueden contener unas 5.000 pÃ¡ginas de libros (en catÃ¡logo o agotados), revistas, boletines, documentos, etc.</Text>
727	<Part id="scanning_1">
728	<Title>
729	<Text id="243">Escaneado</Text>
730	</Title>
731	<Content>
732	<Text id="244">Se trata de un volumen excesivo para un escÃ¡ner plano, lo que deja dos opciones: subcontratar el trabajo (contando unos 400 dÃ³lares por 5.000 pÃ¡ginas) o adquirir un escÃ¡ner con alimentador de papel (aproximadamente 900 dÃ³lares). Otra alternativa es que varias instituciones u ONG adquieran conjuntamente un escÃ¡ner mÃ¡s caro (6.000 dÃ³lares, divididos por el nÃºmero de participantes). Las 5.000 pÃ¡ginas en formato TIFF ocuparÃan entre 300 y 400 Mb en el disco duro. SeÃ±alemos de nuevo la conveniencia de utilizar un CD-ROM para guardar esos archivos.</Text>
733	</Content>
734	</Part>
735	<Part id="ocr_1">
736	<Title>
737	<Text id="245">OCR</Text>
738	</Title>
739	<Content>
740	<Text id="246">A continuaciÃ³n hay que ocuparse del proceso de OCR, que puede encargarse a otro voluntario, o equipo de voluntarios, diestro en tÃ©cnicas de OCR y correcciÃ³n ortogrÃ¡fica. Como en el caso anterior, es posible utilizar varias computadoras o una sola para esta tarea. La conversiÃ³n de 5.000 pÃ¡ginas en archivos Word o HTML impecables exigirÃa entre 25 y 30 meses de trabajo a tiempo parcial (a razÃ³n de 20 horas semanales), lo que en la prÃ¡ctica descarta el empleo exclusivo de voluntarios porque lleva demasiado tiempo y requiere un uso excesivo de la computadora. Para concluir el trabajo en un plazo razonable y con un buen nivel de calidad habrÃa que pagar a los voluntarios, supervisar su rendimiento y la calidad de su labor, proporcionarles espacio adecuado, etc.</Text>
741	<Text id="247">Una posibilidad alternativa es la de crear archivos grÃ¡ficos PDF, que ocuparÃan entre 300 y 400 Mb de memoria y resultarÃan mÃ¡s difÃciles de descargar de Internet.</Text>
742	</Content>
743	</Part>
744	<Part id="outsourcing_1">
745	<Title>
746	<Text id="248">SubcontrataciÃ³n</Text>
747	</Title>
748	<Content>
749	<Text id="249">Otra alternativa es la de subcontratar los procesos de escaneado y OCR, lo que costarÃa probablemente entre 7.500 y 10.000 dÃ³lares.</Text>
750	</Content>
751	</Part>
752	</Content>
753	</Section>
754	<Section id="a_small_library">
755	<Title>
756	<Text id="250">Una pequeÃ±a biblioteca: 100.000 pÃ¡ginas</Text>
757	</Title>
758	<Content>
759	<Text id="251">Otras entidades de mayor envergadura, universidades, gobiernos o bibliotecas especializadas podrÃan tener una biblioteca entera por digitalizar, algo asÃ como unas 100.000 pÃ¡ginas. Lo primero que se debe tener en cuenta es la situaciÃ³n de las publicaciones en materia de derecho de autor: bien estÃ¡n incluidas en el dominio pÃºblico o bien hay que obtener permiso explÃcito de los titulares de los derechos para poder digitalizarlas. Conviene cerciorarse asimismo de que los documentos no existen ya en formato electrÃ³nico.</Text>
760	<Part id="scanning_2">
761	<Title>
762	<Text id="252">Escaneado</Text>
763	</Title>
764	<Content>
765	<Text id="253">100.000 pÃ¡ginas son demasiadas para un escÃ¡ner con alimentador de papel, por lo que caben dos opciones: subcontratar el trabajo (a unos 8.000 dÃ³lares las 100.000 pÃ¡ginas) o adquirir, conjuntamente con otras instituciones u ONG, un equipo de mayor calidad y precio (6.000 dÃ³lares, divididos entre los participantes). 100.000 pÃ¡ginas en formato TIFF ocuparÃ¡n entre 6 y 8 Gb en el disco duro. Lo ideal es crear copias de esos archivos en discos CD-ROM.</Text>
766	</Content>
767	</Part>
768	<Part id="ocr_2">
769	<Title>
770	<Text id="254">OCR</Text>
771	</Title>
772	<Content>
773	<Text id="255">La segunda etapa es el proceso de OCR (en el caso de documentos menos utilizados, tambiÃ©n cabe la posibilidad de crear archivos PDF). Convertir 100.000 pÃ¡ginas en archivos Word o HTML impecables llevarÃa entre 500 y 700 meses de trabajo a tiempo parcial, lo que a todas luces descarta el uso de voluntarios para esta tarea, mÃ¡s propia de profesionales.</Text>
774	<Text id="256">Para ahorrar costos se pueden convertir en PDF algunas de las pÃ¡ginas menos utilizadas (digamos el 80%, u 80.000 pÃ¡ginas), reservando los formatos Word o HTML para las 20.000 pÃ¡ginas restantes. Los archivos PDF ocuparÃan entre 4 y 6 Gb de espacio y no serÃa fÃ¡cil descargarlos de Internet, pero en cambio saldrÃan baratos si los creara una empresa especializada (sÃ³lo 0,2 dÃ³lares por pÃ¡gina, lo que supone un costo total de 16.000 dÃ³lares). Utilizando voluntarios para crear 80.000 archivos PDF a partir de archivos TIFF mediante programas de conversiÃ³n como Acrobat de Adobe se precisarÃan 10 a 20 meses de trabajo a tiempo parcial con una computadora de gran potencia.</Text>
775	</Content>
776	</Part>
777	<Part id="outsourcing_2">
778	<Title>
779	<Text id="257">SubcontrataciÃ³n</Text>
780	</Title>
781	<Content>
782	<Text id="258">Una posible alternativa es la de subcontratar el trabajo. Suponiendo que se mantuviera la mencionada proporciÃ³n del 80% en PDF y el 20% en HTML, los archivos PDF costarÃan unos 16.000 dÃ³lares y los archivos HTML entre 30.000 y 40.000 dÃ³lares, con lo que el presupuesto total ascenderÃa a unos 50.000 dÃ³lares. Si se sometieran todos los documentos a un proceso de OCR, convertir toda la colecciÃ³n en archivos Word y HTML impecables costarÃa entre 150.000 y 200.000 dÃ³lares.</Text>
783	</Content>
784	</Part>
785	</Content>
786	</Section>
787	</Content>
788	</Chapter>
789	<Chapter id="creating_an_electronic_collection">
790	<Title>
791	<Text id="259">CreaciÃ³n de una colecciÃ³n digital</Text>
792	</Title>
793	<Content>
794	<Text id="260">Hay tres aspectos importantes que conviene tener en cuenta a la hora de crear una colecciÃ³n digital. En primer lugar es preciso organizarla. A mayor volumen de contenido, mayor necesidad hay de Ãndices y sistemas potentes de bÃºsqueda, indispensables cuando la colecciÃ³n supera las 3.000 a 5.000 pÃ¡ginas. En segundo lugar, deben prevalecer las necesidades del usuario final. Es preciso identificar los grupos que usarÃ¡n la colecciÃ³n y establecer un proceso de consulta periÃ³dica con ellos. En tercer lugar, el presupuesto disponible determinarÃ¡ quÃ© tanto se puede hacer.</Text>
795	<Section id="methods_of_collection_building">
796	<Title>
797	<Text id="261">MÃ©todos para crear colecciones</Text>
798	</Title>
799	<Content>
800	<Text id="262">Abundan los ejemplos de excelentes CD-ROM elaborados siguiendo el modelo de una pÃ¡gina Web, en la que por medio de hipervÃnculos se insertan y enlazan entre sÃ documentos en formato HTML, PDF o Word. El uso de hipervÃnculos, marcos y grupos estructurados, palabras clave, Ãndices y demÃ¡s elementos de este tipo hace fÃ¡cil y atractiva la navegaciÃ³n. Estos sistemas funcionan bien con volÃºmenes de unos cuantos miles de pÃ¡ginas, pero a partir de 3.000 a 5.000 pÃ¡ginas es importante que la colecciÃ³n estÃ© bien organizada y ofrezca un dispositivo de bÃºsqueda potente. AhÃ es donde el programa Greenstone puede resultar de utilidad.</Text>
801	<Text id="263">El programa Greenstone crea una biblioteca digital estructurada y provista de un poderoso buscador y un mecanismo de recuperaciÃ³n. Es posible indexar hasta 150,000 pÃ¡ginas en un solo CD-ROM, que ademÃ¡s puede funcionar como servidor de Internet. Greenstone es un software de cÃ³digo fuente abierto y por lo tanto puede obtenerse gratuitamente bajo las condiciones estipuladas en la Licencia PÃºblica General de GNU.</Text>
802	<Text id="264">En los manuales de consulta que acompaÃ±an al programa se explica cÃ³mo crear colecciones Greenstone. BÃ¡sicamente existen tres formas de hacerlo.</Text>
803	<BulletList>
804	<Bullet>
805	<Text id="265">Con la interfaz de bibliotecario</Text>
806	</Bullet>
807	<Bullet>
808	<Text id="266">Con el programa de recopilaciÃ³n, tambiÃ©n conocido como Colector</Text>
809	</Bullet>
810	<Bullet>
811	<Text id="267">Crearlas desde la lÃnea de comandos.</Text>
812	</Bullet>
813	</BulletList>
814	<Text id="268">El primer mÃ©todo corresponde a la interfaz de bibliotecario descrita laÂ <i>GuÃa del Usuario de la Biblioteca Digital Greenstone</i>Â (CapÃtulo 3, âCreando colecciones Greenstoneâ). Ãsta es una herramienta interactiva para la creaciÃ³n de colecciones que permite reunir grupos de documentos, importar o asignar metadatos e integrarlos a una colecciÃ³n. El segundo mÃ©todo es el subsistema de recopilaciÃ³n descrito en el CapÃtulo 4 de laÂ <i>GuÃa del Usuario</i>Â llamado âColectorâ. Se trata de una herramienta que aparece en versiones anteriores y ofrece una alternativa para la creaciÃ³n de colecciones de pÃ¡ginas web u otros documentos, guiÃ¡ndolo a travÃ©s de una secuencia de pÃ¡ginas Web interactivas que solicitan la informaciÃ³n conforme vaya siendo necesaria. No obstante, no proporciona ninguna forma de agregar metadatos a los documentos y, debido a su interfaz Web, no es realmente adecuada para colecciones cuya construcciÃ³n requiera mÃ¡s de unos cuantos minutos. El tercer mÃ©todo es ejecutar los programas que permiten construir la colecciÃ³n directamente desde la lÃnea de comandos que se encuentra en el CapÃtulo 1 de laÂ <i>GuÃa del Programador de la Biblioteca Digital Greenstone</i>. Este mÃ©todo le ofrece una mayor flexibilidad para ejecutar los programas de manera individual y le ahorra los pasos intermedios que quizÃ¡ fueran deseables para colecciones que requirieran de muchas horas en su construcciÃ³n. TambiÃ©n necesitarÃ¡ leer el CapÃtulo 2 con el fin de aprovechar todo el poder que le ofrece Greenstone para la creaciÃ³n de colecciones avanzadas.</Text>
815	<Text id="269">Existe una cuarta herramienta para crear y editar el material asociado a una colecciÃ³n llamada Organizador. Sin embargo, sus funciones han sido sustituidas por las de la interfaz de bibliotecario mencionada arriba. Este mÃ©todo se describe en el documento tituladoÂ <i>Uso del Organizador.</i>
816	</Text>
817	</Content>
818	</Section>
819	<Section id="getting_started_in_seven_steps_and_15_minutes">
820	<Title>
821	<Text id="270">Aprendiendo a usar la interfaz en siete pasos y 15 minutos</Text>
822	</Title>
823	<Content>
824	<Text id="271">La mejor forma de conocer las caracterÃsticas y el funcionamiento de la interfaz de bibliotecario Â es crear una pequeÃ±a biblioteca de prueba. Si dispone de 15 minutos, por favor siga los pasos que se indican a continuaciÃ³n y asÃ usted obtendrÃ¡ una mejor comprensiÃ³n de este programa.</Text>
825	<Text id="272">Antes de empezar lo primero que deberÃ¡ hacer es instalar Greenstone (vea laÂ <i>GuÃa de InstalaciÃ³n</i>), el cual incluye una colecciÃ³n de muestra en formato DLS y sus archivos fuente.Â <b>Recuerde, si desea aÃ±adir a su colecciÃ³n cualquiera de los 140 documentos de la colecciÃ³n DLS completa (en vez de sÃ³lo los 11 de esta colecciÃ³n de muestra) tambiÃ©n deberÃ¡ instalar la DLS como una de las bibliotecas Greenstone de muestra.</b>Â Las colecciones de muestra y DLS se instalarÃ¡n enÂ <i>C:\Program Files\gsdl\collect</i>, en los subdirectoriosÂ <i>demo</i>Â yÂ <i>dls</i>Â respectivamente. Si anteriormente usted ya instalÃ³ Greenstone sin la colecciÃ³n DLS y desea instalarla ahora, sÃ³lo tiene que insertar nuevamente el CD-ROM Greenstone y aÃ±adir la colecciÃ³n. No es necesario desinstalar Greenstone primero.</Text>
826	<Text id="273">Le sugerimos que imprima las instrucciones que aparecen a continuaciÃ³n y las siga paso a pasoÂ :</Text>
827	<NumberedList>
828	<NumberedItem>
829	<Text id="274">Para iniciar la interfaz bajo Windows seleccioneÂ <i>Biblioteca Digital Greenstone</i>Â en la secciÃ³n deÂ <i>Programas</i>Â del menÃº deÂ <i>Inicio</i>Â y elijaÂ <i>Interfaz de Bibliotecario</i>Si en vez de Windows usted estÃ¡ usando UNIX escriba:</Text>
830	<CodeLine>cd ~/gsdl</CodeLine>
831	<CodeLine>cd gli</CodeLine>
832	<CodeLine>./gli.sh</CodeLine>
833	<Text id="275">dondeÂ <i>~/gsdl</i>Â es el directorio que contiene su sistema Greenstone.</Text>
834	</NumberedItem>
835	<NumberedItem>
836	<Text id="276">SeleccioneÂ <i>Nueva</i>Â en el menÃº Archivo que se encuentra en la barra horizontal en la parte superior de la ventana. Dele un tÃtulo, por ejemplo âMi primera colecciÃ³nâ y escriba su direcciÃ³n de correo electrÃ³nico y una breve descripciÃ³n de la colecciÃ³n. En el menÃº âBasar esta colecciÃ³n enâ elija âcolecciÃ³n de muestra Greenstoneâ o âSubconjunto de la Biblioteca para el Desarrolloâ (DLS por sus siglas en inglÃ©s). El efecto es el mismo, ya que ambas colecciones tienen la misma estructura.</Text>
837	</NumberedItem>
838	<NumberedItem>
839	<Text id="277">AÃ±ada algunos documentos de la colecciÃ³n de muestra (o de la colecciÃ³n DLS si estÃ¡ instalada) a su nueva colecciÃ³n. Para ello haga doble click en la carpeta deÂ <i>Colecciones Greenstone</i>Â en el cuadro izquierdo y a continuaciÃ³n haga doble click en la colecciÃ³n que prefiera. Los documentos que hay en ella aparecerÃ¡n en pantalla. Seleccione uno, arrÃ¡strelo y colÃ³quelo en el cuadro derecho. Este panel representa la colecciÃ³n que estÃ¡ construyendo. Elija varios documentos y arrÃ¡strelos uno por uno o seleccione y arrastre varios de ellos al mismo tiempo de la manera normal.</Text>
840	</NumberedItem>
841	<NumberedItem>
842	<Text id="278">Agregue algunos de sus propios documentos que no estÃ©n en la colecciÃ³n de muestra o en la DLS. Cierre la carpeta deÂ <i>Colecciones Greenstone</i>Â en el cuadro izquierdo y haga doble click en la carpetaÂ <i>Local Filespace (Espacio de archivo local)</i>Vaya a un directorio que contenga algunos documentos (p. ej. pequeÃ±os archivos de Word o HTML) y arrastre unos cuantos de ellos al cuadro derecho para incluirlos en su colecciÃ³n.</Text>
843	</NumberedItem>
844	<NumberedItem>
845	<Text id="279">AÃ±ada metadatos a los documentos de su colecciÃ³n. Hasta este momento usted ha estado operando en el panel indicado por medio de la pestaÃ±aÂ <i>Gather (Reunir)</i>Â que se encuentra debajo de la barra de menÃºs horizontal en la parte superior de la ventana. Haga click en la pestaÃ±aÂ <i>Enrich (Enriquecer)</i>Â que se encuentra a un lado. Los documentos de su colecciÃ³n aparecerÃ¡n ahora en el cuadro del lado izquierdo. Haga click en uno y examine los metadatos asociados a Ã©l que se muestran en la tablaÂ <i>âElement ... Valueâ (Elemento ... Valor)</i>Â en la parte superior derecha. Use el cuadro que estÃ¡ debajo para cambiar los valores individuales seleccionando el elemento que desee y escogiendo un valor existente de la lista o escribiendo un nuevo valor en el recuadro que se encuentra cerca de la parte inferior. AÃ±ada los metadatosÂ <i>TÃtulo</i>,Â <i>OrganizaciÃ³n</i>Â yÂ <i>Palabra clave</i>Â para cada uno de sus documentos que quiera poner en la colecciÃ³n. DespuÃ©s de escribir cada valor usted necesitarÃ¡ hacer click enÂ <i>âAppendâ (Agregar)</i>Â para guardar dicho valor.</Text>
846	</NumberedItem>
847	<NumberedItem>
848	<Text id="280">Haga click en la pestaÃ±aÂ <i>Create (Crear)</i>Â para salir del modoÂ <i>Enriquecer</i>Â y crear su nueva colecciÃ³n. Haga click en el botÃ³nÂ <i>Build Collection (Construir la colecciÃ³n)</i>Â que se encuentra en la parte inferior. Conforme la computadora va construyendo la colecciÃ³n usted recibirÃ¡ informaciÃ³n sobre lo que estÃ¡ haciendo.</Text>
849	</NumberedItem>
850	<NumberedItem>
851	<Text id="281">Una vez que haya terminado haga click en la pestaÃ±aÂ <i>Preview (Vista previa)</i>Â para ver la colecciÃ³n desde el interior de la interfaz de bibliotecario. Revise las listas deÂ <i>tÃtulos de la âaâ la âzâ</i>,Â <i>organizaciones</i>Â yÂ <i>cÃ³mo hacer</i>Â para asegurarse de que sus documentos han sido incluidos en la colecciÃ³n. Asimismo cuando visite su pÃ¡gina principal de Greenstone usted encontrarÃ¡ que la colecciÃ³n ha sido instalada como una de las colecciones regulares.</Text>
852	</NumberedItem>
853	</NumberedList>
854	</Content>
855	</Section>
856	</Content>
857	</Chapter>
858	<FootnoteList>
859	<Footnote id="1">
860	<Text id="282">Todos los importes indicados en este documento se expresan en dÃ³lares estadounidenses y corresponden a las tarifas vigentes en 2001.</Text>
861	</Footnote>
862	<Footnote id="2">
863	<Text id="283">Recordemos que todos los importes estÃ¡n expresados en dÃ³lares estadounidenses de 2001 y corresponden a las tarifas vigentes en 2001.</Text>
864	</Footnote>
865	</FootnoteList>
866	</Manual>

Note: See TracBrowser for help on using the repository browser.

Download in other formats: