10 agosto 2015

Cómo pasar fotos de libros a pdf (sin OCR)

Hola a todos y feliz comienzo de semana desde... Oxford.

Escribir, o tratar de escribir una tesis no es tarea fácil, y si le añadimos las vicisitudes de la vida real y el rechazo profundo que siente mi cuerpo a estar sentado más de media hora, todo ello podría ser una buena excusa para este largo tiempo sin escribir: la simple realidad es que no lo he hecho, sea cual sea el motivo. Sin embargo, gracias a este periodo de descanso tengo más cosas de las que hablar, y con mayor conocimiento de causa.

Suele ser habitual que no siempre encontremos el libro que buscamos en formato digital (pdf, djvu o mobi/epub), ante lo cual, mi solución provisional suele ser recurrir a la cámara del móvil: con una mano abres el libro mientras haces malabares con la otra para pulsar el botón en una pantalla que no apenas ves y sin por supuesto perder el pulso, luchando además con el deseo espontáneo de tu cámara de enfocar ese precioso fondo blanco amarillento en lugar de las letras, que es lo que me interesa. Después de cinco, diez o media hora tienes una carpeta llena de fotos; funcional, sí, pero poco manejable para enviar por correo o gestionar con una base de datos (Mendeley en mi caso, de la que hablaré pronto).

1. Una foto cualquiera sacada con el móvil
2. El resultado que buscamos


Esto se ha convertido en un proceso rutinario desde casi los comienzos de la tesis, al igual que la esperanza de encontrar una mágica aplicación que convirtiera esa colección de retratos librescos en un pequeño y legible pdf. Pero cuando la necesidad aguza el ingenio, y una de las soluciones a las que llegué fue usar un programa de edición de imágenes para pasar las fotos a ByN, reducir su tamaño y por último comprimirlas en un pdf con otro muy gracioso llamado smallpdf.

Antes de nada quiero dejar claro que no es mi intención fomentar en modo alguno el pirateo, sino ofrecer una manera de gestionar más cómodamente una copia privada de material sobre el que tenemos los derechos. El resultado, por otra parte, seguirán siendo imágenes: no podremos hacer búsqueda de texto ni nada por el estilo; lamentablemente, la tecnología actual de OCR, a pesar de todas los avances y promesas que hagan en sus páginas, sigue sin llevar muy bien eso de las tablas, símbolos, notas a pie de página y el reconocimiento de varios idiomas a la vez. Y aunque lo hicieran, la fiabilidad del resultado nunca es del 100%. Lo siento pero soy muy quisquilloso en eso.

Manos a la obra. Tomemos como punto de partida un artículo cualquiera, de unas 10 o 20 páginas y demos por hecho que hemos sacado un número equivalente de fotos con unas condiciones de iluminación decentes para leer. Nuestro objetivo es conseguir el mismo número de fotos con texto negro sobre fondo blanco, sin perder nitidez en los trazos de las letras. No importa qué programa (o software si lo preferís) utilicéis mientras sea un editor de imágenes que permita manejar capas. En este ejemplo uso paint.net, aunque Gimp o Photoshop son igualmente válidos; la última opción es como matar una mosca a cañonazos en términos de potencia, y Gimp, al menos en windows 8, corre más lento que el primero.

A continuación tenéis un video donde explico lo que voy haciendo, y por si no queda claro, debajo están los pasos generales.



  1. Bordes fuera. Recortamos el marco de la imagen; ojo, no es lo mismo que redimensionar la imagen. Escoged una opción del estilo "cambiar tamaño de lienzo" o más rápido, "selección rectangular" > dibujar un rectángulo que se ajuste al texto dejando un poco de margen > "ajustar lienzo/imagen a la selección".
  2. Color fuera. Al carajo la policromía. Pasamos la imagen a blanco y negro utilizando bien una opción del estilo "modo > blanco y negro" o bien "desaturar" (sinónimo de "quitar colores"). Quizá apreciéis más sombras en el papel de esta manera, pero es un efecto óptico: ya estaban ahí. No pasa nada.
  3. Duplicar capa. Literalmente, buscamos el menú de "capas" y creamos una copia de la imagen que tenemos.
  4. Modificar la imagen. Trabajamos por capa así que ojo al menú de capas para ver en cual estamos trabajando.
    1. Capa de fondo (abajo). Usamos la herramienta "detectar bordes". Si os da a elegir el modo de detección, Sobel me ha dado buenos resultados. Tendréis una imagen llena de líneas blancas sobre fondo negro. Invertimos los colores ("invertir color")
    2. Capa superior (arriba). Con la herramienta "seleccionar color" y un nivel de zoom decente, pinchamos sobre el color negro de una letra. El objetivo es seleccionar todos el texto, que en el caso de una buena foto, suele ser de un mismo tono de negro más oscuro que el resto. No es tarea fácil siempre, aún así, atinar a la primera. El truco es por un lado, jugar con la sensibilidad de la herramienta y, en caso de que la selección resultante os incluya el fondo de la página en las partes sombreadas, pinchar sobre una letra dentro de una zona sombreada. Una vez hecho esto, invertimos la selección y usamos la herramienta "borrar" para eliminar todo lo que no sea texto.
  5. Si todo ha salido bien, la selección de color negro de la capa superior se solapará con los bordes de texto que resaltamos en la capa inferior, corrigiendo con ello esos molestos píxeles sueltos que hubieramos tenido si sólo hubieramos ejecutado el punto 4.2. Guardamos como png y a por la siguiente imagen.
Repetir el proceso con cada imagen puede ser un poco agotador, y aunque sé que la solución pasaría por crear una macro, cosa que Gimp soporta (aunque no lo he probado), paint.net es muchísimo más rápido aun con varios archivos abiertos a la vez. Si alguien conoce la solución, le estaría muy agradecido si la compartiera en los comentarios.

Hasta la próxima, χαιρετε / bene valete!

26 febrero 2015

Un manual clásico: Introducción a la lingüística de Eugenio Coseriu

Últimamente no hago otra cosa que leer y tomar notas, con la razón de proseguir mi tesis, aunque en algunas ocasiones pueda convertirse en excusa para aprender cosas que no tienen que ver tanto con lo primero como con lo debí haber leído en su momento y no hice. Resultado de una de tales situaciones fue topar con la Introducción a la Lingüística, del profesor Eugenio Coseriu.


Realmente hace al nombre "introducción", presentando los conceptos más básicos del estudio del lenguaje con un lenguaje directo y sin muchos giros retóricos de esos a los que ciertos especialistas nos tienen acostumbrados. Carece de notas, tanto al pie como al final; el libro se despliega (explicatur) con naturalidad y sin cortes te lleva desde los objetivos que persigue la lingüística hasta la descripción somera de sus principales ramas de estudio, asentando por el camino algunos conceptos básicos, de forma perfectamente válida hoy, a pesar de la cierta edad que achaca - más de cincuenta años -  porque aunque la edición sea del 86, la composición original remonta a mitad del s.XX.

Personalmente no soy muy fan del pie de página, ni me gusta que un montón de información extra invada mi contacto con un libro a menos que lo busque. Es como intentar seguir una conversación rodeado de carteles luminosos y ruido; tanto más molesto cuando más interesante sea la charla. En este sentido, esta obra merece mi aplauso. La narrativa es fluida y al poco tiempo te mantiene atento sin mucho esfuerzo.

Como punto negativo sólo puedo decir que en ocasiones parece más viejo de lo que es, no tanto por las fechas de composición y edición que comentaba antes, sino por el tratamiento de ciertos conceptos. Así por ejemplo, la mayor parte de las veces el autor parece en sus opiniones más cercano cronológicamente a la filología alemana del s.XIX y Saussure, que a sus contemporáneos, a los que apenas dedica una atención destacada, aunque les mencione. Es un defecto que vengo observando en algunos estudiosos, sobretodo del mundo clásico español universitario (que me perdonen si me equivoco, cosa probable), cuyos pies avanzan cojeando hacia las novedades, como si uno de ellos estuviera aún firmemente encadenado a su reverenciada pero arcaica Altertumswissenschaft.

A pesar de lo dicho, es una lectura muy necesaria para cualquiera con interés hacia el estudio del lenguaje, que le allanará el camino a obras más específicas.

Optima vobis optans, valete sodales.

03 octubre 2014

Contribuciones a la biblioteca digital Perseus (Perseus Open Publication Series)

Después de casi dos años sin escribir nada, vuelvo a la carga. Han pasado muchas cosas durante este tiempo, y me gustaría darle un giro un poco más serio al blog. Yo mismo intentaré ser más firme con la frecuencia de publicación, aunque esté ocupado con la tesis. Por otra parte, escribir de una forma más informal sobre esas cosas que uno encuentra interesantes durante el proceso es relajante, y enriquecedor.

Muchos conocereis el Proyecto Perseus, esa amalgama de recursos, a medias entre enciclopedia, thesaurus de textos y diccionario de la Antigüedad. Yo la encontré un día como alternativa a Diógenes, el programa que utilizo para consultar el TLG y el PHI, pero en realidad es una verdadera constelación de herramientas e ideas muy atractivas, que os animo a explorar.

Hoy os traigo una noticia de ayer, 2 de octubre. La Perseus Digital Library (Universidad Tufts) junto el proyecto Open Philology de Leipzig están preparando una ampliación de material - textos en formato digital y archivos de datos - y para ello buscan gente que quiera contribuir. La iniciativa se llama Perseus Open Publication Series (POPS) y buscan por el momento:

  • ediciones, tanto en griego como latín.
  • traducciones a idiomas modernos.
  • comentarios.
  • aportaciones al Ancient Greek and Latin Dependency Treebanks [sobre esto me gustaría hablar en una entrada independiente].

Insisten especialmente en las traducciones, y con respecto al formato, aunque admitan archivos .html, .pdf, y .doc prefieren documentos .xml que sigan la normativa TEI (archivos epidoc si es material epigráfico). Ofrecen cursos de formación a los participantes que les parezcan más atractivos. Si estáis interesados en participar, el email de contacto es: perseus_pops@tufts.edu.

A diferencia de otros proyectos enfocados a la digitalización de lo que llamo el "proceso filológico" (edición, comentario, traducción), la iniciativa de Perseus siempre ha sido abierta. Los textos publicado bajo su enseña tienen licencia Creative Commons y su acceso libre y gratuito.

Salvete omnes / Χαιρετε φίλοι

19 noviembre 2012

Ego sic semper ignaris


Reza el dicho "el que calla otorga", pero el silencio es relativo, y cuando los oídos de quien tiene que escuchar están taponados de billetes, orgullo y/o ponzoñoso deseo de poder, otorga un mudo y otorga Aquiles aunque esté derrumbando a voces los muros de Troya llamando a Héctor.

Leo hace poco esta entrevista al vicepresidente de la SEEC (Sociedad Española de Estudios Clásicos), sobre el reciente anteproyecto de reforma educativa. Y el panorama está negrillo, sobretodo para aquellos a los que su vocación dirige hacia los institutos. Pero todavía no está todo perdido; no, señor.

Me considero una persona lenta para hacer cosas. La mayor parte de mi vida ha sido por no saber aprovechar bien el tiempo, pero últimamente sobretodo porque me gusta hacerlas bien. E intentándolo el primer bache es la propia ignorancia. Hoy rompo el silencio de meses para compartir con vosotros mis propios faltas, porque no quiero otorgar, y porque tengo la esperanza de ilustrar, una vez más, la tan coreada pregunta ¿para qué sirve el latín y el griego? y otra muy cercana ¿por qué nos toca tanto los coleones a los profesores clásicos que se juegue con la educación?

12 enero 2012

Utilidad del Latín

Aún nos asombramos al escuchar expresiones del tipo “motu proprio”, “quid pro quo”, “idem”,... como si quisieran decirnos algo diferente de lo que encierran y no nos damos cuenta de que la lengua castellana se nutre de estas expresiones provenientes de lenguas que están ya muertas y a la vez vivas, vivas a la hora de querer expresar un sentimiento, un pensamiento, una idea o una opinión, muertas al no encontrar apenas personas con las que comunicar acciones cotidianas en esa lengua. 
No tenemos terminaciones para expresar relaciones sintácticas de una palabra dentro de una frase, pero sería incongruente el no reconocer el valor incalculable que nos han dejado las lenguas clásicas en nuestro idioma en todos los campos.

No es fácil para los filólogos sacar la cabeza en una época en la que lo que manda es la evolución tecnológica; pero claro, es que, salvo las lenguas modernas (sobre todo inglés, francés y alemán), los estudios humanísticos están cada vez menos valorados por la sociedad. Más aún para quienes se decantan por la Filología Clásica.

Por desgracia hoy día, para la mayoría de gente, estudiar ésta carrera constituye una pérdida total de tiempo, siendo totalmente incierto. Hay muchos factores que nos indican que esta carrera, es tan válida y tiene igual salidas que cualquier otra.

Sin embargo hay que ser claros y consecuentes: las lenguas clásicas viven hoy día en una dolorosa contradicción. Nunca han sido tan conocidas porque se hallan en una buena posición en los planes de estudios secundarios, siendo muchas las personas que tienen conocimiento de ellas, especialmente del latín. Ser alumno o profesor de estas materias llama poderosamente la atención, ya que la mayoría de la gente se pregunta: ¿qué utilidad puede tener el latín y el griego?
Si pensamos en ventajas rápidas e inmediatas, la respuesta es negativa: el latín y el griego son lenguas inútiles porque no nos ayudan a encontrar trabajo, ni para entendernos con los vecinos, ni para salir a comprar el pan. 

A pesar del panorama nos debemos dar cuenta de que el latín y el griego nos han dejado hábitos y costumbres que manejamos cotidianamente como el dominio de la expresión oral y escrita, tanto de la lengua propia y extranjera. 

En mi caso, empecé curiosamente por un trabajo de fin de Máster que tenía que hacer Jaime (latinimberbe), en la biblioteca, leyendo artículos de revistas, libros sobre autores clásicos,... todo me parecía muy pesado y se me hacía eterno; uno de ellos, “Collimo, un verbo fantasma” de Juan Francisco Domínguez Domínguez, lo que más me fascinó era que para escribir un artículo podía tirarse cuatro o cinco páginas para decir lo que yo hubiera puesto media... Parece de risa, pero así mismo me empezó a atraer la lectura clásica.

La carrera de Filología Clásica es imprescindible, está clarísimo, porque es la única forma de que todos mantengamos un contacto en el campo del lenguaje con nuestros antepasados; Por un lado, quieren que estemos interesados por la lectura, por el latín, por aprender,... por otro no se qué pensar ya que he llegado a oír de unos “eruditos” que presentar un trabajo bien hecho es hacer un trabajo que no sea entendido por aquellos que no sean especialistas. Pero bueno ya hablaré de la erudición más adelante.

La complicación por mantener el interés de los alumnos de esta generación por éstas lenguas se complica al ver que se preocupan más por toda la tecnología que les rodea que por conocer la evolución y el origen del lenguaje que tanta utilidad tiene hoy día; pero como ya sabemos, nada es imposible.

26 diciembre 2011

Apprehendere

Salve Imberbes! 

Feliz año 2012! Espero que la entrada de año sea maravillosa para vosotros, espero que hayamos entrado con muy buen pie en otro año repleto de emociones, situaciones, experiencias, viajes, sorpresas, alegrías, y también tristezas,... Brindemos para que todo lo bueno se convierta en mejor y lo peor salga de nuestra vida.

Desde hace unos meses empecé a coincidir con una lengua que nunca me había parecido interesante, el Latín, no me llamaba la atención, sobretodo porque nunca la había conocido de éste modo y desde tan cerca...
Cuando te enseñan un idioma, o cualquier asignatura, lo hacen de forma que parezca que tienes que aprenderlo forzosamente para "aprobar" y no para "aprender".

La palabra "aprender" viene del latín "apprehendere" compuesto por el prefijo ad (hacia) y el verbo prehendere (atrapar) y se relaciona con lo que hace un gato cuando persigue un ratón o un estudiante cuando persigue conocimiento.
Pero para aprender hace falta motivación y eso nos la inculcamos cada uno para superarnos y crecer.

Decidí pues, después de varias experiencias y anécdotas que aprendí de la persona que con tanto acierto creó este blog, embarcarme en un viaje por ésta lengua tan interesante, el Latín. En un principio empezamos con las clases, poco a poco para poder ir hablando por la calle cositas muy simples, luego empezamos los videos que vamos creando según avanzamos, o mejor dicho, según avanzo.

La finalidad de los videos es aprender de forma sencilla y divertida, el Latín, que en otros lados nos hacen aburrido.

Un abrazo fuerte y hasta muy prontito imberbes! :P

Traducere - comprehendere: técnicas para traducir


Bonum diem habeatis! Espero que hayáis pasado una Navidad estupenda, y que estéis disfrutando de las vacaciones. Yo aprovecho junto con Verónica estas fechas de descanso y os traigo otra entrada.

Hace ya un año más o menos que llevo dando clases particulares y un problema que me encuentro a menudo es la traducción. Los chavales consiguen, con más o menos acierto, acertar con el análisis morfológico; en la sintaxis se defienden con las funciones básicas (sujeto, complemento directo y circunstanciales con preposición) pero no tienen nada claras el resto; la traducción, por último, consiste en unir, o incrustar, las piezas que más o menos han podido obtener: el sentido se alcanza con lagunas y a duras penas. Del estilo literario mejor no hablemos.

Evidentemente, no a todo el mundo le pasan estas cosas, pero me centro en lo que conozco. A ellos y a los que se sientan identificados con ellos va dedicada esta entrada.

Traducir es una palabra que usamos mal a menudo los profesores. Es verdad que traducere significa llevar de un lado a otro, pero lo importante es lo que se lleva ¿idioma o contenido? Algunos habréis oído hablar de esto como "traducción literal versus traducción literaria"; una distinción absurda si coincidís conmigo en que el objetivo es comprender. Esta es la única exigencia: igual que cuando decimos algo queremos que se nos entienda, cuando traducimos estamos intentando que la gente de ahora - empezando por uno mismo - sepa lo que alguien hace la tira de años escribió. La forma en que lo dijeron es importante, porque también afecta al sentido: no es lo mismo decirle a alguien imbécil que mu listo no eres, la verdad.

¿Por qué digo que usamos mal el término? Porque veo que para los alumnos la traducción es un ejercicio consistente en subrayar, poner etiquetas a palabras, ordenar las etiquetas y pegar según el orden de las etiquetas el significado que da el diccionario de cada una de esas palabras; parece más una clase de geometría que un idioma.