intercalados entre el texto... • Las herramientas automáticas no suelen ser capaces de extraer la información • Es necesario: • extraer el texto del PDF (xpdf / poppler) • y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)
buscar en él, ni copiarlo • Software para reconocer carácteres (OCR) • La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra) • Bastante trabajo: • Hay que revisar el resultado • Difícil de automatizar para muchos ficheros