sábado, 21 de febrero de 2015

Experimentos OCR sobre catalogación holgazaniforme de libros

Como quiero hacerme un inventario de libros, pero soy muy holganzán para hacerme el listado físico, he pensado a ver si un "reconocedor de caracteres óptico" (OCR) sería capaz de tal proeza a partir de unas fotos.
Si tuviera mediano éxito ya los alinearía mejor y tal.
En primer lugar he probado con par de programas online.

Obteniendo los siguientes resultados:

Foto a saco de 19 libros

http://www.free-ocr.com/ 
Eficacia de 2/19 = 0,105 (10%)

umtlíuanJ w sumo ll '“"’ “ """ ‘N’ 5
"""“ "’ l i" ‘ . ‘A usruuu
 1\1()(‘l( W125 m’ “su <x_)l1l1‘\l(
   
1 . 1. «.11 u.’ n’h|¡“.ur\u1 mnof)
A ’ «1 11111111111» 1=”.1111f;11’>‘1 1 t
 fl’
1
_¿ 910m1 llllfl n I| 0p sima 821 «mi».
’ EDGAR A. POE ’ POESÍA COMPLETA
N) . MELOUIAUEL 1NF1E1<NL> y»
_‘ 1o MLLO111A11EL1NF1ERNO f‘
mm .’11-«mm_’.w1yr¡ wrmuvng .11 Ï
‘AMAN ’
  LUCKY LUKE
VUSHIÏII USUI SHIIHÏHHII



http://www.onlineocr.net/ 
(Parece que lo ha reconocido al revés, se la he vuelto a subir girada, pero hace lo mismo) Eficacia de un 5% aprox, pero no es comparable.

1111113-NINS MS11 01111S0A
4NNOS09 MINOW
,5119nOVIMI 81/90
o oNsÁ3991 ih3ci \mol Á31.1 4 ~1'3991 `[ja Vicol 231-4
SI IANG-IIAI
aNni Dsoni
NVZ1:1111 4,41110~Gi
LNIAItri
t•MAIii1
"111 1:11.11,4
ar
1 II wos  1.I 1,1”.0111
V V •
V13'111,1100 VIS30d • 3041• IIVDC13
~ion las claves de la argumentación
VIIF1919
11,11111'1 '
\n'uno NODV11W1101 V1
101W11 I(') ) )1%1 I Ir 1 )1 )
I A cuinol'Ocl 410 est A

Software PC
Motor Tesseract 
No coment

v muy“
lS |)I ll\|( ( N'H ‘l\\|( A
N1 N |( ¡Y
K   a 
m IOR MULMION QUIMICA
‘ 1 ‘ EDGARA.POE°POFSIACOMHHA
N 1 ‘ —..v‘ U‘M‘Nv ¿Lenmgunngmo Q ¿ ’ ' w «ln
y WN myü'.'üm, ‘ TARZAN
í LUCKY LUKE
" vnsmmusm " sum-cual

Motor Cuneiform

W()('l(AI'i l>l I lbl( l )(„)l li1l( A  A fe  LP $Pt $ „8. !/f QI *)  I

--------------------------------------


Foto de 8 libros, también tal cual salen.


http://www.free-ocr.com/ 
Eficacia de un 1/8=0,12.
H» Ludwig Wittgenstem g 15mm w,“ g;
-‘o”u’.‘ u’ .l, ' ‘.° ,v'_ .’ ,""_'.o'_.’ "’.’.’. i.
Él a A ’fl’-‘--‘--‘I@www aw’:
I Fedónfá’ Platún ,
I ‘Jacas, gercüs. guerras y bruma‘
b Ütnpm  Y Uta?“ "“‘ ,


http://www.onlineocr.net/ 
Eficacia de 4/8=0,5 o superior. WOW!
I Ludwig Wittgenstein
■ Isidoro Reguera
RENE DESCARTES DISCURs0 Di 1. MÉTODO
a'hiN'L II t'II
Fedón ♦ Platón
Vacas. cerdos, guerras y brujas
Harris
Pr• • 1 • 1 1 •
Utopía riir
Utopía 1-, 

Con software en PC, el resultado era peor.

Resumen:
Se ha llegado a un reconocimiento del 50%, cosa que no esta nada mal. Seguramente, mejorando la fotografía (alineación y dirección de los títulos) se podrían conseguir mejores resultados. Por cierto, en la página más eficaz (http://www.onlineocr.net/ ), da igual la dirección en que subas la imagen, supongo que debe detectar la dirección automáticamente, por desgracia los libros están desordenados y pasa lo que pasa.

Los resultados no han sido dramáticamente malos, por lo que tal vez continúe la investigación.


No hay comentarios: