sábado, 5 de noviembre de 2011

Estudiando artículos.

Un artículo de una fantástica bitácora, trajo a mi conocimiento la ley de Zipf, y algunas disgregaciones relacionadas con el tema del director del Cosmocaixa.


He querido recuperar algunas ideas, para intentar hacer algún análisis rápido y sencillo de textos, sin meterme en codificaciones o análisis textuales de verdad.

Tan solo utilizaré tres índices que paso mostrar y describir.

Índice de riqueza lingüística (IRL) = Palabras diferentes/ total de palabras

Índice de tecnicidad de Wagensberg (ITW) = palabras totales / caracteres totales

Y una versión del mismo que no penaliza por el uso de conectores o artículos:

Índice de complejidad de Antoñito (ICA) = Total de caracteres de cada palabra aparecida (contada una sola vez) / número de palabras diferentes.

Para realizar el análisis, utilizamos el software TextSTAT (no precisa instalación), que nos proporcionará un listado de palabras con sus frecuencias, el cual podremos exportar a Excel.

Después de hacer esto, para obtener el IRL, haremos el sumatorio de la columna de frecuencias de las palabras y lo dividiremos por el número de filas.


Para obtener el ICA, crearemos otra columna relacionada con la de palabras con la fórmula =LARGO(la casilla que sea), que nos devolverá la cantidad de caracteres de cada palabra. Hacemos el sumatorio de la misma y lo dividimos por el numero de filas (número de palabras diferentes).


Para conseguir el ITW, con el Excel podemos hacer una columna que multiplique número de ocurrencias de cada palabra por número de caracteres de la misma y obtener el sumatoria y dividirlo por el número total de palabras (sumatorio de la columna de frecuencias de palabras). Pero les resultara más fácil pegar el texto en el Word y en herramientas, contar palabras obtener de allí los datos.


Bueno, al final he preparado un Excel. Tal solo han de tenerlo abierto cuando exporten del TextSTAT a Excel, y lo hace todo él solito.



Y ahora, algunas prácticas:

Máquina de guisantes.

IRL = 0,61
ITW = 4,91
ICA = 6,12

Palabras diferentes = 182
Total caracteres en palabras diferentes = 1139
Total palabras = 303
Total caracteres = 1488


Alicia cae por la madriguera.

IRL = 0,39
ITW = 4,64
ICA = 6,09

Palabras diferentes = 412
Total caracteres en palabras diferentes = 2512
Total palabras = 1031
Total caracteres = 4788

Mundana prisa.

IRL = 0,54
ITW = 4,35
ICA = 5,64

Palabras diferentes = 262
Total caracteres en palabras diferentes = 1479
Total palabras = 483
Total caracteres = 2102

No hay comentarios: