Buenas xagaes,
Como decía Jack el Destripador, vamos por partes:
Tamaño estimado de los índices
Hasta donde yo sé no existe una regla exacta para calcular el tamaño que ocuparán los índices de lucene. Depende de factores como el número de ficheros, el tamaño de los mismos, el número de repeticiones en las ocurrencias de las palabras que se indexan, etc. Además en el caso de Alfresco no sólo se indexa el contenido del documento, si no también sus atributos, de ahí que el tamaño también dependerá (aunque en menor medida) del modelado que se haya hecho para estos tipos documentales.
Como normal general se podría partir con una estimación de entre el 20% y el 30% del tamaño total de contenido indexable.
En vuestro caso, que hablamos de millones de documentos y GB de información, también hay que tener en cuenta el tamaño de la base de datos, que puede llegar a representar otro 20% del tamaño total.
Índices corruptos
Por la información que envías de tu carpeta alf_data parece que han pasado dos cosas:
1) El proceso planificado de backup de índices de Alfresco, que se lanzá automáticamente a las 03:00 de la mañana, no ha finalizado correctamente. De ahí que tengas tres carpetas (backup-lucene-indexes, lucene-indexes y indexbackup_temp). Esta última es una carpeta temporal que Alfresco utiliza en el proceso de backup, si se ha quedado sin borrar es que el proceso se interrumpió por algún motivo.
2) El tamaño de los índices (103 GB) es desproporcionado respecto al tamaño del contenido (94 GB). Esto parece indicar que los índices se han corrompido. Mi recomendación es que hagas un backup de todo (nunca se sabe) y después borres los índices actuales y lances un FULL recovery de los índices. Si después de hacer eso tus índices ocupan más de un 30% te invito a unas cañas :wink:
Un saludo
Xian