Buenas tardes,
Desde hace un tiempo una máquina anda algo saturada y revisando javamelody encuentro un alto número de peticiones http, en los logs me he encontrado que en 'localhost_access_log' se realizan peticiones cada 30 segundos, sobre los mismos 500 nodos (más o menos).
"GET /alfresco/service/api/solr/textContent?nodeId=5627219&propertyQName=%7bhttp%3a%2f%2fwww.alfresco.org%2fmodel%2fcontent%2f1.0%7dcontent HTTP/1.1" 200
Esto conlleva a que las peticiones que se realizan superan el millón con facilidad.
Algunos de los documentos que he observado, son imágenes que han pasado por un tratamiento de OCR y transformado a pdf, seguramente todos sean de esa procedencia. Aporto este dato por el tipo de petición que realiza.
Esos documentos se almacenaron pero ya no han sido modificados.
¿Sabéis el motivo?¿Alguna sugerencia para detener el acoso de dichas peticiones?
Muchas gracias de antemano!
SOLR está tratando de indexar el contenido del fichero. Para ello le pide a Tika que extraiga el contenido del PDF. Esa es la llamada que estás observando.
Entiendo que esta operación estará generando un problema en el log que quizá pueda arrojar alguna pista.
Gracias Angel Borroy, a qué log te refieres?
Un saludo!
alfresco.log
Ya lo miré y no hay nada sobre ello. Seguiré con la búsqueda y en el momento que lo solucione, os comento
Un saludo,
Buenas:
SOLR cada 15 segundos pregunta a los servicios de Alfresco cuantas transacciones le quedan por indexar, asi que si se esta subiendo o actualizando contenido con frecuencia en tu servidor veras esos logs. Si estáis haciendo muchas cargas de datos, procesos OCR locales en el servidor, y peticiones de SOLR que derivan en transformaciones, puede que SOLR esté consumiendo muchos recursos de CPU o necesite mas memoria RAM. Si las peticiones son siempre sobre los mismos nodos ya es un poco mas extraño, pero si no hay errores...
Por último, cuidado con el tamaño de los índices de SOLR cuando se hacen procesos OCR, porque tienden a ocupar mucho.
Saludos.
--C.
Buenas,
Muchas gracias por la información. El proceso de OCR lo hicimos antes de subir los nodos a Alfresco en una máquina explícita para ese proceso, y posteriormente fueron cargados. Al importarlos eramos conscientes de que la máquina iría saturada para indexar todos los nodos y su contenido. Pero pasado un tiempo de ello, nos dimos cuenta que la máquina estaba algo saturada y ya no era normal, es aquí cuando vimos estas peticiones recurrentes de los mismos nodos.
Os mantendré informados
Un saludo y gracias!
¿Habéis leído esto http://www.keensoft.es/alfresco-y-el-extrano-caso-del-pdf-asesino/?
Quizá estéis afectados por esta incidencia: https://github.com/keensoft/alf-21970-repo
Sí, lo leímos antes de darnos cuenta de esto, y en principio no nos parecía que fuera eso. Pero visto lo visto, no descartamos nada y lo vamos a investigar más a fondo.
Gracias!
Discussions about Alfresco Content Services and Alfresco Process Services in Spanish
Related:
By using this site, you are agreeing to allow us to collect and use cookies as outlined in Alfresco’s Cookie Statement and Terms of Use (and you have a legitimate interest in Alfresco and our products, authorizing us to contact you in such methods). If you are not ok with these terms, please do not use this website.