¿Es posible limpiar los metadatos de un documento cuando el usuario lo sube al repositorio?

cancel
Showing results for 
Search instead for 
Did you mean: 
cloud
Active Member

¿Es posible limpiar los metadatos de un documento cuando el usuario lo sube al repositorio?

Me gustaría saber, si existe alguna posibilidad, mediante la cual se limpien los metadatos de un documento (word, pdf, etc..) que un usuario suba al repositorio. De modo que le documento quede almacenado en Alfresco, limpio de metadatos que incorpore el documento.

4 Replies
angelborroy
Alfresco Employee

Re: ¿Es posible limpiar los metadatos de un documento cuando el usuario lo sube al repositorio?

Deberías ajustar la configuración de los extractores de metadatos:

Metadata Extractors | Alfresco Documentation 

Existe uno diferente por cada tipo de formato.

O también puedes desactivarlos de manera global:

- How to deactivate metadata extraction in Alfresco - zylk 

Hyland Developer Evangelist
cloud
Active Member

Re: ¿Es posible limpiar los metadatos de un documento cuando el usuario lo sube al repositorio?

Gracias Ángel.

Pero esto afecta a la extracción de Alfresco de los metadatos, pero el documento subido (el binario por asi decirlo) ¿le limpia los metadatos? Es decir, por ejemplo:

- Tengo un word, con cierta información en sus metadatos (usuario de windows, fecha de ultima apertura, creación, etc...) ajustando los extractores de metadatos limpio el documento? o limpio los metadatos que lee Alfresco del documento pero el documento queda almacenado con esos metadatos?

No descarto modificar los extractores y en caso de que no limpien el documento, meter ffmpeg exiftool o algo de ese estilo, para que lo que entre en /data borrarle los metadatos... pero preguntaba por si hay algo 'más elegante' en el propio Alfresco (plugin o similar).

Gracias.

angelborroy
Alfresco Employee

Re: ¿Es posible limpiar los metadatos de un documento cuando el usuario lo sube al repositorio?

Eso solo afecta a los metadatos que Alfresco extrae del documento, pero no los limpia del propio documento. Supongo que la mejor alternativa sería utilizar la misma herramienta que utiliza Alfresco: Apache Tika. 

Pero tampoco conozco nada similar que pueda ser aplicado.

Hyland Developer Evangelist
joseantonionava
Established Member

Re: ¿Es posible limpiar los metadatos de un documento cuando el usuario lo sube al repositorio?

Hola Cloud Consultas,

no se si javascript en reglas de contenido con herencia te puede servir.

Pj:

"Limpiar" el metadato autor que MS Word escribe en sus ficheros:

document.properties["cm:author"] = "";
document.save();

Puede ser laborioso y un script largo si son muchos metadatos diferentes los que necesitas eliminar, pero es sencillo.

Para fotografías incluso podrías quitar el aspecto EXIF desde reglas de contenido también.

Espero te sirva, un saludo.