Recherche dans le contenu des documents

cancel
Showing results for 
Search instead for 
Did you mean: 
mgemc2
Member II

Recherche dans le contenu des documents

Bonjour,
J'ai deux retours d'expérience m'indiquant que l'implémentation du moteur de recherche d'Alfresco à partir d'Apache Lucene pose des soucis notamment sur l'indexation du contenu.Ces personnes affirment en effet que les recherches dans le contenu des documents n'est pas concluante. Il y aurait également des problèmes sur les recherches multi-lingues, les recherches avec caractères spéciaux (accents notamment) etc.
Pouvez vous me confirmer ou m'infirmer ces affirmations et m'indiquer si la version 3.0 prévoit des corrections dans ce domaine.

Cordialement
2 Replies
michaelh
Active Member

Re: Recherche dans le contenu des documents

Bonjour,

Auriez-vous des exemples ? Une version d'Alfresco ?
Sans ça, impossible de faire une réponse … et donc difficile d'affirmer ou infirmer.
rivarola
Active Member

Re: Recherche dans le contenu des documents

Bonjour,

Effectivement, nous pauvres francophones constatons parfois des écarts entre ce qu'on voudrait que Lucene nous retourne et ce qu'il nous retourne réellement. Il y a en particulier une sorte de lemmatisation (indexation de la racine du mot, et pas du mot lui-même) automatique très perturbante. Par exemple les mots finissant par un e sont parfois indexés sans le e, mais leur recherche est effectuée avec le e. Du coup on ne retrouve pas les documents en question.
Ca semble dépendre de la locale du serveur, de la langue du contributeur du document, de la langue de celui qui recherche, et de l'interface qui est utilisée (Web, CIFS, …), mais je n'ai pas encore trouvé la combinaison gagnante.
Les accents posent aussi parfois problème. J'ai déjà vu des mots coupés en deux au niveau de l'accent (genre "libéral" indexé en deux mots : "lib" et "ral").
Sinon Lucene est un super outil, très rapide, mais la gestion la langue française reste assez aléatoire.