Lucene - apostrophe

cancel
Showing results for 
Search instead for 
Did you mean: 
jclandron
Member II

Lucene - apostrophe

Bonjour,

J'ai des soucis avec l'indexation des apostrophes dans Alfresco.
Par exemple : "système d’information" est indexé en "système" et "d'information" et ne se trouve donc pas dans les résultats d’une recherche sur le mot "information".
On m'a dit d'utiliser le filtre "FrenchStandardFilter" pour supprimer les apostrophes lors de l’indexation.
Est-ce que la mise en place de ce filtre a des impacts sur les performances d'Alfresco lors de l'indexation des documents importés ?

Merci,

Jean-Charles.
2 Replies
rguinot
Customer

Re: Lucene - apostrophe

Pas d'impact sur les perfs à ma connaissance, mais il s'agit plutôt des analyzers Lucene qu'il faut configurer pour "déclarer" qu'il faut indexer le contenu comme s'il était français.

L'indexing utilise des analyzers qui sont pour la plupart sensible à la langue (avec donc des stopwords et de la tokenisation spécifique à cette langue).
Si vous repository est multilingue, vous pouvez essayer d'utiliser des algorithmes indépendant de la langue, tels que le snowball analyzer.
dgenard
Active Member

Re: Lucene - apostrophe

Bonjour,
j'ai actuellement le même problème avec les apostrophes.

Pourtant, le org.apache.lucene.analysis.fr.FrenchAnalyzer semble être bien utilisé par défaut par Alfresco. Celui-ci restant sensible aux accents, je l'ai changé par org.alfresco.repo.search.impl.lucene.analysis.FrenchSnowballAnalyserThatRemovesAccents. Le problème des accents est ensuite disparu, mais le problème des apostrophes reste toujours.

Config : Alfresco 2.2.1E / Windows XP ou Linux SUSE
Quelqu'un a-t-il une idée ?

Denis