AnsweredAssumed Answered

Pesquisa Lucene e indexação de conteúdo em documentos PDF

Question asked by ricardoc-moredata on Feb 19, 2010
Boa tarde a todos,

Tenho obtido falhas em pesquisas Lucene, sobre diversos documentos PDF.

Para exemplo, fiz o upload de dois ficheiros para teste, com características idênticas (tamanho, motor de conversão PDF, programa que os converteu, versão do formato PDF, etc.). Estão ambos colocados no mesmo espaço.

Obtenho o seguinte nas pesquisas:

Search Language:    lucene
Search:    PATH:"/app:company_home/cm:Empresa/cm:EntradasPendentes/cm:Evora//*"

Results (2 rows)
Name    Node    Parent
actions-article.pdf    workspace://SpacesStore/1e8a97a4-a7b7-4108-8584-7708cd3b2fbc    workspace://SpacesStore/d1822abb-4be2-43a6-abc2-ac602c2806f8
content-article.pdf    workspace://SpacesStore/c724c44d-880b-4432-931e-10ca1b99dbe1    workspace://SpacesStore/d1822abb-4be2-43a6-abc2-ac602c2806f8

****

Search Language:    lucene
Search:    PATH:"/app:company_home/cm:Empresa/cm:EntradasPendentes/cm:Evora//*" AND ( TEXT:*admin* )

Results (1 rows)
Name    Node    Parent
content-article.pdf    workspace://SpacesStore/c724c44d-880b-4432-931e-10ca1b99dbe1    workspace://SpacesStore/d1822abb-4be2-43a6-abc2-ac602c2806f8

****

Search Language:    lucene
Search:    PATH:"/app:company_home/cm:Empresa/cm:EntradasPendentes/cm:Evora//*" AND ( TEXT:admin )

Results (0 rows)
Name    Node    Parent

****

Note-se que ambos têm as propriedades:
{http://www.alfresco.org/model/content/1.0}creator admin
{http://www.alfresco.org/model/content/1.0}modifier admin


No contentModel.xml:


         Creator
        d:text
        true
        true
       
                  true
                  false
                  both
       



         Modifier
         d:text
         true
         true
       
                  true
                  false
                  both
       


Pode-se notar com as propriedades padrão do Alfresco a falha na pesquisa Lucene, como nos exemplos acima indicados. Neste caso concreto, ao nível dos metadados das propriedades.

Alguém tem ideia do que estará errado? Haverá mais alguma configuração que eu deva rever?


Abraços,
Ricardo

Outcomes