Indexation des documents Office 2007 (.docx, .pptx, .xlsx)

cancel
Showing results for 
Search instead for 
Did you mean: 
huberd
Member II

Indexation des documents Office 2007 (.docx, .pptx, .xlsx)

Bonjour,

Je viens de tester l'integration de documents Office 2007 dans mon référentiel de test Alfresco 2.1 Community.

Pour pouvoir integrer des documents office 2007, j'ai dû ajouter les lignes suivantes dans le fichier mimetype-map.xml
<mimetype mimetype="application/vnd.openxmlformats-officedocument.presentationml.presentation" display="Microsoft PowerPoint 2007">
            <extension>pptx</extension>
         </mimetype>
<mimetype mimetype="application/vnd.openxmlformats-officedocument.spreadsheetml.sheet" display="Microsoft Excel 2007">
            <extension>xlsx</extension>
         </mimetype>
<mimetype mimetype="application/vnd.openxmlformats-officedocument.presentationml.presentation" display="Microsoft PowerPoint 2007">
            <extension>pptx</extension>
         </mimetype>

et ajouté les icones correspondants aux extensions .docx, .pptx, .xlsx dans les répertoires images\filetypes, images\filetypes32, images\filetypes64

Mes problèmes à l'heure actuelle sont les suivants :

1) Lors de l'ajout d'un document Office 2007, les propriétés ne sont pas importées (Titre, Auteur, …)
2) Les fichiers au format Office 2007 semblent ne pas être indexé par le moteur de recherche
3) Les fichiers au format Office 2007 ne peuvent pas être convertit en PDF, mais cela devrait être résolu grace à la version 3 d'Open Office.

Pouvez-vous m'aider si vous avez été confrontés à ces type de problème et me dire comment vous les avez résolus, surtout au 1) et 2), le 2) posant de gros problème d'indexation.

Merci pour votre aide précieuse.
8 Replies
michaelh
Active Member

Re: Indexation des documents Office 2007 (.docx, .pptx, .xlsx)

Bonjour,

L'ensemble des points dépend du support du format Office 2007 (on ne peut pas parler de OpenXML) par OpenOffice.org.
La version 3.0 (de OpenOffice) devrait donc résoudre tout ça.

Ce ne sera plus très long puisque OOo 3.0 est en version "Release Candidate 4" et que la soirée de lancement à Paris est prévue pour le 13 octobre (2008), pile à l'heure pour fêter les 8 ans du projet  8)
huberd
Member II

Re: Indexation des documents Office 2007 (.docx, .pptx, .xlsx)

Bonjour,

La version 3.0 devrait donc résoudre tout ça.

La version 3.0 d'Alfresco ou d'Open Office ? Car les 2 produits doivent sortir en version 3, d'où ma confusion.
michaelh
Active Member

Re: Indexation des documents Office 2007 (.docx, .pptx, .xlsx)

Ahh oui, exact, j'aurais du préciser. Cela dit sachant que ça ne dépend que de OOo Smiley Happy
Message corrigé pour ajouter la réponse (OpenOffice donc).
huberd
Member II

Re: Indexation des documents Office 2007 (.docx, .pptx, .xlsx)

Bonjour,

L'ensemble des points dépend du support du format Office 2007 (on ne peut pas parler de OpenXML) par OpenOffice.org.
La version 3.0 (de OpenOffice) devrait donc résoudre tout ça.

Ce ne sera plus très long puisque OOo 3.0 est en version "Release Candidate 4" et que la soirée de lancement à Paris est prévue pour le 13 octobre (2008), pile à l'heure pour fêter les 8 ans du projet  8)


Donc d'après toi, l'indexation est également liée a Open Office ?

Concernant la récupértaion des données de type Titre, Auteur, … dans un document Office, la présence d'Open Office me laisse perplexe, car il me semble que cela fonctionné bien sur les documents Office antérieures à 2007 et cela sans la présence d'Open Office sur le serveur hébergent Alfresco.
huberd
Member II

Re: Indexation des documents Office 2007 (.docx, .pptx, .xlsx)

Bon, je viens de réaliser des tests avec la version RC4 d'Oo 3, et cela semble bel et bien résoudre mes problèmes de conversion PDF et d'indexation de document. Pour le moment l'indexation semble fonctionner correctement, la conversion PDF reste pour le moment passable, mais bon, ce n'est qu'une version RC4. Quand à la récupération des informations sur le titre, l'auteur, … cela ne marche pas du tout.

Pour pouvoir réaliser mes tests avec des documents .docx, j'ai dû modifier le fichier de configuration intitulé mimetype\openoffice-document-formats.xml en ajoutant le paramètre suivant :

  <document-format><name>Microsoft Word 2007</name>
    <family>Text</family>
    <mime-type>application/vnd.openxmlformats-officedocument.wordprocessingml.document</mime-type>
    <file-extension>docx</file-extension>
    <export-filters>
      <entry><family>Text</family><string>MS Word 2007</string></entry>
    </export-filters>
  </document-format>

J'attend donc de voir si ces problèmes seront bien résolu à la version finale d'Oo 3
michaelh
Active Member

Re: Indexation des documents Office 2007 (.docx, .pptx, .xlsx)

Il n'y a pour ainsi dire aucune différence entre la RC4 et la version finale (qui est sortie).
Je vais regarder ça quand je trouverai un peu de temps … entre maintenant et 2009 Smiley Wink
huberd
Member II

Re: Indexation des documents Office 2007 (.docx, .pptx, .xlsx)

Il n'y a pour ainsi dire aucune différence entre la RC4 et la version finale (qui est sortie).
Je vais regarder ça quand je trouverai un peu de temps … entre maintenant et 2009 Smiley Wink

C'est ce que je viens de remarquer cet aprem après l'avoir installé.
Par contre je rencontre tojours des problème au niveau l'interpretation des document office 2007 et donc de la conversion PDF.
slibert
Active Member II

Re: Indexation des documents Office 2007 (.docx, .pptx, .xlsx)

Hello,

Pour info, je viens de tester la version 3.0B avec OpenOffice 3 en version finale.
L'indexation lucene fonctionne pour les documents Word 2007 moyennant la modification du fichier mimetype\openoffice-document-formats.xml comme décrit par huberd.


M'en vais tenter ça sur les version Entreprise ;-)

Quelqu'un sait s'il y a une planification arrêtée pour la certification de OpenOffice dans les versions Entreprise ? 2.2SP2 ?


Sébastien.