PDF-Dateien werden nicht indiziert

cancel
Showing results for 
Search instead for 
Did you mean: 
dmc
Active Member

PDF-Dateien werden nicht indiziert

Hi,

habe Alfresco ECM auf einer Windows-Maschine installiert. Funkitoniert wunderbar. Nur PDF-Dateien werden nicht indiziert. Auch einfach generierte PDFs mit einem kurzen Text liest Alfresco nicht aus.

Muss dazu sagen, dass ich wirklich nur den Installer hab durchlaufen lassen und danach nichts Weiters mehr installiert habe. Sind dazu noch Module nötig? ABer so wie ich es gelesen habe, indiziert Luscene eigentlich automatisch, oder? TXT-Dateien werden indiziert.

Danke für eure Hilfe vorab…

Benki
3 Replies
dmc
Active Member

Re: PDF-Dateien werden nicht indiziert

Hallo Benki,

Alfresco indiziert schon per Standard pdfs, daher liegt es vielleicht aber auch am PDF. Aus kopiergeschützten PDFs, hierbei meine ich Text markieren und in die Zwischenablage kopieren, kann z.B. kein Text extrahiert werden.
Im alfresco.log müsste ausserdem eine Fehlermeldung zu finden sein.

knutella
dmc
Active Member

Re: PDF-Dateien werden nicht indiziert

Daran kann es nicht liegen. Sind viele verschiedene PDFs. Aber ich hatte auch mittlerweile drüber nachgedacht… Von den PDFs muss doch erstmal eine Texterkennung durchgeführt werden. Und die ist in Alfresco glaub ich nicht standardmäßig installiert. Solange dies nicht geht bringt mir das Alfresco momentan nicht mehr Informationen wie eine Desktopsuche (Google, MSN, etc)
dmc
Active Member

Re: PDF-Dateien werden nicht indiziert

PDF Indizierung ist bei Alfresco Standard, und muss nicht extra installiert werden. Das geschieht mit der pdfbox Bibliothek, mit der die reinen Text-Daten rausgezogen werden. U.U. hat nur die Bibliothek mit dem PDF. Ist es möglich eines zu posten, kann ja auch Quatsch drin stehen.

Wie ist es mit dem alfresco.log?

knutella