Regola su ricerca dentro PDF searchable

cancel
Showing results for 
Search instead for 
Did you mean: 
madago
Member II

Regola su ricerca dentro PDF searchable

Buongiorno a tutti,
Sono un novizio su alfresco e lo sto testando con ephesoft per scansioni ed elaborazioni pre alfresco.
Volevo chiedere se era possibile (dopo aver processato un documento generico da ephesoft, averlo reso 'PDF searchable' ed inviato ad alfresco mediate cmis in una cartella specifica) creare una rule sulla stessa cartella che cerchi una parola specifica all'interno del documento per poi (una volta trovata la parola/e) spostarlo da un'altra parte.
É possibile farlo nativamente oppure bisogna creare uno script java e poi richiamarlo dalla regola ?
Grazie mille.
Ciao a tutti !!!
5 Replies
davidciamberlan
Alfresco Employee

Re: Regola su ricerca dentro PDF searchable

Ciao,
puoi fare quello che chiedi con una action richiamata da una rule (come tu suggerisci) o anche con un behaviour.

Il problema secondo me è un'altro: l'indicizzazione del documento potrebbe non essere stata eseguita quando fai la ricerca delle parole chiave. Solr4 infatti esegue un update degli indici ogni 15 secondi (di default).

Una possibile soluzione (ma devi vedere se si adatta al tuo caso) sarebbe creare un job schedulato che periodicamente scandagli la tua directory e sposti i documenti opportuni.
openpj
Moderator
Moderator

Re: Regola su ricerca dentro PDF searchable

Condivido pienamente quanto detto dal buon David Smiley Happy

Però se usi Ephesoft, non ti serve fare una rule su Alfresco, puoi configurare Ephesoft per classificare il documento nel modo opportuno, quindi identificandolo bene, per poi andarlo a posizionare con il plugin CMIS direttamente nello spazio giusto.

Così credo sia più facile e usi Ephesoft nel modo giusto senza sovraccaricare Alfresco.
madago
Member II

Re: Regola su ricerca dentro PDF searchable

Ciao a tutti e grazie delle risposte.
Condivido pienamente cio' scritto da OpenPj e già lo faccio per un certo 'tipo' di documenti,ma pensavo di fare per documenti non 'tipizzati' (ovvero sporadici) un'indicizzazione di massima.
Altro problema è che la licenza ed i costi di Ephesoft (a quanto detto dal commerciale) funziona a volume di documenti per cui vorrei solo far passare i documenti più importanti e dare in pasto ad un OCR free gli altri per poi cercare di fare una tipizzazione di massima con alfresco.
Potreste darmi qualche indicazione più precia in merito ? (mi riferisco  alla risposta di David)
Ho provato a creare una regola sulla cartella dove vengono inseriti i documenti sui quali viene fatto OCR (e quindi li trovo con il 'cerca'), la regola su' tutti i documenti inseriti, cerca una parola dentro Content e dovrebbe spostare i documenti in un'altra cartella.
Il punto è che dopo aver creato la regola se provo ad eseguirla, al fresco risponde 'impossibile eseguire la regola' ..
Probabilmente sbaglio io ad usare 'content' ??
Grazie mille per le risposte.
Ciao !!
davidciamberlan
Alfresco Employee

Re: Regola su ricerca dentro PDF searchable

Ciao,

se posso permettermi di darti un consiglio, prima di imbarcarti in soluzioni fai-da-te prova a valutare bene se ne vale la pena (ovvero se quello che "spendi" per realizzare la tua soluzione -compresa la manutenzione e i grattacapi- non supera quello che dovresti spendere in più per usare ephesoft…).

La soluzione che ti ha proposto Piergiorgio è veloce e efficace, quella che proponi tu è un po' una incognita.

Detto questo:
se valuti che sia meglio procedere nel tuo modo, per aiutarti dovresti darci qualche informazioni in più…
Come è strutturato il processo che vuoi realizzare? Esegui l'OCR su dei file e poi come procedi? Li salvi in una cartella come txt? E Come li importi in Alfresco?
Come hai fatto la regola che non funziona?

Facci sapere.
madago
Member II

Re: Regola su ricerca dentro PDF searchable

Hai ragione e quoto pienamente ma stavo anche cercando di prendere dimestichezza con gli strumenti dandomi un obbiettivo e cercando di raggiungerlo in un modo o nell'altro Smiley Happy
Cmq sia il processo è strutturato come segue :
- scannerizzo un'immagine TIF o PDF
- inserisco l'immagine in una cartella Scanner_ocr su alfresco
- da ephesoft (pagando) o con chronoscan (free ma è per windows e non gira come processo) prelevo via CMIS l'immagine e la processo con OCR.
- risultato del processo è un PDF SEARCHABLE (pulito senza metadati per esercizio) così da poterlo riconoscere con una ricerca full text
- a questo punto rimetto il file in una sottocartella di scanner_ocr , ovvero Elaborati.
- Dalla cartella Elaborati vorrei processare ogni file che viene inserito, riconoscere ad esempio la parola 'commercio' e spostare (se viene trovata la parola 'commercio') nella cartella 'commercio'
- Se (dopo aver inserito) il documento nella elaborati lo cerco usando la funzione cerca di alfresco lo trova perfettamente.
Tutto qui ..
Adesso sto provando a fare un javascript che ricerca (usando Lucene) e lo associo ad una rule della cartella Elaborati.
Ripeto che sto cercando di creare dei problemi per provare a risolverli così da imparare un po' di più, con Ephesoft tutto funziona egregiamente, anzi lo trovo un gran prodotto.
Grazie ancora per le risposte e per l'aiuto.
Ciao !!!!