Simple OCR + Alfresco

cancel
Showing results for 
Search instead for 
Did you mean: 
douglascrp
Advanced II

Re: Simple OCR + Alfresco

O script que você criou para executar tem um comentário sobre isso:

# set -o xtrace # Uncomment for debugging/troubleshooting

Descomente essa linha e você verá mais informações sobre o problema.

Se o texto não está selecionável e não está sendo indexado, isso significa que o OCR não funcionou.

vitorsrosa
Active Member II

Re: Simple OCR + Alfresco

Eu descomentei a linha e ao clicar em OCR, não aparece nada no Catalina.out e nem no Alfresco.log...

Onde eu deveria receber esse retorno?

douglascrp
Advanced II

Re: Simple OCR + Alfresco

Você deveria ver erros no log mesmo, estranho.

Bom, a única coisa que me vem a cabeça agora seria pegar o comando que o Alfresco está executando e tentar rodar ele "na mão", ou seja, pegar um arquivo de amostra, e usar o pdfsandwich manualmente e verificar algum problema.

Como disse antes, do lado do Alfresco, parece que está tudo certo. O que resta agora é isolar o problema e tentar consertar antes de insistir na integração.

rlbispo
Active Member

Re: Simple OCR + Alfresco

Boa noite Douglas, estou seguindo os mesmos passos dos colegas acima, porém, estou me deparando com esse no Catalina.out:

2018-08-07 21:51:43,331 INFO [web.scripts.DictionaryQuery] [http-apr-8080-exec-9] Successfully retrieved Data Dictionary from Alfresco.
Exception in thread "defaultAsyncAction1" java.lang.RuntimeException: java.lang.RuntimeException: org.alfresco.service.cmr.repository.ContentIOException: 07070086 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /opt/scriptocr/ocr.sh -verbose -lang por+eng+spa /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802.pdf -o /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802_ocr.pdf
succeeded: false
exit code: 2
out:
err: which: no pdfunite in (/opt/alfresco/common/alfresco-pdf-renderer:/opt/alfresco/java/bin:/opt/alfresco/postgresql/bin:/opt/alfresco/common/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
Fatal error: exception Failure("Could not find
at es.keensoft.alfresco.ocr.OCRExtractAction.executeImplInternal(OCRExtractAction.java:183)
at es.keensoft.alfresco.ocr.OCRExtractAction.access$200(OCRExtractAction.java:38)
at es.keensoft.alfresco.ocr.OCRExtractAction$1.execute(OCRExtractAction.java:164)
at es.keensoft.alfresco.ocr.OCRExtractAction$1.execute(OCRExtractAction.java:161)
at org.alfresco.repo.transaction.RetryingTransactionHelper.doInTransaction(RetryingTransactionHelper.java:464)
at es.keensoft.alfresco.ocr.OCRExtractAction.executeInNewTransaction(OCRExtractAction.java:169)
at es.keensoft.alfresco.ocr.OCRExtractAction.access$100(OCRExtractAction.java:38)
at es.keensoft.alfresco.ocr.OCRExtractAction$ExtractOCRTask.run(OCRExtractAction.java:151)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.RuntimeException: org.alfresco.service.cmr.repository.ContentIOException: 07070086 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /opt/scriptocr/ocr.sh -verbose -lang por+eng+spa /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802.pdf -o /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802_ocr.pdf
succeeded: false
exit code: 2
out:
err: which: no pdfunite in (/opt/alfresco/common/alfresco-pdf-renderer:/opt/alfresco/java/bin:/opt/alfresco/postgresql/bin:/opt/alfresco/common/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
Fatal error: exception Failure("Could not find
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:86)
at es.keensoft.alfresco.ocr.OCRExtractAction.executeImplInternal(OCRExtractAction.java:181)
... 10 more
Caused by: org.alfresco.service.cmr.repository.ContentIOException: 07070086 Failed to perform OCR transformation:
Execution result:
os: Linux
command: /opt/scriptocr/ocr.sh -verbose -lang por+eng+spa /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802.pdf -o /opt/alfresco/tomcat/temp/Alfresco/OCRTransformWorker_source_6799823944120752802_ocr.pdf
succeeded: false
exit code: 2
out:
err: which: no pdfunite in (/opt/alfresco/common/alfresco-pdf-renderer:/opt/alfresco/java/bin:/opt/alfresco/postgresql/bin:/opt/alfresco/common/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
Fatal error: exception Failure("Could not find
at es.keensoft.alfresco.ocr.OCRTransformWorker.transform(OCRTransformWorker.java:79)
... 11 more

Você pode me ajudar no que estou fazendo de errado?

abaixo segue minhas configurações:

Script:

#!/usr/bin/env bash
#set -o xtrace # Uncomment for debugging/troubleshooting
/usr/local/bin/pdfsandwich "$@"

Arquivo alfresco-global.properties:

### PDF Sandwich ###

ocr.command=/opt/scriptocr/ocr.sh
ocr.output.verbose=true
ocr.output.file.prefix.command=-o
ocr.extra.commands=-verbose -lang por+eng+spa
ocr.server.os=linux

Versão do pdfsandwich:

[root@ged ~]# pdfsandwich -version
pdfsandwich version 0.1.6

Versão do tesseract:

[root@ged ~]# tesseract --version
tesseract 3.04.01
leptonica-1.72
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7

rlbispo
Active Member

Re: Simple OCR + Alfresco

Resolvido com a instalação do pacote: poppler-utils

yum install poppler-utils

cleberdouradoo
Member II

Re: Simple OCR + Alfresco

Boa tarde!

 

eu segui os passos no link do GitHub e o problema do meu é com o esse unpaper!

 

como contornar essa situação?