Skip to main content

Projetos OCR

Tesseract

O Tesseract é uma biblioteca de OCR (Optical Character Recognition) que converte imagens contendo texto em texto editável. É uma ferramenta poderosa para extração de texto de documentos digitalizados, capturas de tela ou qualquer tipo de imagem com escrita legível.

tip

Este passo é necessário apenas para projetos que utilizam OCR (Sikuli).

Windows

Instalação Tesseract

  • Baixe a versão mais recente do instalador a partir do site Home · UB-Mannheim/tesseract Wiki (github.com)
  • Execute o instalador e siga com o processo até a etapa "Choose Components".
  • Na etapa "Choose Components", marque as opções "Additional script data (download)" e "Additional language data (download)" para complementar a instalação do Tesseract.
Tesseract - Instalador
Instalador Tesseract - Destaque: Complementos para instalação

Linux

Instalação Tesseract

Execute os comandos para instalação do Tesseract

sudo apt install tesseract-ocr -y
sudo apt install libtesseract-dev -y