Effizientes OCR für Penetration‑Tests und Forensik

Installation von ocrmypdf in Securitix

2. Oktober 2024 Max Mustermann

Securitix ist ein auf Debian basierendes Linux‑Betriebsystem, das speziell für Sicherheitstests, Penetration‑Tests und forensische Analysen entwickelt wurde. Viele Sicherheitsspezialisten arbeiten mit gescannten Dokumenten oder Bild‑PDFs, die erst mittels OCR (Optical Character Recognition) in durchsuchbare PDFs umgewandelt werden müssen. Hier kommt das Tool ocrmypdf ins Spiel – ein Open‑Source‑Programm, das OCR auf PDFs anwendet und gleichzeitig die ursprünglichen Bilder beibehält.

1. Voraussetzungen prüfen

Bevor Sie ocrmypdf installieren, stellen Sie sicher, dass Sie die erforderlichen System‑Bibliotheken und -Pakete haben:

sudo apt update
sudo apt install -y python3 python3-pip
sudo apt install -y ghostscript
sudo apt install -y imagemagick
sudo apt install -y libimage-exiftool-perl
sudo apt install -y tesseract-ocr
sudo apt install -y poppler-utils

Auf Securitix sind diese Pakete bereits vorinstalliert, daher sollte der Befehl apt update ausreichen. Falls noch nicht vorhanden, installieren Sie die fehlenden Pakete.

2. ocrmypdf via pip installieren

ocrmypdf ist ein Python‑Paket. Nach der Installation der Abhängigkeiten können Sie es einfach mit pip installieren:

pip3 install --upgrade pip
pip3 install ocrmypdf

Falls Sie lieber ein systemweites Paket nutzen wollen, können Sie alternativ das Ubuntu‑Paket benutzen:

sudo apt install ocrmypdf

Für eine aktuelle Version empfiehlt sich jedoch die pip‑Installation.

3. Erforderliche Tesseract‑Sprachen hinzufügen

Standardmäßig ist nur die englische OCR‑Sprache installiert. Für weitere Sprachen können Sie die passenden tesseract-ocr-Pakete installieren:

sudo apt install -y tesseract-ocr-deu # Deutsch
sudo apt install -y tesseract-ocr-spa # Spanisch
sudo apt install -y tesseract-ocr-fra # Französisch

Oder nutzen Sie tesseract-ocr-all, wenn Sie alle verfügbaren Sprachen benötigen.

4. Testen Sie die Installation

Wählen Sie ein PDF, das Sie in einen durchsuchbaren PDF umwandeln wollen, z. B. scan.pdf:

ocrmypdf scan.pdf durchschaubar.pdf

Nach Abschluss sollte durchschaubar.pdf sowohl die Originalbilder als auch eine unsichtbare OCR‑Textschicht enthalten. Sie können die PDF in Ihrem Browser oder mit evince öffnen und die Texteingabe‑Funktion testen.

4.1. Optimierungsoptionen (optional)

ocrmypdf bietet verschiedene Optionen, um die Qualität oder die Größe der Ausgabe anzupassen:

ocrmypdf --language deu,en --rotate-pages --clean -o result.pdf source.pdf

--rotate-pages erkennt und dreht Seiten automatisch, --clean entfernt unnötige Transparenzen und überflüssige Bilddaten, wodurch die Dateigröße reduziert wird.

4.2. Fehlerdiagnose

Falls beim Ausführen von ocrmypdf Fehlermeldungen wie “Tesseract not found” auftauchen, prüfen Sie, ob die Tesseract‑Binärdatei im Pfad verfügbar ist (which tesseract). Bei „Ghostscript license“‑Warnungen: Ghostscript ist auf Securitix unter der GPL‑Lizenz verfügbar und darf ohne Einschränkung verwendet werden.

5. Integration in Ihre Sicherheits‑Workflows

Viele Forensik‑Tools und Penetration‑Test‑Skripte greifen auf durchsuchbare PDFs zurück, um Metadaten zu extrahieren oder Textinhalte zu analysieren. Nach der Installation können Sie ocrmypdf in Ihre Automatisierungsskripte einbauen:

# Beispiel: Alle PDFs in /data/scans umwandeln und im gleichen Verzeichnis speichern
for file in /data/scans/*.pdf; do
ocrmypdf "file""{file%.pdf}_ocr.pdf"
done

Damit haben Sie ein automatisiertes, erweiterbares OCR‑System, das sich nahtlos in Securitix‑Projekte einfügt.

6. Fazit

Mit der pip‑Installation von ocrmypdf und den bereits in Securitix enthaltenen Abhängigkeiten lässt sich OCR in Penetration‑Tests und Forensik-Workflows schnell und zuverlässig einbinden. Durch die Kombination von Ghostscript, ImageMagick, Tesseract und Poppler werden Ihre PDFs sowohl durchsuchbar als auch visuell erhalten, was gerade bei der Analyse von Dokumenten im Penetration‑Testing-Umfeld von unschätzbarem Wert ist.

securitix

Lorem ipsum

Dolor sit amet

Feugiat veroeros

Etiam sed consequat