Installation von ocrmypdf in Securitix
Effizientes OCR für Penetration‑Tests und Forensik
Securitix ist ein auf Debian basierendes Linux‑Betriebsystem, das speziell für Sicherheitstests, Penetration‑Tests und forensische Analysen entwickelt wurde. Viele Sicherheitsspezialisten arbeiten mit gescannten Dokumenten oder Bild‑PDFs, die erst mittels OCR (Optical Character Recognition) in durchsuchbare PDFs umgewandelt werden müssen. Hier kommt das Tool ocrmypdf ins Spiel – ein Open‑Source‑Programm, das OCR auf PDFs anwendet und gleichzeitig die ursprünglichen Bilder beibehält.
1. Voraussetzungen prüfen
Bevor Sie ocrmypdf installieren, stellen Sie sicher, dass Sie die erforderlichen System‑Bibliotheken und -Pakete haben:
sudo apt update
sudo apt install -y python3 python3-pip
sudo apt install -y ghostscript
sudo apt install -y imagemagick
sudo apt install -y libimage-exiftool-perl
sudo apt install -y tesseract-ocr
sudo apt install -y poppler-utils
Auf Securitix sind diese Pakete bereits vorinstalliert, daher sollte der Befehl apt update ausreichen. Falls noch nicht vorhanden, installieren Sie die fehlenden Pakete.
2. ocrmypdf via pip installieren
ocrmypdf ist ein Python‑Paket. Nach der Installation der Abhängigkeiten können Sie es einfach mit pip installieren:
pip3 install --upgrade pip
pip3 install ocrmypdf
Falls Sie lieber ein systemweites Paket nutzen wollen, können Sie alternativ das Ubuntu‑Paket benutzen:
sudo apt install ocrmypdf
Für eine aktuelle Version empfiehlt sich jedoch die pip‑Installation.
3. Erforderliche Tesseract‑Sprachen hinzufügen
Standardmäßig ist nur die englische OCR‑Sprache installiert. Für weitere Sprachen können Sie die passenden tesseract-ocr-Pakete installieren:
sudo apt install -y tesseract-ocr-deu # Deutsch
sudo apt install -y tesseract-ocr-spa # Spanisch
sudo apt install -y tesseract-ocr-fra # Französisch
Oder nutzen Sie tesseract-ocr-all, wenn Sie alle verfügbaren Sprachen benötigen.
4. Testen Sie die Installation
Wählen Sie ein PDF, das Sie in einen durchsuchbaren PDF umwandeln wollen, z. B. scan.pdf:
ocrmypdf scan.pdf durchschaubar.pdf
Nach Abschluss sollte durchschaubar.pdf sowohl die Originalbilder als auch eine unsichtbare OCR‑Textschicht enthalten. Sie können die PDF in Ihrem Browser oder mit evince öffnen und die Texteingabe‑Funktion testen.
4.1. Optimierungsoptionen (optional)
ocrmypdf bietet verschiedene Optionen, um die Qualität oder die Größe der Ausgabe anzupassen:
ocrmypdf --language deu,en --rotate-pages --clean -o result.pdf source.pdf
--rotate-pages erkennt und dreht Seiten automatisch, --clean entfernt unnötige Transparenzen und überflüssige Bilddaten, wodurch die Dateigröße reduziert wird.
4.2. Fehlerdiagnose
Falls beim Ausführen von ocrmypdf Fehlermeldungen wie “Tesseract not found” auftauchen, prüfen Sie, ob die Tesseract‑Binärdatei im Pfad verfügbar ist (which tesseract). Bei „Ghostscript license“‑Warnungen: Ghostscript ist auf Securitix unter der GPL‑Lizenz verfügbar und darf ohne Einschränkung verwendet werden.
5. Integration in Ihre Sicherheits‑Workflows
Viele Forensik‑Tools und Penetration‑Test‑Skripte greifen auf durchsuchbare PDFs zurück, um Metadaten zu extrahieren oder Textinhalte zu analysieren. Nach der Installation können Sie ocrmypdf in Ihre Automatisierungsskripte einbauen:
# Beispiel: Alle PDFs in /data/scans umwandeln und im gleichen Verzeichnis speichern
for file in /data/scans/*.pdf; do
ocrmypdf "file""{file%.pdf}_ocr.pdf"
done
Damit haben Sie ein automatisiertes, erweiterbares OCR‑System, das sich nahtlos in Securitix‑Projekte einfügt.
6. Fazit
Mit der pip‑Installation von ocrmypdf und den bereits in Securitix enthaltenen Abhängigkeiten lässt sich OCR in Penetration‑Tests und Forensik-Workflows schnell und zuverlässig einbinden. Durch die Kombination von Ghostscript, ImageMagick, Tesseract und Poppler werden Ihre PDFs sowohl durchsuchbar als auch visuell erhalten, was gerade bei der Analyse von Dokumenten im Penetration‑Testing-Umfeld von unschätzbarem Wert ist.