Automatische Texterkennung (OCR) mit Adobe Acrobat Pro (alternative FreeOCR)

Ich habe ein paar alte Bücher welche digitalisiert werden müssen. Entweder wird man alles manuel einippen oder mit Hilfe von einem OCR Software es regeln. Ich habe es mit FreeOCR probiert aber es ging nicht.
Weil:

- man kann nicht eine ganze Ordner mit mehreren PDF/JPEG Dateien zu Text-datein wie TXT, RTF oder DOC konvertieren lassen.
- mann kan nicht alle PDF Seiten drehen, wenn es zu Hochformat oder Querformat gewechselt werden muss.

Dann habe ich es mit Adobe CS5 Acrobat Pro probiert. Da gibt es schon Funktionen wie alle Seiten drehen und OCR Text erkennen. Ich habe folgendes gemacht.

- Gescannte PDF Datei mit AAP geöffnet
- Datei 180 Grad gedreht und gespeichert (Dokument -> Seite drehen oder "Umschalt + STRG + R")
- Dokument >> OCR Texterkennung >> Text mit OCR Erkennen
-- Hier muss man Sprache und Auflösung anpassen. Wenn das Dokument besondere Buchstaben von nicht westeuropäische Sprachen wie russisch, kurdisch, griechisch, arabisch, persisch, türkisch usw enthält, muss die Sprache schon angepasst sein.
- Danack kommt keine Meldung aber Texte in PDF sind schon markierbar. Also es ist nicht mehr ein Bild-PDF sondern Text-PDF
- Exportieren >> Als Word Dokument speichern

Dunkle Bereiche von gescannten Bild werden manchmal zum 0101010101 gewandelt. Das sollte man manuell entfernen.

Neuen Kommentar schreiben

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Profile picture for user Guest
Permanenter Link

Gib tes eine andere kostenlose alternative zu Acrobat Pro, wenn es nicht mit FreeOCR geklappt hat. Ich brauche das nicht so oft und würde dafür kein Geld ausgeben. Wenn es aber eine Freeware dafür gibt, kann ich ab und zu gut gebrauchen. Danke

Suche

Neueste Kommentare

  • 4 weeks 2 days ago
    Transaction isolation level REPEATABLE-READ The recommended level for Drupal is "READ COMMITTED". (Drupal Status Report)

     Edit "/etc/my.cnf" ( under [mysqld] ):

    transaction_isolation="READ-COMMITTED"

    Restart MariaDB / MySQL:

  • 1 month 1 week ago
    Wget - Eine Webseite rekursive downloaden

    wget -U 'Mozilla/MyUserAgent' -P MyTempDir123 --wait=0.2 --random-wait -nd -r -x -l 4 -e robots=off --reject

  • 1 month 1 week ago
    Wget - Eine Webseite rekursive downloaden

    wget -U 'Mozilla/MyUserAgent2024' -P MyOutPutDirectory --wait=1 --random-wait -nd -r -l 2 -e robots=off --reject

  • 2 months 1 week ago
    CPU benchmarking with sysbench (single-threaded/all cores)

     

    # sysbench --threads="$(nproc)" cpu run

  • 2 months 1 week ago
    CPU benchmarking with sysbench (single-threaded/all cores)

    # sysbench --threads="$(nproc)" cpu run

  • 2 months 1 week ago
    Linux Autovervollständigung - bash autocomplete
    source ~/.bashrc

    Diese Lösung wird empfohlen aber hat bei mir nicht funktioniert.

    Welche Alternative gibt es?

  • 2 months 1 week ago
    PHP-CLI auf PHP8.2 umstellen (für Composer, Drush etc)

    ln -snf /opt/plesk/php/8.3/bin/php /etc/alternatives/php

  • 2 months 2 weeks ago
    Drush Update failed (require php >=8.2)

    In composer.json, update: 

     

  • 2 months 2 weeks ago
    Drupal: Anmeldung fehlgeschlagen Es hat mehr als 5 fehlerhafte Anmeldeversuche für dieses Benutzerkonto gegeben. Es ist vorübergehend gesperrt.
    drush sqlq "DELETE FROM flood"
  • 2 months 2 weeks ago
    Drupal SMTP + Gmail funktioniert nicht mehr (Passwort ist richtig); was ist die Lösung?