Tabula: Tabellen aus PDF extrahieren

Tabula helps you liberate data tables trapped inside PDF files.

Quelle: Github

Wer kennt es nicht: Tabellen in PDF. Sei es aus Studien, Geschäftsberichten oder einfach aus dem Export einer Webseite. Und wie oft habe ich schon probiert mit Kopieren und Einfügen, solche Daten in Excel zu bekommen – und jedes Mal ohne Format und mit manuellen Aufwand. Und wenn dann die Tabelle aus dem PDF auch noch über mehrere Webseiten geht… Tabula könnte hier Abhilfe schaffen. Bei mir funktionierte es erstaunlich gut bzw. gut genug um bei „komischen“ Tabellenformaten ein wenig und ohne Mühe etwas Hand anzulegen.

Verwandte Beiträge

Leave a comment

*