Früher habe ich PDF's meist unter erheblichem Zeitaufwand mit Finereader und Word selbst verarbeitet und anschließend konvertiert. Unter Ubuntu war das so natürlich nicht möglich, so dass ich nach Alternativen gesucht habe.
Dabei stieß ich auf ein wunderbares Skript das extrem einfach zu bedienen ist und aus PDF Dateien wirklich saubere EPUB Bücher generieren konnte, die wunderbar lesbar waren.
Das Skript benutzt nur OpenSource Software und ist somit sowohl unter Linux als auch Windows lauffähig.

Erstellt ist es von fgthzj, vielen Dank dafür.

Diese Anleitung funktioniert natürlich auch mit anderen Linux Distributionen, ihr müsst dann aber selber schauen wie ihr die Abhängigkeiten installiert.
Zur neusten Version: http://www.plantoschka.com/2011/03/pdf-zu-epub-konvertieren.html
1. Skript runterladen und passende Software installieren
Erstmal das Skript hier runterladen:

Aktuell ist das Skript in Version 1.7.8 verfügbar. Ich versuch den Downloadlink hier immer aktuell zu halten.

Nun entpackt ihr den Inhalt des Archivs in einen Ordner eurer Wahl.

Zusätzlich müsst ihr unter Ubuntu einige Abhängigkeiten installieren. Dazu führt ihr im Terminal: 
aus.

Zusätzlich muss noch Calibre installiert werden, das übrigens ein hervorragendes Tool ist, um seine Bücher Sammlung zu verwalten und einfache Umwandlungen wie epub -> Mobi durchzuführen.
Um die aktuellste Version von Calibre zu installieren, führt ihr folgenden Befehl aus:

2. Skript verwenden
Erstmal kopiert ihr das Buch das ihr umwandeln wollt in den Ordner wo das Skript liegt.

Um das Skript zu starten, navigiert ihr in den Ordner wo ihr das Archiv entpackt habt, und führt start.pl per Doppelklick aus. Anschließend "Im Terminal ausführen" klicken.
Im nachfolgendem Dialog entscheidet ihr euch für "1" Linux.
Ihr solltet euch nun durch die einzelnen Schritte 1-8 arbeiten.
Im Auswahlmenü navigiert ihr, indem ihr die die Nummer links vom Menüpunkt eingebt, und das dann mit Enter bestätigt.
Auswahlmenü


2.0 Stammdaten
Am Anfang solltet ihr Punkt 20 anwählen, und hier euren bevorzugten Texteditor und Browser wählen. In der Ubuntu Standard Konfiguration sollte ihr bei Editor "gedit" eingeben und beim Browser "firefox". Wenn ihr andere Tools verwendet, müsst ihr das hier natürlich anders eingeben. (z.B. für Chrome "google-chrome")


2.0.1 Buchdaten
Wenn ihr gleich Metainformationen, also Autor, Buchtitel etc. angeben wollt, könnt ihr das über Punkt 18 machen. Es wird euer gewählter Texteditor geöffnet und ihr gebt einfach die Daten an. Alternativ könnt ihr das auch nach der EPUB Erstellung mit Calibre oder Sigil machen.

2.1 Bilder extrahieren
Wenn innerhalb des PDF Dokumentes Bilder vorhanden sind, könnt ihr diese hier exportieren, um sie später wieder einzubauen.
Ihr könnt dann auch noch wählen ob die Bilder gedreht und/oder gespiegelt werden sollen, was manchmal nötigt ist. Ihr könnt es erstmal auf "N" lassen, und dann schauen ob eure Bilder verdreht sind. Wenn ja, solltet ihr die Option nochmal aufrufen und die jeweilige Option natürlich mit "j" bestätigen.

Sollten keine Bilder vorhanden sein, oder ihr wollte ein EPUB nur aus Text, solltet ihr diesen Punkt einfach überspringen.

2.2 PDF zuschneiden
Hier könnt ihr das PDF zuschneiden, so dass ihr rundherum nur noch einen kleinen Rand habt, und vorhandene Seitenzahlen(wenn sie unten sind) herausschneidet, da euer eReader Gerät selbst Seitenzahlen generiert auf Basis der aktuellen Schriftgröße.

Ihr gebt jeweils Oben,Unten,Links,Rechts an wie viele Pixel weggeschnitten werden sollen. Hier könnt ihr einfach rumprobieren und dann später das Ergebnis betrachten, solltet ihr zuviel oder zuwenig weg geschnitten haben, könnt ihr den Vorgang nochmal durchführen.

Alternativ, könnt ihr auch ein grafisches Tool verwenden, mit dem das zuschneiden leichter fällt.
Briss ist ein Java Tool, dass dies wirklich super beherrscht.
Dazu geht ihr zu http://sourceforge.net/projects/briss/ ladet das Programm runter und entpackt es.
Startet Briss, indem ihr  "briss-0.0.12.jar" aufruft. Nun öffnet das PDF.
Seiten die ihr eventuell auslassen wollt könnt ihr auch angeben (z.B. die Coverseite)



Briss erkennt automatisch "linke" und "rechte" Seiten. Die Seiten werden transparent übereinander gelegt, so dass ihr ungefähr sehen solltet wo der Text steht. Nun macht ihr ein Rechteckigen Rahmen um den Text, und wählt Action-> Crop PDF. Das Ergebnis solltet ihr natürlich wieder in den Ordner vom Skript speichern, so dass ihr es dann gleich weiter bearbeiten könnt.

Das Ergebniss nach dem zuschneiden solltet ihr unbedingt kurz durchschauen, um zu prüfen, dass keine Textabschnitte weggeschnitten sind.

2.3 Formatierung Buch

Die Metadaten des Buches werden hier erstellt. Als erstes wählt ihr ein Coverbild, dazu muss das Cover im Ordner /erg/img/ liegen. Das ist aber jetzt nicht unbedingt notwendig, da ihr auch später relativ problemlos ein Cover hinzufügen (z.B. mit Calibre oder Sigil), so dass ihr auch einfach Enter drücken könnt.
Wenn die Kapitel und Seitenzahlen(die wenn sie nicht mitten im Text sind eigentlich entfernt sein sollten) nur Zahlen sind und z.B. nicht im Format "Kapitel x", solltet ihr ihr den nächsten Dialog mit "j" bestätigen.
Das kann nötig sein, wenn das gescannte Buch die erste Zeile eines Absatzes nicht einrückt. Also wenn keine Einrückungen vorhanden sind, solltet ihr hier "j" wählen. Als nächstes müsst ihr noch die Anzahl an Zeichen einstellen, bei der ein neuer Absatz erkannt werden soll. Der Standardwert "50" kann übernommen werden.





Die p Tags sollte eigentlich immer genutzt werden, also hier weiter mit Enter.

Es sollten Sonderzeichen im HTML verwendet werden, da es sonst zu Problemen kommen kann, also hier einfach Enter drücken.


Diese Feature ist noch experimentell. Wenn ihr es trotzdem testen wollte, hier "J" wählen.
Dabei wird versucht vorhandene Formatierungen im PDF (z.B. Fetter oder Kursiver Text) zu erkennen, und sie dann beim umwandeln zum Text auch so zu setzen.

Eine eigene Datei für Stylesheets ist auch nicht wirklich nötig, also einfach Eingabe drücken.


2.4 PDF zu Text
Hier wird mit pdftotext aus dem PDF eine Textdatei erstellt. Die erstellt Datei heißt x_ergebnis_1.txt, und schaut noch nicht wirklich gut aus, das wird sich aber mit den nächsten Schritten ändern.

2.5 Text grob bereinigen
Geschieht vollständig automatisch. Wenn ihr wollt, könnt ihr natürlich auch an den Skripten und den RegularExpressions rumspielen, ist aber eigentlich meist unnötig.

Jetzt könnt ihr, die erzeugte Datei x_ergebnis_2.txt bearbeiten, dafür lest ihr die beigelegt README.html.
Ich empfehle euch aber alles standardmässig zu lassen, und eventuelle notwendige Anpassungen später mit Sigil zu machen. Das geht meiner Meinung nach erheblich einfacher und schneller.

2.6 Verdächtige Zeilen ersetzen
Wenn es immer noch defekte Zeilen oder Kapitel gibt, werden diese hier automatisch nachgebessert.
Sollte durchgeführt werden.

2.7 Text zu HTML
Wie der Menüpunkt sagt, wird aus dem Text eine HTML Datei erstellt. 

2.8 HTML zu EPUB
Aus der vorher erzeugten HTML Datei, wird hier mittels Calibre das EPUB erstellt.

Die anderen Optionen sind zur reinen Konvertierung nicht notwendig.

3. EPUB Formatierung anpassen
Natürlich könnt ihr das vorher erzeugte EPUB, jetzt schon nutzen um es auf eurem eReader Gerät zu lesen.
Wer aber zusätzlich eine gute Formatierung des Textes haben will, kommt nicht daran vorbei einige Sachen anzupassen.

Ein mächtiges Tool zum EPUB editieren ist Sigil, dass glücklicherweise ebenfalls OpenSource ist und für Windows,Linux und Mac vorliegt.

Für die Installation unter Ubuntu, empfehle ich ein PPA, so dass es auch wieder leicht zu entfernen ist.

Dazu folgendes im Terminal hintereinander ausführen.




Alternativ könnt ihr auf der Sigil Downloadseite das Paket herunterladen, und installieren.

Über Anwendungen->SoftwareEntwicklung->Sigil, könnt ihr nun Sigil starten.

Unter File->Open öffnet ihr nun das vorhin generierte EPUB File (Normalerweise x_ergebnis_4.epub). Links könnt ihr zwischen den einzelnen html Files navigieren.

Eine simple Basis Anleitung findet ihr für Sigil hier. (Leider nur auf Englisch, vllt. schreib ich ja selber mal eine)

Auf jeden Fall empfehle ich euch parallel zum Sigil Fenster die Original PDF zu öffnen, und jetzt die Formatierung einigermaßen anzupassen und nach Fehler Ausschau zu halten. Die vorher exportieren Bilder, könnt ihr nun auch einfügen.

Ein Inhaltsverzeichnis könnt ihr einfach erstellen, indem ihr die Kapitelüberschriften markiert und Links ein Heading vergebt. Diese könnt ihr dann auch verschachteln.

Wenn ihr Fertig seid, unbedingt abspeichern (File->Save)!

4. EPUB zu MOBI konvertieren
Die Kindle Nutzer, die ja leider mit EPUB nichts anfangen können müssen eine Konvertierung in das .MOBI Format vornehmen


Eine ausführliche Anleitung zur Konvertierung, findet ihr hier.

Glücklicherweise sind das EPUB und MOBI Format beinahe äquivalent, so dass man beim umwandeln nahezu keinerlei Verluste hat. Auch das Inhaltsverzeichnis wird übernommen.
Die Umwandlung geht entweder ganz einfach wenn ihr Calibre startet dort euer Buch importiert und auf "Konvertiere Bücher" klickt. Als Ausgabeformat muss dann natürlich MOBI stehen.
Die reine Konvertierung von PDF->MOBI oder EPUB über Calibre empfehle ich nicht, da das Ergebnis meist sehr bescheiden ist. Geht lieber den Weg wie oben beschrieben.

Über die Kommandozeile könnt ihr natürlich auch konvertieren.
   ebook-convert /PFAD/ZUM/EPUB/x.epub /PFAD/FÜR/MOBI/y.mobi --output-profile kindle

Das Output Profile könnt ihr weglassen, wenn ihr keinen Kindle nutzt.


Nun könnt ihr je nach Lesegerät euer EPUB oder MOBI File einfach auf euren Reader packen und mit dem Lesen beginnen !
Viel Spaß dabei :-)



Comment