Hier nun auch der Guide für Windows der größtenteils auf dem Guide von Linux basiert.

Mit diesem Guide könnt ihr mit relativ wenig Aufwand qualitativ gute EPUB's aus PDF Büchern erstellen. Die Ergebnisse sind meist zufriedenstellend und mit einiger Handarbeit im Nachhinein kann man diese noch verbessern.

Hier geht es zur Anleitung für Ubuntu und andere Linux Distros.


Zur neusten Version: /www.plantoschka.com/antoschka.com/2011/03/pdf-zu-epub-konvertieren.html
1. Skript runterladen und passende Software installieren

Erstmal das Skript hier runterladen:
DOWNLOAD

Aktuell ist das Skript in Version 1.7.8 verfügbar. Ich versuch den Downloadlink hier immer aktuell zu halten.

Nun entpackt ihr den Inhalt des Archivs in einen Ordner eurer Wahl.

Zusätzlich müsst ihr noch nachfolgende Programme downloaden und installieren, um das Skript mit all seinen Funktionen lauffähig zu machen.

Wem es zu umständlich ist alle unten stehenden Seiten einzeln durchzuklicken und die Programm zu downloaden , habe ich weiter unten ein Komplett Paket zusammengestellt, dass die Installer der Software (außer Java) beinhaltet, inklusive dem Skript.

1.Active Perl
2.XPDF
pdfimages.exe und pdftotext.exe in das Verzeichnis des Skriptes kopieren.
3.Imagemagick
Ein mächtiges Bildbearbeitungs- und verarbeitungs Tool. (ImageMagick-6.6.7-8-Q16-windows-dll.exe)
4.Calibre
Das übrigens ein hervorragendes Tool ist, um seine Bücher Sammlung zu verwalten und einfache Umwandlungen wie epub -> Mobi durchzuführen.
5.Notepad++
Ein mächtiger Texteditor für Windows.
6. JRE (Java Runtime Enviroment)
Braucht ihr nur wenn ihr das zuschneiden über eine GUI mit Briss machen wollt.

Hier das Komplet Paket mit allen Programmen als 32Bit(funktioniert auch auf 64Bit Windows) Version und dem Skript mit bereits enthaltenem pdfimages und pdftotext Dateien.
DOWNLOAD stand 08.03.2011

Wenn ihr alle Programme erfolgreich installiert habt, könnt ihr weitermachen.

2. Skript verwenden
Erstmal kopiert ihr das Buch das ihr umwandeln wollt in den Ordner wo das Skript liegt.
Die .PDF Datei solltet ihr so benennen, dass keinen Leerzeichen darin vorkommen.

Um das Skript zu starten, navigiert ihr in den Ordner wo ihr das Archiv entpackt habt, und führt start.pl per Doppelklick aus.

Im nachfolgendem Dialog entscheidet ihr euch für "2" Windows.
Ihr solltet euch nun durch die einzelnen Schritte wie unten beschrieben, arbeiten.
Im Auswahlmenü navigiert ihr, indem ihr die die Nummer links vom Menüpunkt eingebt, und das dann mit Enter bestätigt.



2.0 Buchdaten
Wenn ihr gleich Metainformationen, also Autor, Buchtitel etc. angeben wollt, könnt ihr das über Punkt 20 machen. Es wird ein Texteditor geöffnet und ihr gebt einfach die Daten an. Alternativ könnt ihr das auch nach der EPUB Erstellung mit Calibre oder Sigil machen.

2.1 Bilder extrahieren


Wenn innerhalb des PDF Dokumentes Bilder vorhanden sind, könnt ihr diese hier exportieren, um sie später wieder einzubauen.
Ihr könnt dann auch noch wählen ob die Bilder gedreht und/oder gespiegelt werden sollen, was manchmal nötigt ist. Ihr könnt es erstmal auf "N" lassen, und dann schauen ob eure Bilder verdreht sind. Wenn ja, solltet ihr die Option nochmal aufrufen und die jeweilige Option natürlich mit "j" bestätigen.

Sollten keine Bilder vorhanden sein, oder ihr wollte ein EPUB nur aus Text, solltet ihr diesen Punkt einfach überspringen.

2.2 PDF zuschneiden
Hier könnt ihr das PDF zuschneiden, so dass ihr rundherum nur noch einen kleinen Rand habt, und vorhandene Seitenzahlen(wenn sie unten sind) herausschneidet, da euer eReader Gerät selbst Seitenzahlen generiert auf Basis der aktuellen Schriftgröße.

Ihr gebt jeweils Oben,Unten,Links,Rechts an wie viele Pixel weggeschnitten werden sollen. Hier könnt ihr einfach rumprobieren und dann später das Ergebnis betrachten, solltet ihr zuviel weg geschnitten haben, könnt ihr den Vorgang nochmal durchführen.

Alternativ, könnt ihr auch ein grafisches Tool verwenden, mit dem das zuschneiden leichter fällt.
Briss ist ein Java Tool, dass dies wirklich super beherrscht.
Dazu geht ihr zu http://sourceforge.net/projects/briss/ ladet das Programm runter und entpackt es.
Startet Briss, indem ihr  "briss-0.0.12.jar" aufruft. Nun öffnet das PDF.
Seiten die ihr eventuell auslassen wollt könnt ihr auch angeben (z.B. die Coverseite)



Briss erkennt automatisch "linke" und "rechte" Seiten. Die Seiten werden transparent übereinander gelegt, so dass ihr ungefähr sehen solltet wo der Text steht. Nun macht ihr ein Rechteckigen Rahmen um den Text, und wählt Action-> Crop PDF. Das Ergebnis solltet ihr natürlich wieder in den Ordner vom Skript speichern, so dass ihr es dann gleich weiter bearbeiten könnt.

Das Ergebniss nach dem zuschneiden solltet ihr unbedingt kurz durchschauen, um zu prüfen, dass keine Textabschnitte weggeschnitten sind.

2.3 Formatierung Buch

Die Metadaten des Buches werden hier erstellt. Als erstes wählt ihr ein Coverbild, dazu muss das Cover im Ordner /erg/img/ liegen. Das ist aber jetzt nicht unbedingt notwendig, da ihr auch später relativ problemlos ein Cover hinzufügen (z.B. mit Calibre oder Sigil), so dass ihr auch einfach Enter drücken könnt.
Wenn die Kapitel und Seitenzahlen(die wenn sie nicht mitten im Text sind eigentlich entfernt sein sollten) nur Zahlen sind und z.B. nicht im Format "Kapitel x", solltet ihr ihr den nächsten Dialog mit "j" bestätigen.
Das kann nötig sein, wenn das gescannte Buch die erste Zeile eines Absatzes nicht einrückt. Also wenn keine Einrückungen vorhanden sind, solltet ihr hier "j" wählen.





Die p Tags sollte eigentlich immer genutzt werden, also hier weiter mit Enter.

Es sollten Sonderzeichen im HTML verwendet werden, da es sonst zu Problemen kommen kann, also hier einfach Enter drücken.


Diese Feature ist noch experimentell. Wenn ihr es trotzdem testen wollte, hier "J" wählen.
Dabei wird versucht vorhandene Formatierungen im PDF (z.B. Fetter oder Kursiver Text) zu erkennen, und sie dann beim umwandeln zum Text auch so zu setzen.

Eine eigene Datei für Stylesheets ist auch nicht wirklich nötig, also einfach Eingabe.


2.4 PDF zu Text
Hier wird mit pdftotext aus dem PDF eine Textdatei erstellt. Die erstellt Datei heißt x_ergebnis_1.txt, und schaut noch nicht wirklich gut aus, das wird sich aber mit den nächsten Schritten ändern.

2.5 Text grob bereinigen
Geschieht vollständig automatisch. Wenn ihr wollt, könnt ihr natürlich auch an den Skripten und den RegularExpressions rumspielen, ist aber eigentlich meist unnötig.

Jetzt könnt ihr, die erzeugte Datei x_ergebnis_2.txt bearbeiten, dafür lest ihr die beigelegt README.txt.
Ich empfehle euch aber alles standardmässig zu lassen, und eventuelle notwendige Anpassungen später mit Sigil zu machen. Das geht meiner Meinung nach erheblich einfacher und schneller.

2.6 Verdächtige Zeilen ersetzen

Wenn es immer noch defekte Zeilen oder Kapitel gibt, werden diese hier automatisch nachgebessert.
Sollte durchgeführt werden.

2.7 Text zu HTML
Wie der Menüpunkt sagt, wird aus dem Text eine HTML Datei erstellt. 

2.8 HTML zu EPUB
Aus der vorher erzeugten HTML Datei, wird hier mittels Calibre das EPUB erstellt.

Die anderen Optionen sind zur reinen Konvertierung nicht notwendig.

3. EPUB Formatierung anpassen
Natürlich könnt ihr das vorher erzeugte EPUB, jetzt schon nutzen um es auf eurem eReader Gerät zu lesen.
Wer aber zusätzlich eine gute Formatierung des Textes haben will, kommt nicht daran vorbei einige Sachen anzupassen.

Ein mächtiges Tool zum EPUB editieren ist Sigil, dass glücklicherweise ebenfalls OpenSource ist und für Windows,Linux und Mac vorliegt.


Um Sigil zu installieren, geht ihr auf die Sigil Downloadseite, ladet den passenden Installer (32Bit oder 64Bit) runter, und installiert es.

Sigil ist nun im Starmenü zu finden.

Unter File->Open öffnet ihr nun das vorhin generierte EPUB File (Normalerweise x_ergebnis_4.epub). Links könnt ihr zwischen den einzelnen html Files navigieren.

Eine simple Basis Anleitung findet ihr für Sigil hier. (Leider nur auf Englisch, vllt. schreib ich ja selber mal eine)

Auf jeden Fall empfehle ich euch parallel zum Sigil Fenster die Original PDF zu öffnen, und jetzt die Formatierung einigermaßen anzupassen und nach Fehler Ausschau zu halten. Die vorher exportieren Bilder, könnt ihr nun auch einfügen.

Ein Inhaltsverzeichnis könnt ihr einfach erstellen, indem ihr die Kapitelüberschriften markiert und Links ein Heading vergebt. Dieses könnt ihr dann auch verschachteln. (Also Unterkapitel erstellen)

Wenn ihr Fertig seid, unbedingt abspeichern (File->Save)!

4. EPUB zu MOBI konvertieren
Die Kindle Nutzer, die ja leider mit EPUB nichts anfangen können müssen eine Konvertierung in das .MOBI Format vornehmen


Eine ausführliche Anleitung zur Konvertierung, findet ihr hier.

Glücklicherweise sind das EPUB und MOBI Format beinahe äquivalent, so dass man beim umwandeln nahezu keinerlei Verluste hat. Auch das Inhaltsverzeichnis wird übernommen.
Die Umwandlung geht entweder ganz einfach wenn ihr Calibre startet dort euer Buch importiert und auf "Konvertiere Bücher" klickt. Als Ausgabeformat muss dann natürlich MOBI stehen.
Die reine Konvertierung von PDF->MOBI oder EPUB über Calibre empfehle ich nicht, da das Ergebnis meist sehr bescheiden ist. Geht lieber den etwas längeren Weg wie oben beschrieben, und ihr bekommt gute Ergebnisse.

Über die Kommandozeile könnt ihr natürlich auch konvertieren.
   ebook-convert /PFAD/ZUM/EPUB/x.epub /PFAD/FÜR/MOBI/y.mobi --output-profile kindle

Das Output Profile könnt ihr weglassen, wenn ihr keinen Kindle nutzt.


Nun könnt ihr je nach Lesegerät euer EPUB oder MOBI File einfach auf euren Reader packen und mit dem Lesen beginnen !
Viel Spaß dabei :-)



2 Comments