Adam gibi bir sonuç istiyorsanız istediğiniz şey çok zahmetli ve vakit alan bir şey.
Öncelikle pdf nasıl bir pdf, normal bir kitabın sayfalarının fotoğraflarının çekilmesiyle oluşmuş bir pdf ise önce bir ocr yazılımı ile o harfleri texte dönüştürmek lazım ve ardından ciddi bir temizlik ve dilbilgisi kontrolü gerekiyor. Çünkü ocr yazılımları mesela "rı" hecesini "n" harfi gibi görmeye bayılır, ve bunun gibi birçok benzetme hatası... Bunların çoğu otomatik dil kontlüne yakalanır, bazısı yanlış anlaşıldıktan sonra hâlâ anlamlı bir kelime olduğu için anca en son kitabı okurken fark edersiniz.
Ocr yazılımı sayfa üzerindeki her şeyi bir şeye benzetmeye çalışacağı için şu gibi bir manzara ortaya çıkabiliyor:
i.imgur.com 
Ben kafayı yemiş satırları bir araya getirip sonra eski sıralarına almak için önce excel ile bi toparlar temizlerim. Sonra wordde dil kontolü şu bu, en son
sigilde ise paragraf düzeni, bölümlerin ayrılması, vs vs...
Ve bu sırada kitabı net bir şekilde anlamış olurum :D
Şayet pdf'niz ezelden beri harflerden oluşuyorsa işiniz koyal. epub yaptığınızda sadece paragraf düzeni yerle bir olacak, ve varsa sayfa sayıları ve varsa her sayfada tekrarlanan yazar ve kitap isimleri satırların arasına karışmak isteyecek. sadece sigil'de bile halledebilirsiniz bence, ama hâlâ vakit alan bir şey...