Convertirea fișierelor RTF cu diacritice în formatul ePub

Cei pasionați de literatură știți probabil că nu e foarte greu să găsești, prin diverse colțuri ale internetului, zeci și sute de cărți în limba română, în formatul RTF (Rich Text Format). Iar dacă mai aveți și un ebook reader (cum ar fi un iPad) sau un iPhone sau iPod Touch, atunci e firesc să vreți să citiți acele cărți pe dispozitivul vostru. Vom vedea cum putem converti aceste fișiere RTF în formatul ePub, acceptat de iBooks. E o operațiune teoretic simplă, dar cu o mică problemă.Mai exact, problema e conversia caracterelor românești cu diacritice. Și ca să vedem ce se întâmplă, facem o încercare. Avem nevoie de Calibre, un program pentru managementul cărților electronice, care poate converti fișierele dintr‑un format într‑altul.

N‑am fost niciodată un fan Calibre, dintr‑un motiv foarte simplu: programul arată foarte urât pe Mac OS X, fiind convertit din Linux fără prea multe griji legate de funcționarea și aspectul interfeței grafice. Însă nu prea există alternative în acest domeniu, așa că vom trece cu vederea aspectul și încercăm să ne folosim de uneltele sale.

Avem ca material pentru experimente cartea „Forsyte Saga”, de John Galsworthy, un fișier RTF care arată cam așa în Text Edit:

Carte RTF

Observăm cum caracterele românești cu diacritice se văd fără probleme. Pentru a converti acest fișier în formatul ePub, deschidem Calibre și tragem RTF‑ul în fereastra programului, pentru a‑l adăuga în librăria sa. Apoi selectăm cartea și apăsăm pe butonul „Convert books”.

Convert books în Calibre

Va apărea o fereastră cu diverse opțiuni în care putem modifica, de exemplu, titlul cărții, autorul, etichete și alte informații care momentan nu ne interesează atât de mult (deși sunt importante pentru catalogarea corectă a cărții). Formatul în care se face conversia se stabilește cu meniul din partea dreaptă-sus a ferestrei, setarea implicită fiind ePub, așa că apăsăm OK.

Opțiuni conversie

Conversia durează câteva zeci de secunde. Iată rezultatul, fișierul ePub vizualizat tot cu Calibre:

Rezultatul conversiei

Nu e chiar ce ne‑am dorit, nu? Se vede cum caracterele românești au fost înlocuite cu alte semne, acest lucru făcând imposibilă lectura. Ce s‑a întâmplat?

Dar mai întâi, rezolvarea

Pentru a putea păstra literele cu diacritice în fișierul ePub, va trebui să facem o mică modificare în codul sursă al RTF‑ului. Pentru asta deschidem fișierul RTF cu un editor de cod sursă, cum ar fi TextWrangler (gratuit). Vom observa pe prima linie, la început, caracterele „ansicpg1252”.

Cod sursă RTF

Modificăm numărul 1252 în 1250, salvăm fișierul și-l închidem. Apoi procedăm ca mai sus: îl adăugăm în Calibre și‑l convertim în ePub. Dacă totul a mers cum trebuie, ar trebui să arate astfel:

Conversie corectă

Explicații

Prima dată când am auzit de această problemă (pe iPadForum.ro) am făcut niște teste cu RTF‑uri create de mine pe Mac, pe care Calibre le‑a convertit fără probleme. Însă mai târziu mi‑am dat seama că nu toate RTF‑urile sunt la fel, chiar dacă aparent arată la fel. Deoarece problema apare la caracterele românești, am bănuit că undeva e o nepotrivire de codare a textului pentru afișarea în limba română. Am aflat că fișierele RTF ar trebui să conțină în codul sursă o informație despre codare, așa că am deschis câteva dintre RTF‑urile cu probleme într‑un editor de cod și am văzut că toate aveau specificată – incorect! – codarea Windows 1252, folosită pentru afișarea textului în limba engleză. Dar pentru a afișa corect caracterele românești în Windows, există o altă codare denumită Windows 1250. Așa că am schimbat cifra 2 cu cifra 0 și astfel Calibre a știut să interpreteze corect caracterele românești la conversie.

Mai menționez că, deși Calibre are o setare pentru codare în fereastra de conversie, aceasta este ignorată pentru că programul ia în considerare doar codarea specificată în fișierul RTF.