Jump to content


Forumul s-a mutat!

Aceasta este arhiva forumului MacForum.ro din perioada 2010-2014.
Noul forum poate fi accesat aici.
Conturile vechi nu mai sunt valabile pe noul forum!

Photo

Lista tuturor cuvintelor din limba română

dicționar limba română

  • Please log in to reply
8 replies to this topic

#1 Tudor Vedeanu

Tudor Vedeanu

    Mac-OS-1701-D

  • Administratori
  • 2252 posts
  • LocationGura Humorului

Posted 27 August 2013 - 19:30

Există pe undeva vreun dicționar sub forma unei liste de cuvinte românești, cu toate formele lor posibile (singular, plural, declinări, conjugări etc.)? Mai exact: 

 

cuvânt

cuvântul

cuvinte

cuvintele

...

cuvânta

cuvântez

cuvântezi

cuvântează

cuvântăm

cuvântați

cuvântam

cuvântai

cuvântași

... 

 

Mi-am băgat un pic nasul și am reușit să fac un dicționar românesc care funcționează în Office 2011 pe Mac. Problema e că Office nu e suficient de deștept să recunoască diferitele forme ale unui cuvânt. De exemplu, în dicționar am cuvântul "cal". Word îl recunoaște numai sub această formă, în timp ce "calul" sau "cai" dau eroare și trebuie adăugate manual.

 

Din câte îmi dau eu seama, programele mai deștepte au nevoie numai de setul de cuvinte în formele lor de bază (singular, infinitiv), plus regulile după care se compun restul formelor, nu? Sau le supraestimez eu?



#2 Cattus Thraex

Cattus Thraex

    Veteran

  • Membri
  • PipPipPipPipPip
  • 3566 posts
  • LocationBucurești, România, Balta Albă / White Pond

Posted 27 August 2013 - 21:51

Păi cred că asta cuprinde acel fișier dic din OpenOffice. Cred că utilă ar fi o discuție cu creatorul dexonline.ro, Cătălin Frâncu, ai undeva e-mailul pe site-ul dexonline. 

Presupun că algoritmul e cel folosit însă în modulele OO



#3 Tudor Vedeanu

Tudor Vedeanu

    Mac-OS-1701-D

  • Administratori
  • 2252 posts
  • LocationGura Humorului

Posted 27 August 2013 - 22:03

Păi eu practic am pornit de la fișierul .dic din OpenOffice, l-am curățat de niște markeri mai ciudați (care nu știu la ce folosesc în OpenOffice, dar nu ajută la nimic în MS Office), și am lăsat doar cuvintele. Rezultatul e că MS Office se limitează strict la lista aia de cuvinte, pe când - de exemplu - Text Edit pare mult mai flexibil. Am senzația că spell checker-ul din sistem (care se bazează pe dicționarele nemodificate de OpenOffice) recunoaște corect și alte forme ale cuvintelor, care nu-s trecute în listă.

 

Mai fac niște teste, important e că am reușit să fac Office-ul să înțeleagă cât de cât românește. :)



#4 Tudor Vedeanu

Tudor Vedeanu

    Mac-OS-1701-D

  • Administratori
  • 2252 posts
  • LocationGura Humorului

Posted 27 August 2013 - 22:11

Mda, m-am lămurit.

 

Fișierul .dic conține cuvintele, iar acei markeri despre care vorbeam sunt "affix rules". Ei au corespondență în fișierul .aff, care conține regulile lingvistice de alcătuire ale formelor derivate. MS Office nu folosește .aff-uri, deci are nevoie de o listă completă de cuvinte cu toate formele lor posibile și corecte.



#5 Cattus Thraex

Cattus Thraex

    Veteran

  • Membri
  • PipPipPipPipPip
  • 3566 posts
  • LocationBucurești, România, Balta Albă / White Pond

Posted 28 August 2013 - 19:57

Păi oricum ești pe drum bun. Mie mi se pare evident că MS nu vrea să actualizeze cumva spell checkingul, nu cred că le-ar fi greu să combine cele două liste. 



#6 Fischer

Fischer

    Membru nou

  • Membri
  • Pip
  • 1 posts

Posted 17 May 2014 - 10:32

Acest thread este vechi de aproape 1 an, insa alte surse nu prea am gasit pe net. Incerc la ora actuala sa integrez un dictionar romanesc de cuvinte intr o aplicatie android, insa problema e ca pentru limba romana, nu am gasit aceasta lista de cuvinte completa. Voiam sa te intreb Tudor daca ai gasit o sau facut o tu intre timp. Mi ar fi de mare folos, si nu numai mie cred, tuturor celor care vor sa introduca un dictionar romanesc in orice aplicatie. Poate ai macar o lista cu cele mai folosite cuvinte si asta ar fi perfect.



#7 Cattus Thraex

Cattus Thraex

    Veteran

  • Membri
  • PipPipPipPipPip
  • 3566 posts
  • LocationBucurești, România, Balta Albă / White Pond

Posted 17 May 2014 - 11:30

Eu zic să iei legătura cu cei de la dexonline.ro, ei au, practic, toată baza de date a limbii române, alta mai completă nu are nimeni. Au ori pot genera baze de date de tipul „de cîte ori apare et. nec.” (m-a interesat pe mine, de 1720 de ori, parcă) etc.

P.S. Evident, dacă Tudor a mai lucrat între timp, cu atît mai bine.



#8 Tudor Vedeanu

Tudor Vedeanu

    Mac-OS-1701-D

  • Administratori
  • 2252 posts
  • LocationGura Humorului

Posted 17 May 2014 - 22:44

O listă a cuvintelor din limba română se găsește în corectorul ortografic pentru Open Office disponibil aici. Se descarcă fișierul .oxt, se redenumește în .zip și se extrage conținutul. Fișierul ro_RO.dic conține lista de cuvinte, care va trebui apoi curățată folosind un editor de texte cu căutare GREP pentru că are niște markeri folosiți de motorul pentru corectarea ortografică.

 

PS: Am făcut anul trecut experimentul cu dicționarul românesc în Office 2011, bazat pe lista asta de cuvinte. A mers oarecum, însă greu. Office se împotmolește atunci când îi dai să înghită un dicționar custom de dimensiuni mari. Fișierul ăla .dic are peste 181.000 de linii!



#9 Cattus Thraex

Cattus Thraex

    Veteran

  • Membri
  • PipPipPipPipPip
  • 3566 posts
  • LocationBucurești, România, Balta Albă / White Pond

Posted 18 May 2014 - 12:34

Tudore, dacă-l deschizi cu TExtEdit, se vede foarte frumos și așa. Complicat este dacă-l salvezi ca rtf, devine un fișier mare și se deschide f. greu, dar ca .txt este rapid. Dacă cineva are nevoie de lista asta, e f. clară.

Attached Images

  • Screen Shot 2014-05-18 at 13.33.32.png






Also tagged with one or more of these keywords: dicționar, limba română

0 user(s) are reading this topic

0 members, 0 guests, 0 anonymous users