Deddf Zipf

Oddi ar testwiki
Neidio i'r panel llywio Neidio i'r bar chwilio

Nodyn:Pethau

Mae Deddf Zipf yn arsylwad empirig sy'n ymneud â phatrwm neilltuol sydd i'w gael mewn rhai mathau o ddata ystadegol. Ceir yr enghraifft fwyaf adnabyddus o'r deddf ym maes ieithyddiaeth, ond fe'i defnyddiwyd hefyd mewn amrywiol wyddorau cymdeithasol a gwyddorau naturiol eraill. Mae'r deddf wedi'i henwi ar ôl George Kingsley Zipf (1902-1950), a'i lluniodd yn y 1930au, er bod y ffenomen wedi cael ei sylwi cyn hynny.[1]

Mae'r enghraifft fwyaf adnabyddus o Ddeddf Zipf yn ymwneud ag amlder geiriau mewn testun neu corpws o iaith naturiol. Os cymerir sampl o destun mewn iaith naturiol, ar yr amod nad yw'n rhy fyr, yna mae'r canlynol yn debygol o fod yn wir. Os bydd y gwahanol eiriau un y testun yn cael eu graddio yn ôl pa mor aml y digwyddant ynddo, ac yn cael eu gosod mewn trefn yn ôl pa mor aml y maent yn digwydd, bydd y patrwm canlynol yn dod i'r amlwg yn gyffredinol:

  • Ceir y gair a ymddengys yn yr ail safle yn y rhestr tua hanner mor aml â'r gair yn y safle cyntaf.
  • Ceir y gair a ymddengys yn y trydydd safle yn y rhestr tua thraean mor aml â'r gair yn y safle cyntaf.
  • Ac yn y blaen. Sef, ymddengys y gair yn safle n yn y rhestr tua 1/n gwaith mor aml â'r gair yn y safle cyntaf.

Mewn termau mwy ffurfiol:  amlder gair  1 trefn restrol y gair 

Dywedir bod dosraniad o'r math hwn yn cydymffurfio â Deddf Zipf. Ymddengys fod y patrwm hwn yn wir ni waeth beth fo hyd neu teithi'r testun, boed yn baragraff mewn llyfr hanes, yn bennod mewn nofel, yn erthygl mewn papur newydd, neu'n wyddoniadur cyfan.

Mynegiant mwy manwl gywir o'r egwyddor yw Deddf Zipf–Mandelbrot:

 amlder  1 ( trefn restrol+b )a   lle mae  a  a  b  yn baramedrau cymwys:  a1;  b2.7

Cyd-destun Cymraeg

Am gymhwysiad Deddf Zipf i'r Gymraeg gweler yr erthygl "O sero i dri chant" (2024) gan Fitzpatrick a Morris,[2] sef astudiaeth o'r 300 o eiriau Cymraeg a ddefnyddir amlaf. Mae’r awduron yn ysgrifennu:

canfyddwn fod y 500 gair a ddefnyddir amlaf yn y Gymraeg yn cwmpasu 71% o gynnwys y Corpws Cenedlaethol Cymraeg Cyfoes (CorCenCC).[3] Fel y nodwyd uchod yng nghyd-destun deddf Zipf, daw’r budd mwyaf o ran cwmpas o’r geiriau a ddefnyddir amlaf; yn wir, canfyddwn fod y 300 gair a ddefnyddir amlaf yn y Gymraeg yn cwmpasu 65% o CorCenCC.

Gweler hefyd

Cyfeiriadau

Nodyn:Cyfeiriadau

  1. "Zipf law", Encyclopedia of Mathematics; adalwyd 18 Mawrth 2025
  2. Tess Fitzpatrick a Steve Morris, "'O sero i dri chant': technegau caffael dwys ar gyfer y 300 gair cynnwys a ddefnyddir amlaf yn y Gymraeg" Gwerddon 38 (2024)
  3. Corpws Cenedlaethol Cymraeg Cyfoes, adalwyd 15 Mawrth 2025