சிஃபுவின் விதி

testwiki இலிருந்து
Jump to navigation Jump to search

வார்ப்புரு:Probability distribution

சிஃபுவின் விதி அல்லது இசுஃபு விதி (Zipf's law), என்பது கணிதப்புள்ளியியல் குறிப்புகளின்படி இயற்கையியல் அல்லது மொழியியல் போன்ற குமுகவியல் தரவுகளில் காணப்படும் ஒரு பகிர்வமைப்பில் (distribution) காணப்படும் ஒரு நடைமுறை விதி. ஒரு தரவுத்தொகுப்பில் காணப்படும் ஓர் உருப்படி அத்தரவுத்தொகுப்பில் எத்தனை தடவை வருகின்றது என்பதைக் கொண்டு வகுக்கப்பெறும் ஒரு விதிமுறை இது. அமெரிக்க மொழியியல் ஆய்வாளர் சியார்ச்சு கிங்கிசிலி சிஃபு (1902–1950) (George Kingsley Zipf) என்பார் சொற்களின் வருகை எண்ணிக்கையைக் கொண்டு முதன்முதல் 1935, 1949 ஆகிய ஆண்டுகளில் முன்மொழிந்ததால் அவர் பெயரால் இவ்விதி வழங்கப்பெறுகின்றது. என்றாலும் இவரிடம் குறிப்பெடுப்பவராகவும் எழுத்தராகவும் பணியாற்றிய இழான் பாட்டீசு எசுத்தூப்பு (1868–1950) (Jean-Baptiste Estoup) என்பவர் சொற்கள் வருகை தடவையெண்ணிக்கையின் ஒழுக்கம் பற்றி உணர்ந்து குறிப்பிட்டாராம்.[1]. இந்த விதியை 1913 இல் இடாய்ச்சுலாந்து இயற்பியலாளர் பெலிக்ஃசு அவெர்பாஃகு (Felix Auerbach) என்பாரும் அறிந்திருந்தாராம்[2] (1856–1933).

இவ்விதி உருவானதின் பின்புலம்

சிஃபுவின் விதி என்ன சொல்லுகின்றது என்றால், இயற்கை மொழியின் மொழிவழக்குத் தொகுப்பு ஒன்றைக் கொண்டு, அதில் வரும் எந்தவொரு சொல்லும் எத்தனை முறை அத்தொகுப்பில் வருகின்றது என்று கணக்கிட்டு ஓர் அட்டவணையில் குறித்து வந்தால், எந்தவொரு சொல்லின் வருகையெணும் (வருகை தடவை-எண்ணிக்கை) அதன் வரிசையெண்ணுக்குத் (rank) (வருகையெண்படி வரிசைப்படுத்தப்பட்ட சொற்களின் வரிசை எண்) தலைகீழ் விகிதத்தில் (எதிர்மறையான வீதத்தில்) இருக்கும். மிக அதிகமான எண்ணிக்கையில் வரும் ஒரு சொல் அதற்கு அடுத்ததாக அதிக எண்ணிக்கையில் வரும் ஒரு சொல்லைவிட ஏறத்தாழ இரு மடங்கு கூடுதலான எண்ணிக்கையில் வரும்; இதே போல மூன்றாவதாக அதிக எண்ணிக்கையில் வரும் சொல்லைப்போல மூன்று மடங்கு அதிக எண்ணிக்கையில் வரும். இப்படியாகச் செல்லும் இந்த விதி. எடுத்துக்காட்டாக அமெரிக்க ஆங்கில மொழிவழக்குத் தொகுப்பாகிய பிரௌன் தொகுப்பில், ஆங்கிலச் சொல்லாகிய 'the' என்பது எல்லாச்சொற்களைக் காட்டிலும் கூடுதலான எண்ணிக்கையில் வரும் ஒரு சொல். இத்தொகுப்பில் உள்ள மொத்தச் சொற்களிலும் இது ஏறத்தாழ 7% அளவாக இருக்கின்றது. அதாவது பிரௌன் தொகுப்பில் உள்ள ஒரு மில்லியன் சொற்களுக்கும் கூடுதலாக உள்ள சொற்களில் இந்த 'the' என்னும் சொல் மட்டும் 69,971 முறை வருகின்றது. சிஃபு விதி சொல்வது போலவே அடுத்து அதிக எண்ணிக்கையில் வரும் 'of' என்னும் சொல் 3.5% உக்கும் சற்றே கூடுதலாகக் காணப்படுகின்றது. அதாவது 36,411 முறை வருகின்றது (வருகையெண் = 36,411). மூன்றாவதாக அதிக எண்ணிக்கையில் வரும் சொல் 'and' என்னும் சொல்லாகும். இது 28,852 முறை வருகின்றது. இந்த பிரௌன் தொகுப்பில் ஒரு மில்லியனுக்கும் கூடுதலான சொற்களில் வெறும் 135 சொற்களே ஏறத்தாழ சரிபாதியான எண்ணிக்கையிலான சொற்களாக உள்ளன.[3]

மொழியியல் சாராத பிற துறைகள் சிலவற்றிலும் இதே சார்புத்தன்மை காணப்படுகின்றது. எடுத்துக்காட்டாக பல்வேறு நாடுகளில் மக்கள் தொகையின் அடிப்படையிலான நகரத்தின் வரிசையெண்களைப் பார்த்தாலும் இவ்விதியைக்காணலாம். நகர மக்கள்தொகையின் அடிப்படையிலான விதியை முதன்முதலாக 1913 இல் பெலிக்ஃசு அவெர்பாஃகு (Felix Auerbach) குறிப்பிட்டார்.[2]

கருத்தியல் கொள்கை

ஒரு தரவுத்தொகுப்பை அலசும்பொழுது, அதில் உள்ள உருப்படிகளின் வருகையெண்ணிக்கையையும் (வருகையெண்), இதனடிப்படையில் வரிசைப்படுத்திய வரிசையெண் (rank) ஆகியவற்றை ஒரு மடக்கை-மடக்கை (log-log) வரைபடத்தில் குறித்தால் சிஃபுவின் விதியை எளிதாக அறியலாம். எடுத்துக்காட்டாக மேலே விளக்கியவாறு பிரௌன் மொழித்தொகுப்பில் வரும் "the" என்னும் சொல்லை (அதன் வரிசையெண்ணை) கிடை மடக்கை அச்சிலும், x = log(1) எனவும், அச்சொல்லின் வருகையெண்ணைக் குத்து மடக்கை அச்சிலும், y = log(69971 எனவும் இடவேண்டும். இப்படி மற்ற சொற்களையும் அவற்றின் வருகையெண்களையும் இந்த மடக்கை-மடக்கை வரைபடத்தில் பதிவிட்டால், அப்பதிவிட்ட புள்ளிகள் நேர்கோட்டில் அமைந்தால், தரவுகள் சிஃபு விதியின்படி அமைத்துள்ளது என்று உறுதி கொள்ளலாம்.

முறையாகக் கூறுவதென்றால், முதலில் கீழ்க்காணுமாறு கொள்ளுவோம்:

  • N உருப்படிகளின் எண்ணிக்கை;
  • k உருப்படிகளின் வரிசையெண்;
  • s உருப்படிகள் அமைந்த பகிர்வமைப்பின் குணத்தைக் காட்டும் மேலெண் அல்லது மடியெண் (exponent).

சிஃபுவின் விதி கூறுவது: N உருப்படிகளின் இடையே உருப்படிகளின் வரிசையெண் k ஆனது f(k,s,N) என்னும் சார்பில் அமைந்திருக்கும்:

f(k;s,N)=1/ksn=1N(1/ns).

ஒரு தரவுத் தொகுப்பில் உள்ள ஒவ்வொரு உருப்படியும் அது வரும் எண்ணிக்கை (வருகையெண்) ஒன்றோடொன்று தொடர்பில்லாமல் இருப்பதாகக் கொண்டால், தொடர்பில்லாத் தனித்தனி சீருறா உருப்படிகளால் அமைந்த மடிவிதி (powerlaw)- p(f)=αf11/s [4] - முறையின் அமைந்த ஒரு பகிர்வமைப்பில் உள்ளவை (distribution) சிஃபு விதியின்படி அமையும்.

மேலே குறிப்பிட்ட ஆங்கில மொழிவழக்குத் தரவு எடுத்துக்காட்டில், N என்பது அந்தத் தரவில் உள்ள சொற்களின் எண்ணிக்கை. மரபான சிஃபுவின் விதியைக் கொண்டால், மேலெண் அல்லது மடியெண் (exponent) s -இன் மதிப்பு 1 ஆகும். f(ks,N) என்பது வரிசைப்படி வரும் k-ஆவது எண் எந்த விகிதத்தில் வரும் என்பதைக் குறிக்கும்.

இந்த சிஃபுவின் விதியைக் கீழ்க்காணுமாறும் எழுதலாம்:

f(k;s,N)=1ksHN,s

மேலுள்ளதில் HN,s என்பது பொதுமைப்படுத்தப்பட்ட N-ஆவது தலைகீழ் இயல் எண் (generalized harmonic number).

சிஃபுவின் விதியின் மிக எளிமையான விளக்கம் "1f சார்பியம்".

அடிக்குறிப்புகளும் மேற்கோள்களும்

வார்ப்புரு:Reflist

மேலும் படிக்க

முதல் நிலை:

  • George K. Zipf (1949) Human Behavior and the Principle of Least Effort. Addison-Wesley.
  • George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin. (see citations at http://citeseer.ist.psu.edu/context/64879/0 )

இரண்டாம் நிலை:

International Conference on Bioinformatics Computational Biology: 2011.

வெளியிணைப்புகள்

  1. Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), வார்ப்புரு:ISBN, p. 24
  2. 2.0 2.1 Auerbach F (1913) Das Gesetz der Bevölkerungskonzentration. Petermanns Geogr Mitt 59: 74–76
  3. வார்ப்புரு:Citation. P. 139: "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."
  4. Adamic, Lada A."Zipf, Power-laws, and Pareto - a ranking tutorial" வார்ப்புரு:Webarchive
"https://ta.wiki.beta.math.wmflabs.org/w/index.php?title=சிஃபுவின்_விதி&oldid=996" இலிருந்து மீள்விக்கப்பட்டது