சிஃபுவின் விதி
வார்ப்புரு:Probability distribution
சிஃபுவின் விதி அல்லது இசுஃபு விதி (Zipf's law), என்பது கணிதப்புள்ளியியல் குறிப்புகளின்படி இயற்கையியல் அல்லது மொழியியல் போன்ற குமுகவியல் தரவுகளில் காணப்படும் ஒரு பகிர்வமைப்பில் (distribution) காணப்படும் ஒரு நடைமுறை விதி. ஒரு தரவுத்தொகுப்பில் காணப்படும் ஓர் உருப்படி அத்தரவுத்தொகுப்பில் எத்தனை தடவை வருகின்றது என்பதைக் கொண்டு வகுக்கப்பெறும் ஒரு விதிமுறை இது. அமெரிக்க மொழியியல் ஆய்வாளர் சியார்ச்சு கிங்கிசிலி சிஃபு (1902–1950) (George Kingsley Zipf) என்பார் சொற்களின் வருகை எண்ணிக்கையைக் கொண்டு முதன்முதல் 1935, 1949 ஆகிய ஆண்டுகளில் முன்மொழிந்ததால் அவர் பெயரால் இவ்விதி வழங்கப்பெறுகின்றது. என்றாலும் இவரிடம் குறிப்பெடுப்பவராகவும் எழுத்தராகவும் பணியாற்றிய இழான் பாட்டீசு எசுத்தூப்பு (1868–1950) (Jean-Baptiste Estoup) என்பவர் சொற்கள் வருகை தடவையெண்ணிக்கையின் ஒழுக்கம் பற்றி உணர்ந்து குறிப்பிட்டாராம்.[1]. இந்த விதியை 1913 இல் இடாய்ச்சுலாந்து இயற்பியலாளர் பெலிக்ஃசு அவெர்பாஃகு (Felix Auerbach) என்பாரும் அறிந்திருந்தாராம்[2] (1856–1933).
இவ்விதி உருவானதின் பின்புலம்
சிஃபுவின் விதி என்ன சொல்லுகின்றது என்றால், இயற்கை மொழியின் மொழிவழக்குத் தொகுப்பு ஒன்றைக் கொண்டு, அதில் வரும் எந்தவொரு சொல்லும் எத்தனை முறை அத்தொகுப்பில் வருகின்றது என்று கணக்கிட்டு ஓர் அட்டவணையில் குறித்து வந்தால், எந்தவொரு சொல்லின் வருகையெணும் (வருகை தடவை-எண்ணிக்கை) அதன் வரிசையெண்ணுக்குத் (rank) (வருகையெண்படி வரிசைப்படுத்தப்பட்ட சொற்களின் வரிசை எண்) தலைகீழ் விகிதத்தில் (எதிர்மறையான வீதத்தில்) இருக்கும். மிக அதிகமான எண்ணிக்கையில் வரும் ஒரு சொல் அதற்கு அடுத்ததாக அதிக எண்ணிக்கையில் வரும் ஒரு சொல்லைவிட ஏறத்தாழ இரு மடங்கு கூடுதலான எண்ணிக்கையில் வரும்; இதே போல மூன்றாவதாக அதிக எண்ணிக்கையில் வரும் சொல்லைப்போல மூன்று மடங்கு அதிக எண்ணிக்கையில் வரும். இப்படியாகச் செல்லும் இந்த விதி. எடுத்துக்காட்டாக அமெரிக்க ஆங்கில மொழிவழக்குத் தொகுப்பாகிய பிரௌன் தொகுப்பில், ஆங்கிலச் சொல்லாகிய 'the' என்பது எல்லாச்சொற்களைக் காட்டிலும் கூடுதலான எண்ணிக்கையில் வரும் ஒரு சொல். இத்தொகுப்பில் உள்ள மொத்தச் சொற்களிலும் இது ஏறத்தாழ 7% அளவாக இருக்கின்றது. அதாவது பிரௌன் தொகுப்பில் உள்ள ஒரு மில்லியன் சொற்களுக்கும் கூடுதலாக உள்ள சொற்களில் இந்த 'the' என்னும் சொல் மட்டும் 69,971 முறை வருகின்றது. சிஃபு விதி சொல்வது போலவே அடுத்து அதிக எண்ணிக்கையில் வரும் 'of' என்னும் சொல் 3.5% உக்கும் சற்றே கூடுதலாகக் காணப்படுகின்றது. அதாவது 36,411 முறை வருகின்றது (வருகையெண் = 36,411). மூன்றாவதாக அதிக எண்ணிக்கையில் வரும் சொல் 'and' என்னும் சொல்லாகும். இது 28,852 முறை வருகின்றது. இந்த பிரௌன் தொகுப்பில் ஒரு மில்லியனுக்கும் கூடுதலான சொற்களில் வெறும் 135 சொற்களே ஏறத்தாழ சரிபாதியான எண்ணிக்கையிலான சொற்களாக உள்ளன.[3]
மொழியியல் சாராத பிற துறைகள் சிலவற்றிலும் இதே சார்புத்தன்மை காணப்படுகின்றது. எடுத்துக்காட்டாக பல்வேறு நாடுகளில் மக்கள் தொகையின் அடிப்படையிலான நகரத்தின் வரிசையெண்களைப் பார்த்தாலும் இவ்விதியைக்காணலாம். நகர மக்கள்தொகையின் அடிப்படையிலான விதியை முதன்முதலாக 1913 இல் பெலிக்ஃசு அவெர்பாஃகு (Felix Auerbach) குறிப்பிட்டார்.[2]
கருத்தியல் கொள்கை
ஒரு தரவுத்தொகுப்பை அலசும்பொழுது, அதில் உள்ள உருப்படிகளின் வருகையெண்ணிக்கையையும் (வருகையெண்), இதனடிப்படையில் வரிசைப்படுத்திய வரிசையெண் (rank) ஆகியவற்றை ஒரு மடக்கை-மடக்கை (log-log) வரைபடத்தில் குறித்தால் சிஃபுவின் விதியை எளிதாக அறியலாம். எடுத்துக்காட்டாக மேலே விளக்கியவாறு பிரௌன் மொழித்தொகுப்பில் வரும் "the" என்னும் சொல்லை (அதன் வரிசையெண்ணை) கிடை மடக்கை அச்சிலும், x = log(1) எனவும், அச்சொல்லின் வருகையெண்ணைக் குத்து மடக்கை அச்சிலும், y = log(69971 எனவும் இடவேண்டும். இப்படி மற்ற சொற்களையும் அவற்றின் வருகையெண்களையும் இந்த மடக்கை-மடக்கை வரைபடத்தில் பதிவிட்டால், அப்பதிவிட்ட புள்ளிகள் நேர்கோட்டில் அமைந்தால், தரவுகள் சிஃபு விதியின்படி அமைத்துள்ளது என்று உறுதி கொள்ளலாம்.
முறையாகக் கூறுவதென்றால், முதலில் கீழ்க்காணுமாறு கொள்ளுவோம்:
- N உருப்படிகளின் எண்ணிக்கை;
- k உருப்படிகளின் வரிசையெண்;
- s உருப்படிகள் அமைந்த பகிர்வமைப்பின் குணத்தைக் காட்டும் மேலெண் அல்லது மடியெண் (exponent).
சிஃபுவின் விதி கூறுவது: N உருப்படிகளின் இடையே உருப்படிகளின் வரிசையெண் k ஆனது என்னும் சார்பில் அமைந்திருக்கும்:
ஒரு தரவுத் தொகுப்பில் உள்ள ஒவ்வொரு உருப்படியும் அது வரும் எண்ணிக்கை (வருகையெண்) ஒன்றோடொன்று தொடர்பில்லாமல் இருப்பதாகக் கொண்டால், தொடர்பில்லாத் தனித்தனி சீருறா உருப்படிகளால் அமைந்த மடிவிதி (powerlaw)- [4] - முறையின் அமைந்த ஒரு பகிர்வமைப்பில் உள்ளவை (distribution) சிஃபு விதியின்படி அமையும்.
மேலே குறிப்பிட்ட ஆங்கில மொழிவழக்குத் தரவு எடுத்துக்காட்டில், N என்பது அந்தத் தரவில் உள்ள சொற்களின் எண்ணிக்கை. மரபான சிஃபுவின் விதியைக் கொண்டால், மேலெண் அல்லது மடியெண் (exponent) s -இன் மதிப்பு 1 ஆகும். f(k; s,N) என்பது வரிசைப்படி வரும் k-ஆவது எண் எந்த விகிதத்தில் வரும் என்பதைக் குறிக்கும்.
இந்த சிஃபுவின் விதியைக் கீழ்க்காணுமாறும் எழுதலாம்:
மேலுள்ளதில் HN,s என்பது பொதுமைப்படுத்தப்பட்ட N-ஆவது தலைகீழ் இயல் எண் (generalized harmonic number).
சிஃபுவின் விதியின் மிக எளிமையான விளக்கம் "1⁄f சார்பியம்".
அடிக்குறிப்புகளும் மேற்கோள்களும்
மேலும் படிக்க
முதல் நிலை:
- George K. Zipf (1949) Human Behavior and the Principle of Least Effort. Addison-Wesley.
- George K. Zipf (1935) The Psychobiology of Language. Houghton-Mifflin. (see citations at http://citeseer.ist.psu.edu/context/64879/0 )
இரண்டாம் நிலை:
- Lada Adamic. Zipf, Power-laws, and Pareto - a ranking tutorial. http://www.hpl.hp.com/research/idl/papers/ranking/ranking.html வார்ப்புரு:Webarchive
- Alexander Gelbukh and Grigori Sidorov (2001) "Zipf and Heaps Laws’ Coefficients Depend on Language". Proc. CICLing-2001, Conference on Intelligent Text Processing and Computational Linguistics, February 18–24, 2001, Mexico City. Lecture Notes in Computer Science N 2004, ISSN 0302-9743, வார்ப்புரு:ISBN, Springer-Verlag: 332–335.
- Damián H. Zanette (2006) "Zipf's law and the creation of musical context," Musicae Scientiae 10: 3-18.
- Kali R. (2003) "The city as a giant component: a random graph approach to Zipf's law," Applied Economics Letters 10: 717-720(4)
- வார்ப்புரு:Cite journal
- Axtell, Robert L; Zipf distribution of US firm sizes, Science, 293, 5536, 1818, 2001, American Association for the Advancement of Science
- Ramu Chenna, Toby Gibson; Evaluation of the Suitability of a Zipfian Gap Model for Pairwise Sequence Alignment,
International Conference on Bioinformatics Computational Biology: 2011.
வெளியிணைப்புகள்
- வார்ப்புரு:Cite news—An article on Zipf's law applied to city populations
- Seeing Around Corners (Artificial societies turn up Zipf's law)
- PlanetMath article on Zipf's law வார்ப்புரு:Webarchive
- Distributions de type "fractal parabolique" dans la Nature (French, with English summary) வார்ப்புரு:Webarchive
- An analysis of income distribution
- Zipf List of French words வார்ப்புரு:Webarchive
- Zipf list for English, French, Spanish, Italian, Swedish, Icelandic, Latin, Portuguese and Finnish from Gutenberg Project and online calculator to rank words in texts வார்ப்புரு:Webarchive
- Citations and the Zipf–Mandelbrot's law
- Zipf's Law for U.S. Cities by Fiona Maclachlan, Wolfram Demonstrations Project.
- வார்ப்புரு:MathWorld
- Zipf's Law examples and modelling (1985)
- Complex systems: Unzipping Zipf's law (2011)
- Benford’s law, Zipf’s law, and the Pareto distribution by Terence Tao.
- ↑ Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), வார்ப்புரு:ISBN, p. 24
- ↑ 2.0 2.1 Auerbach F (1913) Das Gesetz der Bevölkerungskonzentration. Petermanns Geogr Mitt 59: 74–76
- ↑ வார்ப்புரு:Citation. P. 139: "For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words."
- ↑ Adamic, Lada A."Zipf, Power-laws, and Pareto - a ranking tutorial" வார்ப்புரு:Webarchive