VKontakte फेसबुक ट्विटर RSS फीड

पियर्सन वितरण (ची-स्क्वेअर वितरण). ची-चौरस वितरण. ची वर्ग वितरण कार्याचे MS EXCEL मूल्य मधील गणितीय आकडेवारीचे वितरण

शिक्षण आणि विज्ञान मंत्रालय रशियन फेडरेशन

फेडरल एजन्सीइर्कुत्स्क शहराच्या शिक्षणावर

बैकल राज्य विद्यापीठअर्थशास्त्र आणि कायदा

माहितीशास्त्र आणि सायबरनेटिक्स विभाग

ची-स्क्वेअर वितरण आणि त्याचे अनुप्रयोग

कोल्मीकोवा अण्णा अँड्रीव्हना

द्वितीय वर्षाचा विद्यार्थी

गट IS-09-1

इर्कुत्स्क 2010

परिचय

1. ची-चौरस वितरण

अर्ज

निष्कर्ष

वापरलेल्या साहित्याची यादी

परिचय

संभाव्यता सिद्धांताचे दृष्टिकोन, कल्पना आणि परिणाम आपल्या जीवनात कसे वापरले जातात?

आधार हा वास्तविक घटना किंवा प्रक्रियेचे संभाव्य मॉडेल आहे, म्हणजे. एक गणितीय मॉडेल ज्यामध्ये वस्तुनिष्ठ संबंध संभाव्यता सिद्धांताच्या संदर्भात व्यक्त केले जातात. संभाव्यता प्रामुख्याने अनिश्चिततेचे वर्णन करण्यासाठी वापरली जाते ज्या निर्णय घेताना विचारात घेतल्या पाहिजेत. हे अवांछित संधी (जोखीम) आणि आकर्षक ("भाग्यवान संधी") या दोन्हींचा संदर्भ देते. कधीकधी यादृच्छिकता मुद्दाम एखाद्या परिस्थितीत आणली जाते, उदाहरणार्थ, चिठ्ठ्या काढताना, नियंत्रणासाठी यादृच्छिकपणे युनिट्स निवडताना, लॉटरी आयोजित करताना किंवा ग्राहक सर्वेक्षण आयोजित करताना.

संभाव्यता सिद्धांत संशोधकाला स्वारस्य असलेल्या इतरांची गणना करण्यासाठी एक संभाव्यता वापरण्याची परवानगी देतो.

एखाद्या घटनेचे किंवा प्रक्रियेचे संभाव्य मॉडेल हे गणितीय आकडेवारीचा पाया आहे. संकल्पनांच्या दोन समांतर मालिका वापरल्या जातात - सिद्धांताशी संबंधित (संभाव्य मॉडेल) आणि सरावाशी संबंधित (निरीक्षण परिणामांचे नमुना). उदाहरणार्थ, सैद्धांतिक संभाव्यता नमुन्यातून आढळलेल्या वारंवारतेशी संबंधित आहे. गणितीय अपेक्षा (सैद्धांतिक मालिका) नमुना अंकगणितीय सरासरी (व्यावहारिक मालिका) शी संबंधित आहे. एक नियम म्हणून, नमुना वैशिष्ट्ये सैद्धांतिक लोकांचे अंदाज आहेत. त्याच वेळी, सैद्धांतिक मालिकेशी संबंधित परिमाण "संशोधकांच्या डोक्यात आहेत", कल्पनांच्या जगाशी संबंधित आहेत (प्राचीन ग्रीक तत्वज्ञानी प्लेटोच्या मते), आणि थेट मोजमापासाठी उपलब्ध नाहीत. संशोधकांकडे फक्त नमुना डेटा असतो ज्याद्वारे ते त्यांना स्वारस्य असलेल्या सैद्धांतिक संभाव्य मॉडेलचे गुणधर्म स्थापित करण्याचा प्रयत्न करतात.

आम्हाला संभाव्य मॉडेलची आवश्यकता का आहे? वस्तुस्थिती अशी आहे की केवळ त्याच्या मदतीने विशिष्ट नमुन्याच्या विश्लेषणातून स्थापित केलेले गुणधर्म इतर नमुन्यांमध्ये तसेच संपूर्ण तथाकथित सामान्य लोकांमध्ये हस्तांतरित केले जाऊ शकतात. "लोकसंख्या" हा शब्द अभ्यासल्या जाणाऱ्या युनिट्सच्या मोठ्या परंतु मर्यादित संग्रहाचा संदर्भ देताना वापरला जातो. उदाहरणार्थ, रशियाच्या सर्व रहिवाशांच्या एकूणतेबद्दल किंवा मॉस्कोमधील इन्स्टंट कॉफीच्या सर्व ग्राहकांच्या एकूणतेबद्दल. शेकडो किंवा हजारो लोकांच्या नमुन्यातून प्राप्त विधाने अनेक दशलक्ष लोकसंख्येमध्ये हस्तांतरित करणे हे विपणन किंवा समाजशास्त्रीय सर्वेक्षणांचे उद्दिष्ट आहे. गुणवत्ता नियंत्रणामध्ये, उत्पादनांचा एक तुकडा सामान्य लोकसंख्या म्हणून कार्य करतो.

नमुन्यातून मोठ्या लोकसंख्येकडे निष्कर्ष हस्तांतरित करण्यासाठी या मोठ्या लोकसंख्येच्या वैशिष्ट्यांसह नमुना वैशिष्ट्यांच्या संबंधांबद्दल काही गृहीतके आवश्यक आहेत. हे गृहितक योग्य संभाव्य मॉडेलवर आधारित आहेत.

अर्थात, एक किंवा दुसरे संभाव्य मॉडेल न वापरता नमुना डेटावर प्रक्रिया करणे शक्य आहे. उदाहरणार्थ, आपण नमुना अंकगणित सरासरी काढू शकता, विशिष्ट अटींच्या पूर्ततेची वारंवारता मोजू शकता इ. तथापि, गणना परिणाम केवळ एका विशिष्ट नमुन्याशी संबंधित असतील त्यांच्या मदतीने प्राप्त केलेले निष्कर्ष इतर कोणत्याही लोकसंख्येला हस्तांतरित करणे चुकीचे आहे. या क्रियाकलापाला कधीकधी "डेटा विश्लेषण" म्हटले जाते. संभाव्य-सांख्यिकीय पद्धतींच्या तुलनेत, डेटा विश्लेषणास मर्यादित शैक्षणिक मूल्य आहे.

तर, नमुना वैशिष्ट्यांचा वापर करून अनुमान आणि अनुमानांच्या चाचणीवर आधारित संभाव्य मॉडेल्सचा वापर हे संभाव्यतेचे सार आहे. सांख्यिकीय पद्धतीनिर्णय घेणे.

ची-चौरस वितरण

सामान्य वितरणाचा वापर करून, तीन वितरणे परिभाषित केली जातात जी आता सांख्यिकीय डेटा प्रक्रियेमध्ये वापरली जातात. हे पिअर्सन ("ची-स्क्वेअर"), विद्यार्थी आणि फिशर वितरणे आहेत.

आम्ही वितरणावर लक्ष केंद्रित करू

("ची - चौरस"). या वितरणाचा प्रथम खगोलशास्त्रज्ञ एफ. हेल्मर्ट यांनी 1876 मध्ये अभ्यास केला होता. गॉसियन त्रुटी सिद्धांताच्या संबंधात, त्याने n स्वतंत्र प्रमाणितपणे सामान्यपणे वितरीत केलेल्या यादृच्छिक चलांच्या वर्गांच्या बेरजेचा अभ्यास केला. कार्ल पीअरसनने नंतर या वितरण कार्याला “ची-स्क्वेअर” असे नाव दिले. आणि आता वितरण त्याचे नाव आहे.

सामान्य वितरणाशी त्याच्या जवळच्या संबंधामुळे, χ2 वितरण संभाव्यता सिद्धांत आणि गणितीय आकडेवारीमध्ये महत्त्वाची भूमिका बजावते. χ2 वितरण, आणि इतर अनेक वितरणे जी χ2 वितरणाद्वारे परिभाषित केली जातात (उदाहरणार्थ, विद्यार्थी वितरण), सामान्यपणे वितरित केलेल्या निरीक्षण परिणामांमधून विविध कार्यांच्या नमुना वितरणाचे वर्णन करतात आणि आत्मविश्वास मध्यांतरे आणि सांख्यिकीय चाचण्या तयार करण्यासाठी वापरले जातात.

पिअर्सन वितरण

(ची - स्क्वेअर) - यादृच्छिक व्हेरिएबलचे वितरण जेथे X1, X2,..., Xn हे सामान्य स्वतंत्र यादृच्छिक चल आहेत आणि त्या प्रत्येकाची गणितीय अपेक्षा शून्य आणि सरासरी आहे मानक विचलन- एक.

चौरसांची बेरीज


कायद्यानुसार वितरित

("ची - चौरस").

या प्रकरणात, अटींची संख्या, i.e. n ला ची-स्क्वेअर वितरणाच्या "स्वातंत्र्याच्या अंशांची संख्या" म्हणतात.स्वातंत्र्याच्या अंशांची संख्या जसजशी वाढते तसतसे वितरण हळूहळू सामान्य होते.

या वितरणाची घनता

तर, χ2 चे वितरण एका पॅरामीटर n वर अवलंबून असते - स्वातंत्र्याच्या अंशांची संख्या.

वितरण कार्य χ2 चे फॉर्म आहे:

χ2≥0 असल्यास. (2.7.)

आकृती 1 संभाव्यतेच्या घनतेचा आलेख आणि स्वातंत्र्याच्या विविध अंशांसाठी χ2 वितरण कार्य दर्शविते.

आकृती 1χ2 (ची – चौरस) च्या वितरणातील संभाव्यतेची घनता φ (x) च्या स्वातंत्र्याच्या अंशांच्या भिन्न संख्यांसाठी अवलंबित्व.

ची-स्क्वेअर वितरणाचे क्षण:

ची-चौरस वितरणाचा उपयोग भिन्नतेचा अंदाज लावण्यासाठी (आत्मविश्वास मध्यांतराचा वापर करून), करार, एकजिनसीपणा, स्वातंत्र्य, प्रामुख्याने गुणात्मक (वर्गीकृत) व्हेरिएबल्सच्या परिकल्पना तपासण्यासाठी आणि संख्याशास्त्रीय डेटा विश्लेषणाच्या इतर अनेक कामांमध्ये केला जातो. .

2. सांख्यिकीय डेटा विश्लेषणाच्या समस्यांमध्ये "ची-स्क्वेअर".

डेटा विश्लेषणाच्या सांख्यिकीय पद्धती मानवी क्रियाकलापांच्या जवळजवळ सर्व क्षेत्रांमध्ये वापरल्या जातात. जेव्हा जेव्हा एखाद्या गटाबद्दल (वस्तू किंवा विषय) काही अंतर्गत विषमता प्राप्त करणे आणि त्याचे समर्थन करणे आवश्यक असते तेव्हा ते वापरले जातात.

आधुनिक टप्पासांख्यिकीय पद्धतींचा विकास 1900 पासून मोजला जाऊ शकतो, जेव्हा इंग्रज के. पीअरसन यांनी "बायोमेट्रिका" जर्नलची स्थापना केली. विसाव्या शतकाचा पहिला तिसरा. पॅरामेट्रिक आकडेवारीच्या चिन्हाखाली उत्तीर्ण. पियर्सन फॅमिली वक्र द्वारे वर्णन केलेल्या वितरणाच्या पॅरामेट्रिक कुटुंबांमधील डेटाच्या विश्लेषणावर आधारित पद्धतींचा अभ्यास केला गेला. सर्वात लोकप्रिय सामान्य वितरण होते. गृहीतके तपासण्यासाठी, पिअरसन, विद्यार्थी आणि फिशर चाचण्या वापरल्या गेल्या. जास्तीत जास्त संभाव्यता पद्धत आणि भिन्नतेचे विश्लेषण प्रस्तावित केले गेले आणि प्रयोग नियोजनाच्या मूलभूत कल्पना तयार केल्या गेल्या.

सांख्यिकीय गृहीतके तपासण्यासाठी सांख्यिकीमध्ये ची-स्क्वेअर वितरण हे सर्वात मोठ्या प्रमाणावर वापरले जाणारे एक आहे. ची-स्क्वेअर डिस्ट्रिब्युशनवर आधारित, सर्वात शक्तिशाली चांगुलपणा-ऑफ-फिट चाचण्यांपैकी एक तयार केली जाते - पीअरसन ची-स्क्वेअर चाचणी.

कराराचा निकष हा अज्ञात वितरणाच्या गृहित कायद्याबद्दलच्या गृहीतकाची चाचणी करण्याचा निकष आहे.

χ2 (ची-स्क्वेअर) चाचणी वेगवेगळ्या वितरणांच्या गृहीतकाची चाचणी घेण्यासाठी वापरली जाते. हे त्याचे मोठेपण आहे.

गणना सूत्रनिकष समान आहे

जेथे m आणि m' अनुक्रमे अनुभवजन्य आणि सैद्धांतिक फ्रिक्वेन्सी आहेत

प्रश्नातील वितरण;

n ही स्वातंत्र्याच्या अंशांची संख्या आहे.

तपासण्यासाठी, आम्हाला प्रायोगिक (निरीक्षण केलेले) आणि सैद्धांतिक (सामान्य वितरणाच्या गृहीतकेनुसार मोजलेल्या) फ्रिक्वेन्सींची तुलना करणे आवश्यक आहे.

जर अनुभवजन्य फ्रिक्वेन्सी गणना केलेल्या किंवा अपेक्षित फ्रिक्वेन्सीशी पूर्णपणे जुळत असतील, तर S (E – T) = 0 आणि χ2 निकष देखील शून्याच्या समान असेल. जर S (E – T) शून्याच्या समान नसेल, तर हे गणना केलेल्या फ्रिक्वेन्सी आणि मालिकेतील अनुभवजन्य फ्रिक्वेन्सी यांच्यातील तफावत दर्शवेल. अशा परिस्थितीत, χ2 निकषाचे महत्त्व मूल्यमापन करणे आवश्यक आहे, जे सैद्धांतिकदृष्ट्या शून्य ते अनंतापर्यंत बदलू शकते. हे χ2ф च्या गंभीर मूल्याशी (χ2st) तुलना करून केले जाते, म्हणजे अनुभवजन्य आणि सैद्धांतिक किंवा अपेक्षित फ्रिक्वेन्सींमधील विसंगती यादृच्छिक आहे, जर χ2ф χ2st पेक्षा जास्त किंवा समान असेल तर त्याचे खंडन केले जाते. स्वीकृत महत्त्व पातळीसाठी (a) आणि स्वातंत्र्याच्या अंशांची संख्या (n).

जैविक घटनांच्या परिमाणात्मक अभ्यासासाठी या घटनांचे स्पष्टीकरण देण्यासाठी गृहीतके तयार करणे आवश्यक आहे. एखाद्या विशिष्ट गृहितकाची चाचणी घेण्यासाठी, विशेष प्रयोगांची मालिका केली जाते आणि प्राप्त केलेल्या वास्तविक डेटाची तुलना या गृहितकानुसार सैद्धांतिकदृष्ट्या अपेक्षित असलेल्यांशी केली जाते. योगायोग असल्यास, हे गृहितक स्वीकारण्याचे पुरेसे कारण असू शकते. प्रायोगिक डेटा सैद्धांतिकदृष्ट्या अपेक्षित असलेल्यांशी जुळत नसल्यास, प्रस्तावित गृहीतकेच्या शुद्धतेबद्दल मोठी शंका उद्भवते.

वास्तविक डेटा अपेक्षित (काल्पनिक) शी संबंधित असलेली डिग्री ची-स्क्वेअर चाचणीद्वारे मोजली जाते:

- मध्ये वैशिष्ट्याचे प्रत्यक्ष निरीक्षण केलेले मूल्य मी-दिलेल्या गटासाठी सैद्धांतिकदृष्ट्या अपेक्षित संख्या किंवा चिन्ह (सूचक), k- डेटा गटांची संख्या.

के. पीअरसन यांनी 1900 मध्ये हा निकष प्रस्तावित केला होता आणि काहीवेळा त्याला पीअरसन निकष असेही म्हणतात.

कार्य. 164 मुलांमध्ये ज्यांना एका पालकाकडून एक घटक आणि दुसऱ्याकडून एक घटक वारसा मिळाला आहे, त्यामध्ये घटक असलेली 46 मुले, घटकासह 50, दोन्हीसह 68 मुले होती. गटांमधील 1:2:1 गुणोत्तरासाठी अपेक्षित फ्रिक्वेन्सीची गणना करा आणि पीअरसन चाचणी वापरून अनुभवजन्य डेटाच्या कराराची डिग्री निश्चित करा.

उपाय:निरीक्षण केलेल्या फ्रिक्वेन्सीचे प्रमाण 46:68:50 आहे, सैद्धांतिकदृष्ट्या अपेक्षित 41:82:41 आहे.

महत्त्वाची पातळी ०.०५ वर सेट करू. समान स्वातंत्र्याच्या अंशांच्या संख्येसह महत्त्वाच्या या पातळीसाठी पीअरसन निकषाचे सारणी मूल्य 5.99 असल्याचे दिसून आले. म्हणून, प्रायोगिक डेटाच्या सैद्धांतिक डेटाच्या पत्रव्यवहाराबद्दलची गृहीते स्वीकारली जाऊ शकते, पासून, .

लक्षात घ्या की ची-स्क्वेअर चाचणीची गणना करताना, आम्ही यापुढे वितरणाच्या अपरिहार्य सामान्यतेवर अटी लादत नाही. ची-स्क्वेअर चाचणी कोणत्याही वितरणासाठी वापरली जाऊ शकते जी आम्ही आमच्या गृहीतकांनुसार निवडण्यास मुक्त आहोत. या निकषाची काही सार्वत्रिकता आहे.

पीअरसन चाचणीचा आणखी एक उपयोग म्हणजे अनुभवजन्य वितरणाची तुलना गॉसियन सामान्य वितरणाशी करणे. शिवाय, वितरणाची सामान्यता तपासण्यासाठी निकषांचा एक गट म्हणून त्याचे वर्गीकरण केले जाऊ शकते. एकमात्र मर्यादा ही वस्तुस्थिती आहे की हा निकष वापरताना एकूण मूल्यांची संख्या (पर्याय) पुरेसे मोठे (किमान 40) असणे आवश्यक आहे आणि वैयक्तिक वर्गांमधील मूल्यांची संख्या (अंतराल) किमान 5 असणे आवश्यक आहे. अन्यथा, समीप अंतराल एकत्र केले पाहिजेत. वितरणाची सामान्यता तपासताना स्वातंत्र्याच्या अंशांची संख्या खालीलप्रमाणे मोजली पाहिजे:.

    1. फिशर निकष.

ही पॅरामेट्रिक चाचणी सामान्यपणे वितरित लोकसंख्येची भिन्नता समान असल्याचे शून्य गृहितक तपासण्यासाठी कार्य करते.

किंवा.

लहान नमुन्याच्या आकारासह, विद्यार्थ्याच्या चाचणीचा वापर फक्त तफावत समान असेल तरच योग्य असू शकतो. म्हणून, नमुन्याच्या समानतेची चाचणी करण्यापूर्वी, विद्यार्थी टी चाचणी वापरण्याची वैधता सुनिश्चित करणे आवश्यक आहे.

कुठे एन 1 , एन 2 नमुना आकार, 1 , 2  या नमुन्यांसाठी स्वातंत्र्याच्या अंशांची संख्या.

टेबल्स वापरताना, तुम्ही याकडे लक्ष दिले पाहिजे की मोठ्या फैलाव असलेल्या नमुन्यासाठी स्वातंत्र्याच्या अंशांची संख्या टेबल कॉलम नंबर म्हणून निवडली आहे आणि लहान फैलावसाठी टेबल पंक्ती क्रमांक म्हणून निवडली आहे.

महत्त्व पातळीसाठी , आम्हाला गणितीय आकडेवारीच्या सारण्यांमधून सारणीचे मूल्य सापडते. जर, निवडलेल्या महत्त्वाच्या पातळीसाठी भिन्नतेच्या समानतेची परिकल्पना नाकारली जाते.

उदाहरण.सशांच्या शरीराच्या वजनावर कोबाल्टचा प्रभाव अभ्यासण्यात आला. प्रायोगिक आणि नियंत्रण या प्राण्यांच्या दोन गटांवर हा प्रयोग करण्यात आला. प्रायोगिक विषयांना कोबाल्ट क्लोराईडच्या जलीय द्रावणाच्या स्वरूपात आहार परिशिष्ट प्राप्त झाले. प्रयोगादरम्यान, वजन वाढणे ग्रॅममध्ये होते:

नियंत्रण

ची-चौरस वितरण

सामान्य वितरणाचा वापर करून, तीन वितरणे परिभाषित केली जातात जी आता सांख्यिकीय डेटा प्रक्रियेमध्ये वापरली जातात. हे पिअर्सन (“ची-स्क्वेअर”), विद्यार्थी आणि फिशर वितरणे आहेत.

आम्ही वितरण ("ची-स्क्वेअर") वर लक्ष केंद्रित करू. या वितरणाचा प्रथम खगोलशास्त्रज्ञ एफ. हेल्मर्ट यांनी 1876 मध्ये अभ्यास केला होता. गॉसियन त्रुटी सिद्धांताच्या संबंधात, त्याने n स्वतंत्र प्रमाणितपणे वितरित यादृच्छिक चलांच्या वर्गांच्या बेरजेचा अभ्यास केला. नंतर, कार्ल पियर्सनने या वितरण कार्याला “ची-स्क्वेअर” असे नाव दिले. आणि आता वितरण त्याचे नाव आहे.

सामान्य वितरणाशी घनिष्ठ संबंध असल्यामुळे, h2 वितरण संभाव्यता सिद्धांत आणि गणितीय आकडेवारीमध्ये महत्त्वाची भूमिका बजावते. h2 वितरण, आणि इतर अनेक वितरणे जे h2 वितरणाद्वारे निर्धारित केले जातात (उदाहरणार्थ, विद्यार्थी वितरण), सामान्यपणे वितरित केलेल्या निरीक्षण परिणामांमधून विविध कार्यांचे नमुना वितरण वर्णन करतात आणि आत्मविश्वास मध्यांतरे आणि सांख्यिकीय चाचण्या तयार करण्यासाठी वापरले जातात.

पीअरसन वितरण (ची - स्क्वेअर) - यादृच्छिक चलचे वितरण जेथे X1, X2,..., Xn हे सामान्य स्वतंत्र यादृच्छिक चल आहेत आणि त्या प्रत्येकाची गणितीय अपेक्षा शून्य आहे आणि मानक विचलन एक आहे.

चौरसांची बेरीज

कायद्यानुसार वितरीत केले जाते ("ची - स्क्वेअर").

या प्रकरणात, अटींची संख्या, i.e. n ला ची-स्क्वेअर वितरणाच्या "स्वातंत्र्याच्या अंशांची संख्या" म्हणतात. स्वातंत्र्याच्या अंशांची संख्या जसजशी वाढते तसतसे वितरण हळूहळू सामान्य होते.

या वितरणाची घनता


म्हणून, वितरण h2 एका पॅरामीटरवर अवलंबून असते n - स्वातंत्र्याच्या अंशांची संख्या.

वितरण फंक्शन h2 चे फॉर्म आहे:

जर h2?0. (2.7.)

आकृती 1 संभाव्यता घनता आणि h2 वितरण फंक्शन्सचा आलेख दर्शविते विविध अंश स्वातंत्र्यासाठी.

आकृती 1 डिस्ट्रिब्युशन h2 (ची - स्क्वेअर) मध्ये संभाव्यतेची घनता q (x) चे अवलंबित्व वेगवेगळ्या संख्येच्या स्वातंत्र्याच्या अंशांसाठी.

ची-स्क्वेअर वितरणाचे क्षण:

ची-चौरस वितरणाचा उपयोग भिन्नतेचा अंदाज लावण्यासाठी (आत्मविश्वास मध्यांतराचा वापर करून), करार, एकजिनसीपणा, स्वातंत्र्य, प्रामुख्याने गुणात्मक (वर्गीकृत) व्हेरिएबल्सच्या परिकल्पना तपासण्यासाठी आणि संख्याशास्त्रीय डेटा विश्लेषणाच्या इतर अनेक कामांमध्ये केला जातो. .

सांख्यिकीय डेटा विश्लेषणाच्या समस्यांमध्ये "ची-स्क्वेअर".

डेटा विश्लेषणाच्या सांख्यिकीय पद्धती मानवी क्रियाकलापांच्या जवळजवळ सर्व क्षेत्रांमध्ये वापरल्या जातात. जेव्हा जेव्हा एखाद्या गटाबद्दल (वस्तू किंवा विषय) काही अंतर्गत विषमता प्राप्त करणे आणि त्याचे समर्थन करणे आवश्यक असते तेव्हा ते वापरले जातात.

सांख्यिकीय पद्धतींच्या विकासाचा आधुनिक टप्पा 1900 पासून मोजला जाऊ शकतो, जेव्हा इंग्रज के. पीअरसन यांनी "बायोमेट्रिका" जर्नलची स्थापना केली. विसाव्या शतकाचा पहिला तिसरा. पॅरामेट्रिक आकडेवारीच्या चिन्हाखाली उत्तीर्ण. पियर्सन फॅमिली वक्र द्वारे वर्णन केलेल्या वितरणाच्या पॅरामेट्रिक कुटुंबांमधील डेटाच्या विश्लेषणावर आधारित पद्धतींचा अभ्यास केला गेला. सर्वात लोकप्रिय सामान्य वितरण होते. गृहीतके तपासण्यासाठी, पिअरसन, विद्यार्थी आणि फिशर चाचण्या वापरल्या गेल्या. जास्तीत जास्त संभाव्यता पद्धत आणि भिन्नतेचे विश्लेषण प्रस्तावित केले गेले आणि प्रयोग नियोजनाच्या मूलभूत कल्पना तयार केल्या गेल्या.

सांख्यिकीय गृहीतके तपासण्यासाठी सांख्यिकीमध्ये ची-स्क्वेअर वितरण हे सर्वात मोठ्या प्रमाणावर वापरले जाणारे एक आहे. ची-स्क्वेअर डिस्ट्रिब्युशनवर आधारित, सर्वात शक्तिशाली चांगुलपणा-ऑफ-फिट चाचण्यांपैकी एक तयार केली जाते - पीअरसन ची-स्क्वेअर चाचणी.

कराराचा निकष हा अज्ञात वितरणाच्या गृहित कायद्याबद्दलच्या गृहीतकाची चाचणी करण्याचा निकष आहे.

h2 चाचणी ("ची-स्क्वेअर") विविध वितरणांच्या गृहीतकाची चाचणी घेण्यासाठी वापरली जाते. हे त्याचे मोठेपण आहे.

निकषाचे गणना सूत्र समान आहे

जेथे m आणि m" अनुक्रमे अनुभवजन्य आणि सैद्धांतिक फ्रिक्वेन्सी आहेत

प्रश्नातील वितरण;

n ही स्वातंत्र्याच्या अंशांची संख्या आहे.

तपासण्यासाठी, आम्हाला प्रायोगिक (निरीक्षण केलेले) आणि सैद्धांतिक (सामान्य वितरणाच्या गृहीतकेनुसार मोजलेल्या) फ्रिक्वेन्सींची तुलना करणे आवश्यक आहे.

जर अनुभवजन्य फ्रिक्वेन्सी गणना केलेल्या किंवा अपेक्षित फ्रिक्वेन्सीशी पूर्णपणे जुळत असतील, तर S (E - T) = 0 आणि h2 निकष देखील शून्याच्या समान असेल. जर S (E - T) शून्याच्या समान नसेल, तर हे गणना केलेल्या फ्रिक्वेन्सी आणि मालिकेतील अनुभवजन्य फ्रिक्वेन्सी यांच्यातील विसंगती दर्शवेल. अशा परिस्थितीत, h2 निकषाच्या महत्त्वाचे मूल्यांकन करणे आवश्यक आहे, जे सैद्धांतिकदृष्ट्या शून्य ते अनंतापर्यंत बदलू शकते. हे h2f च्या वास्तविक मूल्याची त्याच्या गंभीर मूल्याशी तुलना करून केले जाते (h2st). स्वीकृत महत्त्व पातळीसाठी (a) आणि स्वातंत्र्याच्या अंशांची संख्या (n).

यादृच्छिक चल h2 च्या संभाव्य मूल्यांचे वितरण सतत आणि असममित आहे. हे स्वातंत्र्य (n) च्या अंशांच्या संख्येवर अवलंबून असते आणि निरीक्षणांची संख्या वाढते म्हणून सामान्य वितरणापर्यंत पोहोचते. म्हणून, स्वतंत्र वितरणाच्या मूल्यांकनासाठी h2 निकषाचा वापर काही त्रुटींशी संबंधित आहे ज्यामुळे त्याचे मूल्य प्रभावित होते, विशेषत: लहान नमुन्यांवर. अधिक अचूक अंदाज प्राप्त करण्यासाठी, भिन्नता मालिकेमध्ये वितरीत केलेल्या नमुनामध्ये किमान 50 पर्याय असणे आवश्यक आहे. योग्य अर्जनिकष h2 देखील आवश्यक आहे की अत्यंत वर्गातील रूपांची वारंवारता 5 पेक्षा कमी नसावी; जर त्यापैकी 5 पेक्षा कमी असतील, तर ते शेजारच्या वर्गांच्या फ्रिक्वेन्सीसह एकत्र केले जातात जेणेकरून एकूण रक्कम 5 पेक्षा जास्त किंवा समान असेल. फ्रिक्वेन्सीच्या संयोजनानुसार, वर्गांची संख्या (N) कमी होते. भिन्नतेच्या स्वातंत्र्यावरील निर्बंधांची संख्या लक्षात घेऊन स्वातंत्र्याच्या अंशांची संख्या वर्गांच्या दुय्यम संख्येद्वारे स्थापित केली जाते.

h2 निकष ठरवण्याची अचूकता सैद्धांतिक फ्रिक्वेन्सी (T) ची गणना करण्याच्या अचूकतेवर मुख्यत्वे अवलंबून असल्याने, अनुभवजन्य आणि गणना केलेल्या फ्रिक्वेन्सींमधील फरक मिळविण्यासाठी अगोल सैद्धांतिक फ्रिक्वेन्सी वापरल्या पाहिजेत.

उदाहरण म्हणून, मानविकीमध्ये सांख्यिकीय पद्धती लागू करण्यासाठी समर्पित वेबसाइटवर प्रकाशित केलेला अभ्यास घेऊ.

ची-स्क्वेअर चाचणी तुम्हाला वारंवारता वितरणाची तुलना करू देते की ते सामान्यपणे वितरित केले जातात किंवा नाही.

वारंवारता एखाद्या घटनेच्या घटनांची संख्या दर्शवते. सामान्यतः, जेव्हा व्हेरिएबल्स नावांच्या प्रमाणात मोजले जातात तेव्हा घटनांच्या वारंवारतेचा सामना केला जातो आणि वारंवारता व्यतिरिक्त त्यांची इतर वैशिष्ट्ये निवडणे अशक्य किंवा समस्याप्रधान असतात. दुसऱ्या शब्दांत, जेव्हा व्हेरिएबलमध्ये गुणात्मक वैशिष्ट्ये असतात. तसेच, अनेक संशोधक चाचणी स्कोअरचे स्तर (उच्च, मध्यम, निम्न) मध्ये रूपांतरित करतात आणि या स्तरावरील लोकांची संख्या शोधण्यासाठी गुण वितरणाचे तक्ते तयार करतात. एका स्तरावर (श्रेणींपैकी एकामध्ये) लोकांची संख्या खरोखर जास्त (कमी) आहे हे सिद्ध करण्यासाठी ची-स्क्वेअर गुणांक देखील वापरला जातो.

सर्वात सोपं उदाहरण पाहू.

आत्मसन्मान ओळखण्यासाठी तरुण किशोरवयीन मुलांमध्ये एक चाचणी घेण्यात आली. चाचणी गुण तीन स्तरांमध्ये रूपांतरित केले गेले: उच्च, मध्यम, निम्न. फ्रिक्वेन्सी खालीलप्रमाणे वितरीत केल्या गेल्या:

उच्च (B) 27 लोक.

सरासरी (C) 12 लोक.

कमी (L) 11 लोक

हे उघड आहे की बहुसंख्य मुलांमध्ये उच्च आत्मसन्मान असतो, परंतु हे सांख्यिकीयदृष्ट्या सिद्ध करणे आवश्यक आहे. हे करण्यासाठी, आम्ही ची-स्क्वेअर चाचणी वापरतो.

प्राप्त केलेला प्रायोगिक डेटा सैद्धांतिकदृष्ट्या तितकाच संभाव्य डेटापेक्षा वेगळा आहे की नाही हे तपासणे हे आमचे कार्य आहे. हे करण्यासाठी, आपल्याला सैद्धांतिक फ्रिक्वेन्सी शोधण्याची आवश्यकता आहे. आमच्या बाबतीत, सैद्धांतिक फ्रिक्वेन्सी तितक्याच संभाव्य फ्रिक्वेन्सी आहेत, ज्या सर्व फ्रिक्वेन्सी जोडून आणि श्रेणींच्या संख्येने विभाजित करून आढळतात.

आमच्या बाबतीत:

(B + C + H)/3 = (27+12+11)/3 = 16.6

ची-स्क्वेअर चाचणीची गणना करण्यासाठी सूत्र:

h2 = ?(E - T)? / टी

आम्ही टेबल तयार करतो:

अनुभवजन्य (इ)

सैद्धांतिक (टी)

शेवटच्या स्तंभाची बेरीज शोधा:

आता तुम्हाला गंभीर मूल्यांची सारणी वापरून निकषाचे गंभीर मूल्य शोधण्याची आवश्यकता आहे (परिशिष्टातील तक्ता 1). हे करण्यासाठी आपल्याला स्वातंत्र्याच्या अंशांची संख्या आवश्यक आहे (n).

n = (R - 1) * (C - 1)

जेथे R ही टेबलमधील पंक्तींची संख्या आहे, C ही स्तंभांची संख्या आहे.

आमच्या बाबतीत, फक्त एक स्तंभ (म्हणजे मूळ अनुभवजन्य फ्रिक्वेन्सी) आणि तीन पंक्ती (श्रेण्या) आहेत, त्यामुळे सूत्र बदलते - आम्ही स्तंभ वगळतो.

n = (R - 1) = 3-1 = 2

त्रुटी संभाव्यता p?0.05 आणि n = 2 साठी, गंभीर मूल्य h2 = 5.99 आहे.

प्राप्त केलेले प्रायोगिक मूल्य गंभीर मूल्यापेक्षा मोठे आहे - फ्रिक्वेन्सीमधील फरक लक्षणीय आहेत (h2 = 9.64; p? 0.05).

जसे आपण पाहू शकता, निकषांची गणना करणे खूप सोपे आहे आणि जास्त वेळ घेत नाही. ची-स्क्वेअर चाचणीचे व्यावहारिक मूल्य प्रचंड आहे. प्रश्नावलीच्या प्रतिसादांचे विश्लेषण करताना ही पद्धत सर्वात मौल्यवान आहे.

चला अधिक जटिल उदाहरण पाहू.

उदाहरणार्थ, एखाद्या मानसशास्त्रज्ञाला हे जाणून घ्यायचे आहे की शिक्षक मुलींपेक्षा मुलांबद्दल अधिक पक्षपाती असतात. त्या. मुलींची स्तुती करण्याची अधिक शक्यता. हे करण्यासाठी, मानसशास्त्रज्ञाने तीन शब्दांच्या वारंवारतेसाठी शिक्षकांनी लिहिलेल्या विद्यार्थ्यांच्या वैशिष्ट्यांचे विश्लेषण केले: “सक्रिय,” “परिश्रमशील,” “शिस्तबद्ध” आणि शब्दांचे समानार्थी शब्द देखील मोजले गेले. शब्दांच्या वारंवारतेचा डेटा टेबलमध्ये प्रविष्ट केला गेला:

प्राप्त डेटावर प्रक्रिया करण्यासाठी आम्ही ची-स्क्वेअर चाचणी वापरतो.

हे करण्यासाठी, आम्ही अनुभवजन्य फ्रिक्वेन्सीच्या वितरणाची एक सारणी तयार करू, म्हणजे. त्या फ्रिक्वेन्सी ज्या आपण पाहतो:

सैद्धांतिकदृष्ट्या, आम्ही अपेक्षा करतो की फ्रिक्वेन्सी समान प्रमाणात वितरीत केल्या जातील, म्हणजे. वारंवारता मुले आणि मुलींमध्ये प्रमाणात वितरीत केली जाईल. चला सैद्धांतिक फ्रिक्वेन्सीचे सारणी तयार करूया. हे करण्यासाठी, पंक्तीची बेरीज स्तंभाच्या बेरजेने गुणाकार करा आणि परिणामी संख्येला एकूण बेरजेने विभाजित करा.

गणनेसाठी अंतिम सारणी असे दिसेल:

h2 = ?(E - T)? / टी

n = (R - 1), जेथे R ही टेबलमधील पंक्तींची संख्या आहे.

आमच्या बाबतीत, ची-स्क्वेअर = 4.21; n = 2.

निकषाच्या गंभीर मूल्यांच्या सारणीचा वापर करून, आम्हाला आढळते: n = 2 आणि 0.05 च्या त्रुटी पातळीसह, गंभीर मूल्य h2 = 5.99.

परिणामी मूल्य गंभीर मूल्यापेक्षा कमी आहे, याचा अर्थ शून्य गृहितक स्वीकारले आहे.

निष्कर्ष: मुलासाठी वैशिष्ट्ये लिहिताना शिक्षक त्याच्या लिंगाला महत्त्व देत नाहीत.

अर्ज

गंभीर वितरण बिंदू h2

ची-स्क्वेअर चाचणी ही प्रयोगाचे परिणाम आणि वापरलेले सांख्यिकीय मॉडेल यांच्यातील करार तपासण्यासाठी एक सार्वत्रिक पद्धत आहे.

पिअर्सन अंतर X 2

Pyatnitsky A.M.

रशियन राज्य वैद्यकीय विद्यापीठ

1900 मध्ये, कार्ल पीअरसनने एक साधा, सार्वत्रिक आणि प्रस्तावित केला प्रभावी मार्गमॉडेल अंदाज आणि प्रायोगिक डेटा यांच्यातील करार तपासत आहे. त्यांनी प्रस्तावित केलेली “ची-स्क्वेअर चाचणी” ही सर्वात महत्त्वाची आणि सर्वाधिक वापरली जाणारी सांख्यिकीय चाचणी आहे. अज्ञात मॉडेल पॅरामीटर्सचा अंदाज लावणे आणि मॉडेल आणि प्रायोगिक डेटामधील करार तपासण्याशी संबंधित बहुतेक समस्या त्याच्या मदतीने सोडवल्या जाऊ शकतात.

अभ्यासात असलेल्या ऑब्जेक्ट किंवा प्रक्रियेचे एक प्रायोरी ("प्री-प्रायोगिक") मॉडेल असू द्या (आकडेवारीत ते "शून्य गृहितक" H 0 बद्दल बोलतात), आणि या ऑब्जेक्टसह प्रयोगाचे परिणाम. मॉडेल पुरेसे आहे की नाही हे ठरविणे आवश्यक आहे (ते वास्तवाशी जुळते का)? प्रायोगिक परिणाम वास्तव कसे कार्य करते याविषयीच्या आमच्या कल्पनांना विरोध करतात किंवा दुसऱ्या शब्दांत, H0 नाकारले पाहिजे? बऱ्याचदा हे कार्य निरीक्षण केलेल्या (O i = निरीक्षण केलेल्या) आणि मॉडेलनुसार (E i = अपेक्षित) विशिष्ट घटनांच्या घटनेच्या सरासरी वारंवारतांनुसार अपेक्षित तुलना करण्यासाठी कमी केले जाऊ शकते. असे मानले जाते की निरीक्षण केलेल्या फ्रिक्वेन्सी सतत (!) परिस्थितीत केलेल्या N स्वतंत्र (!) निरीक्षणांच्या मालिकेमध्ये प्राप्त झाल्या आहेत. प्रत्येक निरीक्षणाच्या परिणामी, एम घटनांपैकी एक रेकॉर्ड केला जातो. या घटना एकाच वेळी घडू शकत नाहीत (ते जोड्यांमध्ये विसंगत आहेत) आणि त्यापैकी एक आवश्यक आहे (त्यांचे संयोजन एक विश्वासार्ह घटना बनवते). सर्व निरिक्षणांची संपूर्णता फ्रिक्वेन्सी (O i )=(O 1 , … O M ) च्या टेबलवर (वेक्टर) कमी केली जाते, जी प्रयोगाच्या परिणामांचे पूर्णपणे वर्णन करते. मूल्य O 2 =4 म्हणजे घटना क्रमांक 2 4 वेळा आली. फ्रिक्वेन्सीची बेरीज O 1 +… O M =N. दोन प्रकरणांमध्ये फरक करणे महत्त्वाचे आहे: N – निश्चित, नॉन-रँडम, N – यादृच्छिक चल. N च्या निश्चित एकूण संख्येसाठी, फ्रिक्वेन्सीचे बहुपदी वितरण असते. हे स्पष्ट करूया सामान्य योजना साधे उदाहरण.

साध्या गृहितकांची चाचणी घेण्यासाठी ची-स्क्वेअर चाचणी वापरणे.

मॉडेल (शून्य गृहीतक H 0) असे असू द्या की डाई योग्य आहे - p i =1/6, i =, M=6 संभाव्यतेसह सर्व चेहरे समान वेळा दिसतात. एक प्रयोग आयोजित केला गेला ज्यामध्ये 60 वेळा डाय फेकण्यात आला (N = 60 स्वतंत्र चाचण्या घेण्यात आल्या). मॉडेलनुसार, आम्ही अपेक्षा करतो की 1,2,... 6 पॉइंट्स त्यांच्या सरासरी मुल्यांच्या जवळ असलेल्या सर्व निरीक्षण फ्रिक्वेन्सीज O i = Np i =60∙(1/6)=10. H 0 नुसार, सरासरी फ्रिक्वेन्सीचा सदिश (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (प्रयोग सुरू होण्यापूर्वी ज्या गृहीतकांमध्ये सरासरी फ्रिक्वेन्सी पूर्णपणे ज्ञात असतात त्यांना साधे म्हणतात.) जर निरीक्षण केलेले सदिश (O i ) समान (34,0,0,0,0,26) असेल, तर ते लगेच स्पष्ट करा की मॉडेल चुकीचे आहे - हाड बरोबर असू शकत नाही, कारण फक्त 1 आणि 6 60 वेळा गुंडाळले गेले होते. तथापि, मॉडेल आणि अनुभव यांच्यातील अशा स्पष्ट विसंगतींचा देखावा अपवाद आहे. निरीक्षण केलेल्या फ्रिक्वेन्सीचा (O i) सदिश (5, 15, 6, 14, 4, 16) बरोबर असू द्या. हे H0 शी सुसंगत आहे का? म्हणून, आपल्याला दोन वारंवारता वेक्टर (E i) आणि (O i) यांची तुलना करणे आवश्यक आहे. या प्रकरणात, अपेक्षित फ्रिक्वेन्सीचा वेक्टर (Ei) यादृच्छिक नाही, परंतु निरीक्षण केलेल्या फ्रिक्वेन्सीचा सदिश (Oi) यादृच्छिक आहे - पुढील प्रयोगादरम्यान (60 थ्रोच्या नवीन मालिकेत) ते भिन्न असेल. समस्येचे भौमितिक अर्थ लावणे आणि असे गृहित धरणे उपयुक्त आहे की वारंवारता स्पेसमध्ये (या प्रकरणात 6-आयामी) दोन बिंदू निर्देशांकांसह दिले जातात (5, 15, 6, 14, 4, 16) आणि (10, 10, 10, 10, 10, 10 ) ते H 0 शी विसंगत मानले जाण्यासाठी पुरेसे अंतर आहे का? दुसऱ्या शब्दांत, आम्हाला आवश्यक आहे:

  1. फ्रिक्वेन्सीमधील अंतर मोजायला शिका (फ्रिक्वेंसी स्पेसमधील बिंदू),
  2. कोणते अंतर खूप मोठे मानले जावे यासाठी एक निकष आहे ("निश्चितपणे") मोठे, म्हणजेच H 0 शी विसंगत.

सामान्य युक्लिडियन अंतराचा वर्ग समान असेल:

X 2 युक्लिड = एस(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

या प्रकरणात, जर आपण E i ची मूल्ये निश्चित केली आणि O i बदलली तर पृष्ठभाग X 2 Euclid = const नेहमी गोल असतात. फ्रिक्वेन्सी स्पेसमध्ये युक्लिडियन अंतराचा वापर करू नये असे कार्ल पीअरसन यांनी नमूद केले. अशा प्रकारे, बिंदू (O = 1030 आणि E = 1000) आणि (O = 40 आणि E = 10) एकमेकांपासून समान अंतरावर आहेत असे गृहीत धरणे चुकीचे आहे, जरी दोन्ही प्रकरणांमध्ये फरक O -E = 30 आहे. शेवटी, अपेक्षित वारंवारता जितकी जास्त असेल तितके मोठे विचलन शक्य मानले पाहिजे. म्हणून, बिंदू (O = 1030 आणि E = 1000) "जवळचे" आणि बिंदू (O =40 आणि E =10) एकमेकांपासून "दूर" मानले जावेत. हे दर्शविले जाऊ शकते की गृहीतक H 0 सत्य असल्यास, E i च्या सापेक्ष O i मधील वारंवारता चढ-उतार हे परिमाणाच्या क्रमाचे आहेत. वर्गमूळ(!) E i पासून. म्हणून, पिअर्सनने अंतर मोजताना, फरक (O i -E i) नव्हे तर सामान्यीकृत फरक (O i -E i)/E i 1/2 चा वर्ग करण्याचा प्रस्ताव दिला. तर पियर्सन अंतर मोजण्याचे सूत्र येथे आहे (हे प्रत्यक्षात अंतराचा वर्ग आहे):

X 2 Pearson = एस((O i -E i)/E i 1/2) 2 = एस(O i -E i) 2 /E i

आमच्या उदाहरणात:

X 2 पिअरसन = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4

रेग्युलर डायसाठी, सर्व अपेक्षित फ्रिक्वेन्सी E i सारख्याच असतात, पण सहसा त्या वेगळ्या असतात, त्यामुळे ज्या पृष्ठभागावर पिअर्सन अंतर स्थिर असते (X 2 Pearson =const) ते लंबवर्तुळाकार बनतात, गोलाकार नसतात.

आता अंतर मोजण्याचे सूत्र निवडले गेले आहे, कोणते अंतर "खूप मोठे नाही" मानले जावे हे शोधणे आवश्यक आहे (H 0 सह सुसंगत). ? रेग्युलर डायसह प्रयोग करताना किती टक्के प्रकरणांमध्ये (किंवा कोणत्या संभाव्यतेसह) आम्हाला 15.4 पेक्षा जास्त अंतर मिळेल? ही टक्केवारी कमी असल्यास (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

स्पष्टीकरण. संख्या i सह टेबल सेलमध्ये येणाऱ्या O i मापनांची संख्या या पॅरामीटर्ससह द्विपदी वितरण आहे: m =Np i =E i,σ =(Np i (1-p i)) 1/2, जेथे N ही संख्या आहे मोजमापांची (N " 1), p i ही एका मोजमापाची दिलेल्या सेलमध्ये पडण्याची संभाव्यता आहे (आठवण करा की मोजमाप स्वतंत्र आहेत आणि स्थिर परिस्थितीत केले जातात). जर p i लहान असेल, तर: σ≈(Np i ) 1/2 =E i आणि द्विपदी वितरण पॉसॉनच्या जवळ आहे, ज्यामध्ये निरीक्षणांची सरासरी संख्या E i =λ, आणि मानक विचलन σ=λ 1/2 = E i 1/ 2. λ≥5 साठी, पॉसॉन वितरण सामान्य N (m =E i =λ, σ=E i 1/2 =λ 1/2), आणि सामान्यीकृत मूल्य (O i - E i )/E i 1 च्या जवळ आहे /2 ≈ N (0,1).

पीअरसनने यादृच्छिक चल χ 2 n - "n अंश स्वातंत्र्यासह ची-चौरस" परिभाषित केले, n स्वतंत्र मानक सामान्य यादृच्छिक चलांच्या वर्गांची बेरीज म्हणून:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2 ,प्रत्येकजण कुठे आहे T i = N(0,1) - n ओ. आर सह. व्ही.

आकडेवारीतील या सर्वात महत्त्वाच्या यादृच्छिक चलचा अर्थ स्पष्टपणे समजून घेण्याचा प्रयत्न करूया. हे करण्यासाठी, विमानात (n = 2 सह) किंवा अंतराळात (n = 3 सह) आम्ही बिंदूंचा ढग सादर करतो ज्यांचे निर्देशांक स्वतंत्र आहेत आणि त्यांचे मानक सामान्य वितरण आहे. ). विमानात, "दोन सिग्मा" नियमानुसार, जो स्वतंत्रपणे दोन्ही निर्देशांकांवर लागू केला जातो, 90% (0.95*0.95≈0.90) गुण एका चौरस (-2) मध्ये असतात

f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2).

n (n > 30) स्वातंत्र्याच्या पुरेशा मोठ्या संख्येने, ची-स्क्वेअर वितरण सामान्यपणे पोहोचते: N (m = n; σ = (2n) ½). हा "केंद्रीय मर्यादा प्रमेय" चा एक परिणाम आहे: मर्यादित भिन्नता असलेल्या समान रीतीने वितरित केलेल्या प्रमाणांची बेरीज ही संज्ञांची संख्या वाढत असताना सामान्य कायद्याच्या जवळ येते.

सराव मध्ये, तुम्हाला हे लक्षात ठेवणे आवश्यक आहे की अंतराचा सरासरी वर्ग m (χ 2 n) = n च्या बरोबरीचा आहे, आणि त्याचे अंतर σ 2 (χ 2 n) = 2n आहे. येथून कोणती ची-स्क्वेअर मूल्ये खूप लहान आणि खूप मोठी मानली जावीत असा निष्कर्ष काढणे सोपे आहे: बहुतेक वितरण n -2∙(2n) ½ ते n +2∙(2n) ½ पर्यंतच्या श्रेणीमध्ये आहे.

म्हणून, n +2∙ (2n) ½ पेक्षा लक्षणीयरीत्या पीअरसन अंतर अकल्पनीयपणे मोठे मानले पाहिजे (H 0 शी विसंगत). जर परिणाम n +2∙(2n) ½ च्या जवळ असेल, तर तुम्ही टेबल वापरावे ज्यामध्ये तुम्ही अशा आणि मोठ्या ची-स्क्वेअर व्हॅल्यूजच्या केसेसच्या कोणत्या प्रमाणात नक्की शोधू शकता.

स्वातंत्र्याच्या अंशांच्या संख्येसाठी योग्य मूल्य कसे निवडायचे हे जाणून घेणे महत्त्वाचे आहे (संक्षिप्त n.d.f.). n हे अंकांच्या संख्येइतकेच आहे असे गृहीत धरणे स्वाभाविक होते: n =M. आपल्या लेखात पिअर्सनने तसे सुचवले आहे. फासे उदाहरणात, याचा अर्थ असा होईल की n = 6. तथापि, कित्येक वर्षांनंतर असे दिसून आले की पिअर्सन चुकीचे होते. यादृच्छिक व्हेरिएबल्स O i मध्ये कनेक्शन असल्यास स्वातंत्र्याच्या अंशांची संख्या अंकांच्या संख्येपेक्षा नेहमीच कमी असते. फासेच्या उदाहरणासाठी, O i ची बेरीज 60 आहे, आणि फक्त 5 फ्रिक्वेन्सी स्वतंत्रपणे बदलल्या जाऊ शकतात, म्हणून योग्य मूल्य n = 6-1 = 5 आहे. n च्या या मूल्यासाठी आपल्याला n +2∙(2n) ½ =5+2∙(10) ½ =11.3 मिळेल. 15.4>11.3 पासून, नंतर गृहितक H 0 - डाय बरोबर आहे, नाकारले पाहिजे.

त्रुटी स्पष्ट केल्यानंतर, विद्यमान χ 2 सारण्यांना पूरक करणे आवश्यक होते, कारण सुरुवातीला त्यांच्याकडे केस n = 1 नव्हता, कारण अंकांची सर्वात लहान संख्या = 2. आता असे दिसून आले आहे की पीअरसन अंतराचे वितरण χ 2 n =1 असते तेव्हा अशी प्रकरणे असू शकतात.

उदाहरण. 100 नाण्यांच्या टॉससह, डोक्याची संख्या O 1 = 65 आणि शेपटी O 2 = 35 आहे. अंकांची संख्या M = 2 आहे. जर नाणे सममित असेल, तर अपेक्षित फ्रिक्वेन्सी E 1 =50, E 2 =50 आहेत.

X 2 Pearson = एस(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

परिणामी मूल्याची तुलना यादृच्छिक व्हेरिएबल χ 2 n =1 घेऊ शकते, मानक सामान्य मूल्याचा वर्ग χ 2 n =1 =T 1 2 ≥ 9 म्हणून केली पाहिजे. ó T 1 ≥3 किंवा T 1 ≤-3. अशा घटनेची संभाव्यता खूप कमी आहे P (χ 2 n =1 ≥9) = 0.006. म्हणून, नाणे सममितीय मानले जाऊ शकत नाही: H 0 नाकारले पाहिजे. स्वातंत्र्याच्या अंशांची संख्या अंकांच्या संख्येइतकी असू शकत नाही हे तथ्य यावरून स्पष्ट होते की निरीक्षण केलेल्या फ्रिक्वेन्सीची बेरीज नेहमीच अपेक्षित असलेल्यांच्या बेरजेइतकी असते, उदाहरणार्थ O 1 +O 2 =65+ 35 = E 1 +E 2 = 50+50=100. म्हणून, O 1 आणि O 2 सह यादृच्छिक बिंदू एका सरळ रेषेवर स्थित आहेत: O 1 +O 2 =E 1 +E 2 =100 आणि हे निर्बंध अस्तित्त्वात नसल्यास केंद्रापर्यंतचे अंतर कमी होते आणि ते संपूर्ण विमानात स्थित होते. खरंच, गणितीय अपेक्षा असलेल्या दोन स्वतंत्र यादृच्छिक चलांसाठी E 1 =50, E 2 =50, त्यांच्या प्राप्तीची बेरीज नेहमी 100 च्या समान नसावी - उदाहरणार्थ, O 1 =60, O 2 =55 ही मूल्ये असतील स्वीकार्य असणे.

स्पष्टीकरण. M = 2 वरील पिअर्सन निकषाच्या परिणामाची तुलना N स्वतंत्र बर्नौली चाचण्यांच्या मालिकेतील संभाव्यता p असलेल्या घटनेच्या वारंवारतेमध्ये यादृच्छिक चढ-उतारांचा अंदाज लावताना मोइव्रे-लॅप्लेस सूत्राने काय देते याच्याशी करूया ( K ही यशांची संख्या आहे):

χ 2 n =1 = एस(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N ( 1-ν)-N (1-p)) 2 /(N (1-p))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

मूल्य T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) σ(K)=(Npq) ½ ≥3 सह. आम्ही पाहतो की या प्रकरणात पिअर्सनचा निकाल द्विपदी वितरणासाठी सामान्य अंदाजे जे देतो त्याच्याशी अगदी एकरूप होतो.

आतापर्यंत आम्ही साध्या गृहितकांचा विचार केला आहे ज्यासाठी अपेक्षित सरासरी फ्रिक्वेन्सी E i पूर्णपणे आधीच ज्ञात आहेत. जटिल गृहितकांसाठी स्वातंत्र्याच्या अंशांची योग्य संख्या कशी निवडावी यावरील माहितीसाठी, खाली पहा.

जटिल गृहितकांची चाचणी घेण्यासाठी ची-स्क्वेअर चाचणी वापरणे

रेग्युलर डाय आणि कॉइन असलेल्या उदाहरणांमध्ये, अपेक्षित फ्रिक्वेन्सी प्रयोगापूर्वी (!) निर्धारित केल्या जाऊ शकतात. अशा गृहितकांना "साधे" असे म्हणतात. व्यवहारात, "जटिल गृहीतके" अधिक सामान्य आहेत. शिवाय, अपेक्षित फ्रिक्वेन्सी E i शोधण्यासाठी, प्रथम एक किंवा अनेक प्रमाणांचा (मॉडेल पॅरामीटर्स) अंदाज लावणे आवश्यक आहे आणि हे केवळ प्रायोगिक डेटा वापरून केले जाऊ शकते. परिणामी, "जटिल गृहीतके" साठी अपेक्षित फ्रिक्वेन्सी E i निरीक्षण केलेल्या फ्रिक्वेन्सी O i वर अवलंबून असतात आणि म्हणून ते प्रयोगाच्या परिणामांवर अवलंबून बदलून यादृच्छिक चल बनतात. पॅरामीटर्स निवडण्याच्या प्रक्रियेत, पिअर्सन अंतर कमी होते - मॉडेल आणि प्रयोग यांच्यातील करार सुधारण्यासाठी पॅरामीटर्स निवडले जातात. म्हणून, स्वातंत्र्याच्या अंशांची संख्या कमी झाली पाहिजे.

मॉडेल पॅरामीटर्सचा अंदाज कसा लावायचा? अनेक वेगवेगळ्या अंदाज पद्धती आहेत - "कमाल शक्यता पद्धत", "क्षणांची पद्धत", "प्रतिस्थापन पद्धत". तथापि, तुम्ही कोणतेही अतिरिक्त निधी वापरू शकत नाही आणि Pearson अंतर कमी करून पॅरामीटर अंदाज शोधू शकता. पूर्व-संगणक युगात, हा दृष्टीकोन क्वचितच वापरला जात होता: मॅन्युअल गणनेसाठी हे गैरसोयीचे आहे आणि नियमानुसार, विश्लेषणात्मकपणे सोडवता येत नाही. संगणकावर गणना करताना, संख्यात्मक कमी करणे सहसा सोपे असते आणि या पद्धतीचा फायदा म्हणजे त्याची अष्टपैलुत्व. म्हणून, "ची-स्क्वेअर मिनिमायझेशन पद्धती" नुसार, आम्ही अज्ञात पॅरामीटर्सची मूल्ये निवडतो जेणेकरून पिअरसन अंतर सर्वात लहान होईल. (तसे, सापडलेल्या किमानच्या तुलनेत लहान विस्थापनांसह या अंतरातील बदलांचा अभ्यास करून, तुम्ही अंदाजाच्या अचूकतेच्या मोजमापाचा अंदाज लावू शकता: कॉन्फिडन्स इंटरव्हल्स तयार करा.) पॅरामीटर्स आणि हे किमान अंतर स्वतःच सापडल्यानंतर, हे आहे ते पुरेसे लहान आहे की नाही या प्रश्नाचे उत्तर देण्यासाठी पुन्हा आवश्यक आहे.

क्रियांचा सामान्य क्रम खालीलप्रमाणे आहे:

  1. मॉडेल निवड (परिकल्पना एच 0).
  2. अंकांची निवड आणि निरीक्षण केलेल्या फ्रिक्वेन्सीच्या वेक्टरचे निर्धारण O i .
  3. अज्ञात मॉडेल पॅरामीटर्सचा अंदाज आणि त्यांच्यासाठी आत्मविश्वास मध्यांतरांचे बांधकाम (उदाहरणार्थ, किमान पिअरसन अंतर शोधून).
  4. अपेक्षित फ्रिक्वेन्सीची गणना E i .
  5. ची-स्क्वेअर χ 2 क्रिटच्या गंभीर मूल्यासह पिअरसन अंतर X 2 च्या सापडलेल्या मूल्याची तुलना - सर्वात मोठे, जे अद्याप प्रशंसनीय मानले जाते, H 0 शी सुसंगत आहे. समीकरण सोडवून टेबल्समधून आपल्याला χ 2 crit हे मूल्य सापडते

P (χ 2 n > χ 2 crit)=1-α,

जेथे α "महत्त्वाची पातळी" किंवा "निकषाचा आकार" किंवा "प्रथम प्रकारच्या त्रुटीचे परिमाण" (नमुनेदार मूल्य α = 0.05) आहे.

सामान्यतः सूत्र वापरून स्वातंत्र्य n च्या अंशांची संख्या मोजली जाते

n = (अंकांची संख्या) – 1 – (अंदाजित करण्यासाठी पॅरामीटर्सची संख्या)

X 2 > χ 2 crit असल्यास, H 0 हे गृहितक नाकारले जाईल, अन्यथा ते स्वीकारले जाईल. α∙100% प्रकरणांमध्ये (म्हणजे, अगदी क्वचितच), H 0 तपासण्याची ही पद्धत "पहिल्या प्रकारची त्रुटी" आणेल: H 0 हे गृहितक चुकीने नाकारले जाईल.

उदाहरण. 100 बियांच्या 10 मालिकांच्या अभ्यासात, हिरव्या डोळ्याच्या माशीने संक्रमित झालेल्यांची संख्या मोजली गेली. प्राप्त डेटा: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

येथे अपेक्षित फ्रिक्वेन्सीचा वेक्टर आगाऊ अज्ञात आहे. जर डेटा एकसंध असेल आणि द्विपदी वितरणासाठी प्राप्त झाला असेल, तर एक पॅरामीटर अज्ञात आहे: संक्रमित बियांचे प्रमाण p. लक्षात घ्या की मूळ तक्त्यामध्ये 10 नसून 20 फ्रिक्वेन्सी आहेत ज्या 10 कनेक्शन पूर्ण करतात: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

जोड्यांमध्ये अटी एकत्र करून (नाण्यासह उदाहरणाप्रमाणे), आम्हाला पीअरसन निकष लिहिण्याचे स्वरूप प्राप्त होते, जे सहसा लगेच लिहिले जाते:

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

आता, जर किमान Pearson अंतराचा वापर p चा अंदाज लावण्यासाठी पद्धत म्हणून केला असेल, तर एक p शोधणे आवश्यक आहे ज्यासाठी X 2 =min आहे. (मॉडेल, शक्य असल्यास, प्रायोगिक डेटामध्ये "समायोजित" करण्याचा प्रयत्न करते.)

पीअरसन निकष हा आकडेवारीमध्ये वापरल्या जाणाऱ्या सर्वांमध्ये सर्वात सार्वत्रिक आहे. हे एकरूप आणि बहुविविध डेटा, परिमाणवाचक आणि गुणात्मक वैशिष्ट्यांवर लागू केले जाऊ शकते. तथापि, तंतोतंत त्याच्या बहुमुखीपणामुळे, चुका होणार नाहीत याची काळजी घेतली पाहिजे.

महत्वाचे मुद्दे

1.श्रेण्यांची निवड.

  • जर वितरण वेगळे असेल, तर अंकांच्या निवडीमध्ये सामान्यतः स्वैरता नसते.
  • जर वितरण सतत होत असेल तर मनमानी अपरिहार्य आहे. सांख्यिकीयदृष्ट्या समतुल्य ब्लॉक्स वापरले जाऊ शकतात (सर्व O समान आहेत, उदाहरणार्थ =10). तथापि, मध्यांतरांची लांबी भिन्न आहे. मॅन्युअल गणना करताना, त्यांनी मध्यांतर समान करण्याचा प्रयत्न केला. अविभाज्य गुणधर्माच्या वितरणाचा अभ्यास करताना मध्यांतर समान असावेत का? नाही.
  • अंक अशा प्रकारे एकत्र केले पाहिजेत की अपेक्षित (निरीक्षण नाही!) फ्रिक्वेन्सी फार लहान नसतील (≥5). X 2 ची गणना करताना तेच (E i) भाजकांमध्ये असतात हे लक्षात ठेवूया! एक-आयामी वैशिष्ट्यांचे विश्लेषण करताना, E 1 =E कमाल =1 या दोन टोकाच्या अंकांमध्ये या नियमाचे उल्लंघन करण्याची परवानगी आहे. जर अंकांची संख्या मोठी असेल आणि अपेक्षित फ्रिक्वेन्सी जवळ असतील, तर X 2 हे E i =2 साठी देखील χ 2 चा चांगला अंदाज आहे.

पॅरामीटर अंदाज. “होममेड”, अकार्यक्षम अंदाज पद्धतींचा वापर केल्याने पिअर्सन अंतर मूल्ये वाढू शकतात.

स्वातंत्र्याच्या अंशांची योग्य संख्या निवडणे. जर पॅरामीटरचे अंदाज फ्रिक्वेन्सीवरून नव्हे तर थेट डेटावरून केले गेले असतील (उदाहरणार्थ, अंकगणित सरासरीचा अंदाज म्हणून घेतले जाते), तर स्वातंत्र्य n च्या अंशांची अचूक संख्या अज्ञात आहे. आम्हाला फक्त माहित आहे की ते असमानतेचे समाधान करते:

(अंकांची संख्या – 1 – मूल्यमापन केलेल्या पॅरामीटर्सची संख्या)< n < (число разрядов – 1)

म्हणून, X 2 ची n च्या या श्रेणीमध्ये गणना केलेल्या χ 2 क्रिटच्या गंभीर मूल्यांशी तुलना करणे आवश्यक आहे.

अकल्पनीयपणे लहान ची-स्क्वेअर मूल्यांचा अर्थ कसा लावायचा? 10,000 टॉस केल्यानंतर, 5,000 वेळा नाणे कोट ऑफ आर्म्सवर उतरल्यास ते सममितीय मानले जावे का? पूर्वी, अनेक सांख्यिकीशास्त्रज्ञांचा असा विश्वास होता की H 0 देखील नाकारले पाहिजे. आता आणखी एक दृष्टीकोन प्रस्तावित आहे: H 0 स्वीकारा, परंतु डेटा आणि त्यांच्या विश्लेषणाची पद्धत अतिरिक्त पडताळणीच्या अधीन ठेवा. दोन शक्यता आहेत: एकतर पिअर्सन अंतर खूपच लहान आहे याचा अर्थ असा की मॉडेल पॅरामीटर्सच्या संख्येत वाढ झाल्यामुळे स्वातंत्र्याच्या अंशांच्या संख्येत योग्य घट झाली नाही किंवा डेटा स्वतःच खोटा ठरला (कदाचित अनावधानाने अपेक्षित समायोजित केले गेले. परिणाम).

उदाहरण. A आणि B या दोन संशोधकांनी AA * aa मोनोहायब्रीड क्रॉसच्या दुसऱ्या पिढीतील रेक्सेसिव्ह होमोझिगोट्स aa चे प्रमाण मोजले. मेंडेलच्या नियमांनुसार, हा अपूर्णांक 0.25 आहे. प्रत्येक संशोधकाने 5 प्रयोग केले आणि प्रत्येक प्रयोगात 100 जीवांचा अभ्यास करण्यात आला.

परिणाम A: 25, 24, 26, 25, 24. संशोधकाचा निष्कर्ष: मेंडेलचा नियम सत्य आहे(?).

परिणाम B: 29, 21, 23, 30, 19. संशोधकाचा निष्कर्ष: मेंडेलचा कायदा योग्य नाही(?).

तथापि, मेंडेलचा नियम हा सांख्यिकीय स्वरूपाचा आहे आणि परिणामांचे परिमाणात्मक विश्लेषण निष्कर्ष उलट करते! एकामध्ये पाच प्रयोग एकत्र करून, आम्ही 5 अंश स्वातंत्र्यासह ची-स्क्वेअर वितरणावर पोहोचतो (एक साधी गृहितक चाचणी केली जाते):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = (29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

सरासरी मूल्य m [χ 2 n =5 ]=5, मानक विचलन σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

म्हणून, सारण्यांचा संदर्भ न घेता, हे स्पष्ट आहे की X 2 B चे मूल्य वैशिष्ट्यपूर्ण आहे आणि X 2 A चे मूल्य अकल्पनीयपणे लहान आहे. सारणी P नुसार (χ 2 n = 5<0.16)<0.0001.

हे उदाहरण 1930 च्या दशकात घडलेल्या वास्तविक प्रकरणाचे रूपांतर आहे (कोल्मोगोरोव्हचे कार्य "मेंडेलच्या कायद्याच्या दुसर्या पुराव्यावर" पहा). विशेष म्हणजे, संशोधक ए हा अनुवंशशास्त्राचा समर्थक होता, तर संशोधक बी त्याच्या विरोधात होता.

नोटेशन मध्ये गोंधळ.ची-स्क्वेअर यादृच्छिक व्हेरिएबलच्या गणितीय संकल्पनेपासून पिअर्सन अंतर वेगळे करणे आवश्यक आहे, ज्यासाठी त्याच्या गणनामध्ये अतिरिक्त नियमांची आवश्यकता आहे. पिअर्सन अंतर काही विशिष्ट परिस्थितीत ची-स्क्वेअरच्या जवळ n अंश स्वातंत्र्यासह वितरण आहे. म्हणून, χ 2 n या चिन्हाने पिअर्सन अंतर न दाखवता, X 2 समान परंतु भिन्न संकेतन वापरण्याचा सल्ला दिला जातो.

पिअर्सन निकष सर्वशक्तिमान नाही. H 0 साठी असंख्य पर्याय आहेत जे तो विचारात घेऊ शकत नाही. समजा तुम्ही वैशिष्ट्याचे एकसमान वितरण होते या गृहितकाची चाचणी करत आहात, तुमच्याकडे 10 अंक आहेत आणि निरीक्षण केलेल्या फ्रिक्वेन्सीचा वेक्टर (130,125,121,118,116,115,114,113,111,110) च्या बरोबरीचा आहे. पिअर्सन निकष "लक्षात" देऊ शकत नाही की फ्रिक्वेन्सी नीरसपणे कमी होत आहेत आणि H 0 नाकारले जाणार नाही. जर ते मालिकेच्या निकषासह पूरक असेल तर होय!

सांख्यिकीय गृहीतके तपासण्यासाठी सांख्यिकीमध्ये ची-स्क्वेअर वितरण हे सर्वात मोठ्या प्रमाणावर वापरले जाणारे एक आहे. ची-स्क्वेअर डिस्ट्रिब्युशनवर आधारित, सर्वात शक्तिशाली चांगुलपणा-ऑफ-फिट चाचण्यांपैकी एक तयार केली जाते - पीअरसन ची-स्क्वेअर चाचणी.

कराराचा निकष हा अज्ञात वितरणाच्या गृहित कायद्याबद्दलच्या गृहीतकाची चाचणी करण्याचा निकष आहे.

χ2 (ची-स्क्वेअर) चाचणी वेगवेगळ्या वितरणांच्या गृहीतकाची चाचणी घेण्यासाठी वापरली जाते. हे त्याचे मोठेपण आहे.

निकषाचे गणना सूत्र समान आहे

जेथे m आणि m' अनुक्रमे अनुभवजन्य आणि सैद्धांतिक फ्रिक्वेन्सी आहेत

प्रश्नातील वितरण;

n ही स्वातंत्र्याच्या अंशांची संख्या आहे.

तपासण्यासाठी, आम्हाला प्रायोगिक (निरीक्षण केलेले) आणि सैद्धांतिक (सामान्य वितरणाच्या गृहीतकेनुसार मोजलेल्या) फ्रिक्वेन्सींची तुलना करणे आवश्यक आहे.

जर अनुभवजन्य फ्रिक्वेन्सी गणना केलेल्या किंवा अपेक्षित फ्रिक्वेन्सीशी पूर्णपणे जुळत असतील, तर S (E – T) = 0 आणि χ2 निकष देखील शून्याच्या समान असेल. जर S (E – T) शून्याच्या समान नसेल, तर हे गणना केलेल्या फ्रिक्वेन्सी आणि मालिकेतील अनुभवजन्य फ्रिक्वेन्सी यांच्यातील तफावत दर्शवेल. अशा परिस्थितीत, χ2 निकषाचे महत्त्व मूल्यमापन करणे आवश्यक आहे, जे सैद्धांतिकदृष्ट्या शून्य ते अनंतापर्यंत बदलू शकते. हे χ2ф च्या गंभीर मूल्याशी (χ2st) तुलना करून केले जाते, म्हणजे अनुभवजन्य आणि सैद्धांतिक किंवा अपेक्षित फ्रिक्वेन्सींमधील विसंगती यादृच्छिक आहे, जर χ2ф χ2st पेक्षा जास्त किंवा समान असेल तर त्याचे खंडन केले जाते. स्वीकृत महत्त्व पातळीसाठी (a) आणि स्वातंत्र्याच्या अंशांची संख्या (n).

यादृच्छिक चल χ2 च्या संभाव्य मूल्यांचे वितरण सतत आणि असममित आहे. हे स्वातंत्र्य (n) च्या अंशांच्या संख्येवर अवलंबून असते आणि निरीक्षणांची संख्या वाढते म्हणून सामान्य वितरणापर्यंत पोहोचते. म्हणून, स्वतंत्र वितरणाच्या मूल्यांकनासाठी χ2 निकषाचा वापर काही त्रुटींशी संबंधित आहे ज्यामुळे त्याचे मूल्य प्रभावित होते, विशेषत: लहान नमुन्यांमध्ये. अधिक अचूक अंदाज प्राप्त करण्यासाठी, भिन्नता मालिकेमध्ये वितरीत केलेल्या नमुनामध्ये किमान 50 पर्याय असणे आवश्यक आहे. χ2 निकषाच्या योग्य वापरासाठी हे देखील आवश्यक आहे की अत्यंत वर्गातील रूपांची वारंवारता 5 पेक्षा कमी नसावी; जर त्यापैकी 5 पेक्षा कमी असतील, तर ते शेजारच्या वर्गांच्या फ्रिक्वेन्सीसह एकत्र केले जातात जेणेकरून एकूण रक्कम 5 पेक्षा जास्त किंवा समान असेल. फ्रिक्वेन्सीच्या संयोजनानुसार, वर्गांची संख्या (N) कमी होते. भिन्नतेच्या स्वातंत्र्यावरील निर्बंधांची संख्या लक्षात घेऊन स्वातंत्र्याच्या अंशांची संख्या वर्गांच्या दुय्यम संख्येद्वारे स्थापित केली जाते.



χ2 निकष ठरवण्याची अचूकता सैद्धांतिक फ्रिक्वेन्सी (T) ची गणना करण्याच्या अचूकतेवर मुख्यत्वे अवलंबून असल्याने, अनुभवजन्य आणि गणना केलेल्या फ्रिक्वेन्सींमधील फरक मिळविण्यासाठी अगोल सैद्धांतिक फ्रिक्वेन्सी वापरल्या पाहिजेत.

उदाहरण म्हणून, मानविकीमध्ये सांख्यिकीय पद्धती लागू करण्यासाठी समर्पित वेबसाइटवर प्रकाशित केलेला अभ्यास घेऊ.

ची-स्क्वेअर चाचणी तुम्हाला वारंवारता वितरणाची तुलना करू देते की ते सामान्यपणे वितरित केले जातात किंवा नाही.

वारंवारता एखाद्या घटनेच्या घटनांची संख्या दर्शवते. सामान्यतः, जेव्हा व्हेरिएबल्स नावांच्या प्रमाणात मोजले जातात तेव्हा घटनांच्या वारंवारतेचा सामना केला जातो आणि वारंवारता व्यतिरिक्त त्यांची इतर वैशिष्ट्ये निवडणे अशक्य किंवा समस्याप्रधान असतात. दुसऱ्या शब्दांत, जेव्हा व्हेरिएबलमध्ये गुणात्मक वैशिष्ट्ये असतात. तसेच, अनेक संशोधक चाचणी स्कोअरचे स्तर (उच्च, मध्यम, निम्न) मध्ये रूपांतरित करतात आणि या स्तरावरील लोकांची संख्या शोधण्यासाठी गुण वितरणाचे तक्ते तयार करतात. एका स्तरावर (श्रेणींपैकी एकामध्ये) लोकांची संख्या खरोखर जास्त (कमी) आहे हे सिद्ध करण्यासाठी ची-स्क्वेअर गुणांक देखील वापरला जातो.

सर्वात सोपं उदाहरण पाहू.

आत्मसन्मान ओळखण्यासाठी तरुण किशोरवयीन मुलांमध्ये एक चाचणी घेण्यात आली. चाचणी गुण तीन स्तरांमध्ये रूपांतरित केले गेले: उच्च, मध्यम, निम्न. फ्रिक्वेन्सी खालीलप्रमाणे वितरीत केल्या गेल्या:

उच्च (B) 27 लोक.

सरासरी (C) 12 लोक.

कमी (L) 11 लोक

हे उघड आहे की बहुसंख्य मुलांमध्ये उच्च आत्मसन्मान असतो, परंतु हे सांख्यिकीयदृष्ट्या सिद्ध करणे आवश्यक आहे. हे करण्यासाठी, आम्ही ची-स्क्वेअर चाचणी वापरतो.

प्राप्त केलेला प्रायोगिक डेटा सैद्धांतिकदृष्ट्या तितकाच संभाव्य डेटापेक्षा वेगळा आहे की नाही हे तपासणे हे आमचे कार्य आहे. हे करण्यासाठी, आपल्याला सैद्धांतिक फ्रिक्वेन्सी शोधण्याची आवश्यकता आहे. आमच्या बाबतीत, सैद्धांतिक फ्रिक्वेन्सी तितक्याच संभाव्य फ्रिक्वेन्सी आहेत, ज्या सर्व फ्रिक्वेन्सी जोडून आणि श्रेणींच्या संख्येने विभाजित करून आढळतात.

आमच्या बाबतीत:

(B + C + H)/3 = (27+12+11)/3 = 16.6

ची-स्क्वेअर चाचणीची गणना करण्यासाठी सूत्र:

χ2 = ∑(E - T)I / T

आम्ही टेबल तयार करतो:

शेवटच्या स्तंभाची बेरीज शोधा:

आता तुम्हाला गंभीर मूल्यांची सारणी वापरून निकषाचे गंभीर मूल्य शोधण्याची आवश्यकता आहे (परिशिष्टातील तक्ता 1). हे करण्यासाठी आपल्याला स्वातंत्र्याच्या अंशांची संख्या आवश्यक आहे (n).

n = (R - 1) * (C - 1)

जेथे R ही टेबलमधील पंक्तींची संख्या आहे, C ही स्तंभांची संख्या आहे.

आमच्या बाबतीत, फक्त एक स्तंभ (म्हणजे मूळ अनुभवजन्य फ्रिक्वेन्सी) आणि तीन पंक्ती (श्रेण्या) आहेत, त्यामुळे सूत्र बदलते - आम्ही स्तंभ वगळतो.

n = (R - 1) = 3-1 = 2

त्रुटी संभाव्यता p≤0.05 आणि n = 2 साठी, गंभीर मूल्य χ2 = 5.99 आहे.

प्राप्त केलेले प्रायोगिक मूल्य गंभीर मूल्यापेक्षा मोठे आहे - फ्रिक्वेन्सीमधील फरक लक्षणीय आहेत (χ2= 9.64; p≤0.05).

जसे आपण पाहू शकता, निकषांची गणना करणे खूप सोपे आहे आणि जास्त वेळ घेत नाही. ची-स्क्वेअर चाचणीचे व्यावहारिक मूल्य प्रचंड आहे. प्रश्नावलीच्या प्रतिसादांचे विश्लेषण करताना ही पद्धत सर्वात मौल्यवान आहे.


चला अधिक जटिल उदाहरण पाहू.

उदाहरणार्थ, एखाद्या मानसशास्त्रज्ञाला हे जाणून घ्यायचे आहे की शिक्षक मुलींपेक्षा मुलांबद्दल अधिक पक्षपाती असतात. त्या. मुलींची स्तुती करण्याची अधिक शक्यता. हे करण्यासाठी, मानसशास्त्रज्ञाने तीन शब्दांच्या वारंवारतेसाठी शिक्षकांनी लिहिलेल्या विद्यार्थ्यांच्या वैशिष्ट्यांचे विश्लेषण केले: “सक्रिय,” “परिश्रमशील,” “शिस्तबद्ध” आणि शब्दांचे समानार्थी शब्द देखील मोजले गेले. शब्दांच्या वारंवारतेचा डेटा टेबलमध्ये प्रविष्ट केला गेला:

प्राप्त डेटावर प्रक्रिया करण्यासाठी आम्ही ची-स्क्वेअर चाचणी वापरतो.

हे करण्यासाठी, आम्ही अनुभवजन्य फ्रिक्वेन्सीच्या वितरणाची एक सारणी तयार करू, म्हणजे. त्या फ्रिक्वेन्सी ज्या आपण पाहतो:

सैद्धांतिकदृष्ट्या, आम्ही अपेक्षा करतो की फ्रिक्वेन्सी समान प्रमाणात वितरीत केल्या जातील, म्हणजे. वारंवारता मुले आणि मुलींमध्ये प्रमाणात वितरीत केली जाईल. चला सैद्धांतिक फ्रिक्वेन्सीचे सारणी तयार करूया. हे करण्यासाठी, पंक्तीची बेरीज स्तंभाच्या बेरजेने गुणाकार करा आणि परिणामी संख्येला एकूण बेरजेने विभाजित करा.

गणनेसाठी अंतिम सारणी असे दिसेल:

χ2 = ∑(E - T)I / T

n = (R - 1), जेथे R ही टेबलमधील पंक्तींची संख्या आहे.

आमच्या बाबतीत, ची-स्क्वेअर = 4.21; n = 2.

निकषाच्या गंभीर मूल्यांच्या सारणीचा वापर करून, आम्हाला आढळते: n = 2 आणि 0.05 च्या त्रुटी पातळीसह, गंभीर मूल्य χ2 = 5.99 आहे.

परिणामी मूल्य गंभीर मूल्यापेक्षा कमी आहे, याचा अर्थ शून्य गृहितक स्वीकारले आहे.

निष्कर्ष: मुलासाठी वैशिष्ट्ये लिहिताना शिक्षक त्याच्या लिंगाला महत्त्व देत नाहीत.


निष्कर्ष.

के. पियर्सनने गणितीय आकडेवारीच्या विकासात (मोठ्या संख्येने मूलभूत संकल्पना) महत्त्वपूर्ण योगदान दिले. पीअर्सनची मुख्य तात्विक स्थिती खालीलप्रमाणे तयार केली आहे: विज्ञानाच्या संकल्पना कृत्रिम रचना आहेत, संवेदी अनुभवाचे वर्णन आणि क्रमवारी लावण्याचे साधन; त्यांना वैज्ञानिक वाक्यांमध्ये जोडण्याचे नियम विज्ञानाच्या व्याकरणाद्वारे वेगळे केले जातात, जे विज्ञानाचे तत्त्वज्ञान आहे. उपयोजित आकडेवारीची सार्वत्रिक शिस्त आम्हाला भिन्न संकल्पना आणि घटनांना जोडण्याची परवानगी देते, जरी पीअरसनच्या मते ते व्यक्तिनिष्ठ आहे.

के. पियर्सनची अनेक बांधकामे मानववंशशास्त्रीय सामग्री वापरून थेट संबंधित आहेत किंवा विकसित केलेली आहेत. त्यांनी विज्ञानाच्या सर्व क्षेत्रांमध्ये वापरल्या जाणाऱ्या संख्यात्मक वर्गीकरण आणि सांख्यिकीय निकषांच्या असंख्य पद्धती विकसित केल्या.


साहित्य.

1. Bogolyubov A. N. गणित. यांत्रिकी. चरित्रात्मक संदर्भ पुस्तक. - कीव: नौकोवा दुमका, 1983.

2. कोल्मोगोरोव ए.एन., युश्केविच ए.पी. (सं.). 19 व्या शतकातील गणित. - एम.: विज्ञान. - टी. आय.

3. 3. बोरोव्कोव्ह ए.ए. गणितीय आकडेवारी. एम.: नौका, 1994.

4. 8. फेलर व्ही. संभाव्यतेच्या सिद्धांताचा परिचय आणि त्याचे उपयोग. - एम.: मीर, टी.2, 1984.

5. 9. हरमन जी., आधुनिक घटक विश्लेषण. - एम.: सांख्यिकी, 1972.



2024 घरातील आरामाबद्दल. गॅस मीटर. हीटिंग सिस्टम. पाणी पुरवठा. वायुवीजन प्रणाली