The Naïve Bayes algorithm
नैवे बेयस एल्गोरिदम बेयस प्रमेय पर आधारित है और इसका उपयोग वर्गीकरण समस्याओं को हल करने के लिए किया जाता है। बेयस प्रमेय को इस प्रकार कहा जा सकता है:
P(A/B) = P(B|A) * P(A) P(B)
पी(ए/बी)- ए के घटित होने की संभावना, इस बात का प्रमाण देते हुए कि बी पहले ही घटित हो चुका है
पी(बी|ए) - बी के घटित होने की संभावना, इस बात का प्रमाण देते हुए कि बी पहले ही घटित हो चुका है
पी(ए)-ए के घटित होने की संभावना
पी(बी) - बी के घटित होने की संभावना
नैवे बेयस की एक प्रमुख धारणा यह है कि जांच के अंतर्गत आने वाली विशेषताएं एक-दूसरे से स्वतंत्र हैं। अर्थात् एक विशेषता की उपस्थिति का दूसरे विशेषता की उपस्थिति से कोई संबंध नहीं है।
नैवे बेयस - वर्गीकरण एल्गोरिथम Naïve Bayes – Classification Algorithm
नैवे बेयस क्लासिफायर एक सरल लेकिन प्रभावी वर्गीकरण एल्गोरिदम है जो मशीन लर्निंग मॉडल बनाने में मदद करता है जो त्वरित भविष्यवाणियां कर सकता है। यह एक संभाव्य वर्गीकरणकर्ता है, जिसका अर्थ है कि यह किसी वस्तु की संभावना के आधार पर भविष्यवाणी करता है।
मान लीजिए कि हमारे पास तालिका 3 में दिखाया गया डेटासेट है।
हम फलों को दो श्रेणियों में वर्गीकृत करने के लिए नैवे बेयस का उपयोग कर सकते हैं: मीठा या नहीं। इस उदाहरण में, हमारे पास केवल एक विशेषता है: फल का नाम।
आइए अनेक विशेषताओं वाले एक उदाहरण पर विचार करें। हम मानते हैं कि ये सुविधाएँ एक दूसरे से स्वतंत्र हैं। उदाहरण के लिए, हमारे पास चोरी हुई कारों के बारे में एक डेटासेट है, जैसा कि तालिका 4 में दिखाया गया है।
हम उन कारों की विशेषताओं का अनुमान लगाने के लिए नैवे बेयस एल्गोरिदम का उपयोग कर सकते हैं जिनके चोरी होने की उच्च संभावना है।
तालिका 4: चोरी हुई कारों का नमूना डेटासेट।
K-nearest Neighbours
(K-NN) पर्यवेक्षित शिक्षण तकनीक पर आधारित सबसे सरल मशीन लर्निंग एल्गोरिदम में से एक है। इसका उपयोग सामान्यतः डेटा वर्गीकरण के लिए किया जाता है।
के-एनएन एल्गोरिदम बस सभी उपलब्ध डेटा को संग्रहीत करता है और संग्रहीत डेटा के सबसेट की समानता के आधार पर एक नए डेटा बिंदु को वर्गीकृत करता है।
इसका मतलब यह है कि जब कोई नया डेटा बिंदु दिखाई देता है, तो इसे K-NN एल्गोरिदम का उपयोग करके आसानी से एक उपयुक्त श्रेणी में वर्गीकृत किया जा सकता है।
इसे आलसी शिक्षार्थी एल्गोरिदम lazy learner algorithm भी कहा जाता है क्योंकि यह प्रशिक्षण सेट से सीखने का प्रयास नहीं करता है; इसके बजाय, यह डेटासेट को संग्रहीत करता है और वर्गीकरण कार्य शुरू होने पर ही डेटासेट पर कोई कार्रवाई करता है।
मान लीजिए कि दो श्रेणियां हैं, ए और बी, और हमारे पास एक नया डेटा बिंदु x1 है। कार्य इस डेटा बिंदु के लिए श्रेणी निर्धारित करना है। K-NN की सहायता से हम किसी विशेष डेटा बिंदु की श्रेणी या क्लास को आसानी से पहचान सकते हैं।निम्नलिखित चित्र पर विचार करें. मान लीजिए हमारे पास एक नया डेटा बिंदु है (जिसे चित्र 34 में एक वर्ग द्वारा दर्शाया गया है)। मान लीजिए k = 5. यानी K-NN वर्ग के निकटतम पांच पड़ोसियों पर विचार कर सकता है (अर्थात, वृत्त के भीतर डेटा बिंदु)। हम देख सकते हैं कि वर्ग के निकटतम 3 'x' और 2 'o' हैं। A x बहुमत में है, हम देखते हैं कि इसे x के रूप में वर्गीकृत किया जा सकता है।
Decision Tree निर्णय वृक्ष
एक निर्णय वृक्ष में दो इकाइयाँ होती हैं: निर्णय नोड्स और पत्तियाँ। पत्तियाँ निर्णय या अंतिम परिणाम हैं, और निर्णय नोड वह हैं जहाँ डेटा विभाजित होता है।
मान लीजिए कि हमारे पास एक डेटासेट है जिसमें उन लोगों के बारे में जानकारी है जो नौकरी के लिए आवेदन कर रहे हैं। हम यह निर्धारित करना चाहते हैं कि कोई व्यक्ति साक्षात्कार के लिए बुलाए जाने के लिए उपयुक्त है या नहीं। हम निर्णय वृक्ष का उपयोग कर सकते हैं, जैसा चित्र 35 में दिखाया गया है।
निर्णय वृक्ष - लाभ
आइए निर्णय वृक्ष के कुछ लाभों पर एक नजर डालें।
इसे समझना सरल है, क्योंकि यह उसी प्रक्रिया का अनुसरण करता है जिसका अनुसरण मनुष्य वास्तविक जीवन में निर्णय लेने में करता है।
निर्णय संबंधी समस्याओं के समाधान के लिए यह बहुत उपयोगी हो सकता है।
यह किसी समस्या के कई संभावित परिणामों पर विचार करता है।
अन्य एल्गोरिदम की तुलना में डेटा सफाई की आवश्यकता न्यूनतम है।
निर्णय वृक्ष - हानियाँ
आइए निर्णय वृक्ष के कुछ नुकसानों पर एक नजर डालें।
इसमें कई परतें होती हैं, जो इसे जटिल बनाती हैं।
इसमें ओवरफिटिंग की समस्या हो सकती है; इसे यादृच्छिक वन एल्गोरिदम का उपयोग करके हल किया जा सकता है।
क्लास लेबल की संख्या बढ़ने पर निर्णय वृक्ष की कम्प्यूटेशनल जटिलता बढ़ सकती है। ओवरफिटिंग एक शब्द है जिसका उपयोग उस व्यवहार का वर्णन करने के लिए किया जाता है जो तब होता है जब एक मशीन लर्निंग मॉडल प्रशिक्षण डेटा के लिए सटीक पूर्वानुमान देता है लेकिन नए डेटा के लिए नहीं।