The Naïve Bayes algorithm

नैवे बेयस एल्गोरिदम बेयस प्रमेय पर आधारित है और इसका उपयोग वर्गीकरण समस्याओं को हल करने के लिए किया जाता है।  बेयस प्रमेय को इस प्रकार कहा जा सकता है:

P(A/B) = P(B|A) * P(A) P(B)

पी(ए/बी)- ए के घटित होने की संभावना, इस बात का प्रमाण देते हुए कि बी पहले ही घटित हो चुका है

पी(बी|ए) - बी के घटित होने की संभावना, इस बात का प्रमाण देते हुए कि बी पहले ही घटित हो चुका है

पी(ए)-ए के घटित होने की संभावना

पी(बी) - बी के घटित होने की संभावना

नैवे बेयस की एक प्रमुख धारणा यह है कि जांच के अंतर्गत आने वाली विशेषताएं एक-दूसरे से स्वतंत्र हैं।  अर्थात् एक विशेषता की उपस्थिति का दूसरे विशेषता की उपस्थिति से कोई संबंध नहीं है।

नैवे बेयस - वर्गीकरण एल्गोरिथम Naïve Bayes – Classification Algorithm

नैवे बेयस क्लासिफायर एक सरल लेकिन प्रभावी वर्गीकरण एल्गोरिदम है जो मशीन लर्निंग मॉडल बनाने में मदद करता है जो त्वरित भविष्यवाणियां कर सकता है।  यह एक संभाव्य वर्गीकरणकर्ता है, जिसका अर्थ है कि यह किसी वस्तु की संभावना के आधार पर भविष्यवाणी करता है।

 मान लीजिए कि हमारे पास तालिका 3 में दिखाया गया डेटासेट है।

हम फलों को दो श्रेणियों में वर्गीकृत करने के लिए नैवे बेयस का उपयोग कर सकते हैं: मीठा या नहीं।  इस उदाहरण में, हमारे पास केवल एक विशेषता है: फल का नाम।


आइए अनेक विशेषताओं वाले एक उदाहरण पर विचार करें।  हम मानते हैं कि ये सुविधाएँ एक दूसरे से स्वतंत्र हैं।  उदाहरण के लिए, हमारे पास चोरी हुई कारों के बारे में एक डेटासेट है, जैसा कि तालिका 4 में दिखाया गया है।

हम उन कारों की विशेषताओं का अनुमान लगाने के लिए नैवे बेयस एल्गोरिदम का उपयोग कर सकते हैं जिनके चोरी होने की उच्च संभावना है।

तालिका 4: चोरी हुई कारों का नमूना डेटासेट।


K-nearest Neighbours

(K-NN) पर्यवेक्षित शिक्षण तकनीक पर आधारित सबसे सरल मशीन लर्निंग एल्गोरिदम में से एक है।  इसका उपयोग सामान्यतः डेटा वर्गीकरण के लिए किया जाता है।

के-एनएन एल्गोरिदम बस सभी उपलब्ध डेटा को संग्रहीत करता है और संग्रहीत डेटा के सबसेट की समानता के आधार पर एक नए डेटा बिंदु को वर्गीकृत करता है।

इसका मतलब यह है कि जब कोई नया डेटा बिंदु दिखाई देता है, तो इसे K-NN एल्गोरिदम का उपयोग करके आसानी से एक उपयुक्त श्रेणी में वर्गीकृत किया जा सकता है।

इसे आलसी शिक्षार्थी एल्गोरिदम  lazy learner algorithm भी कहा जाता है क्योंकि यह प्रशिक्षण सेट से सीखने का प्रयास नहीं करता है;  इसके बजाय, यह डेटासेट को संग्रहीत करता है और वर्गीकरण कार्य शुरू होने पर ही डेटासेट पर कोई कार्रवाई करता है।

मान लीजिए कि दो श्रेणियां हैं, ए और बी, और हमारे पास एक नया डेटा बिंदु x1 है।  कार्य इस डेटा बिंदु के लिए श्रेणी निर्धारित करना है।  K-NN की सहायता से हम किसी विशेष डेटा बिंदु की श्रेणी या क्लास को आसानी से पहचान सकते हैं।निम्नलिखित चित्र पर विचार करें.  मान लीजिए हमारे पास एक नया डेटा बिंदु है (जिसे चित्र 34 में एक वर्ग द्वारा दर्शाया गया है)।  मान लीजिए k = 5. यानी K-NN वर्ग के निकटतम पांच पड़ोसियों पर विचार कर सकता है (अर्थात, वृत्त के भीतर डेटा बिंदु)।  हम देख सकते हैं कि वर्ग के निकटतम 3 'x' और 2 'o' हैं।  A x बहुमत में है, हम देखते हैं कि इसे x के रूप में वर्गीकृत किया जा सकता है।

Decision Tree निर्णय वृक्ष

एक निर्णय वृक्ष में दो इकाइयाँ होती हैं: निर्णय नोड्स और पत्तियाँ।  पत्तियाँ निर्णय या अंतिम परिणाम हैं, और निर्णय नोड वह हैं जहाँ डेटा विभाजित होता है।

मान लीजिए कि हमारे पास एक डेटासेट है जिसमें उन लोगों के बारे में जानकारी है जो नौकरी के लिए आवेदन कर रहे हैं।  हम यह निर्धारित करना चाहते हैं कि कोई व्यक्ति साक्षात्कार के लिए बुलाए जाने के लिए उपयुक्त है या नहीं।  हम निर्णय वृक्ष का उपयोग कर सकते हैं, जैसा चित्र 35 में दिखाया गया है।

निर्णय वृक्ष - लाभ

आइए निर्णय वृक्ष के कुछ लाभों पर एक नजर डालें।

निर्णय वृक्ष - हानियाँ

आइए निर्णय वृक्ष के कुछ नुकसानों पर एक नजर डालें।