Random Forest Algorithm 

यादृच्छिक वन एल्गोरिदम

Random Forest Algorithm यादृच्छिक वन एल्गोरिदम

रैंडम फ़ॉरेस्ट का उपयोग मशीन लर्निंग में वर्गीकरण और प्रतिगमन दोनों समस्याओं के लिए किया जा सकता है।  यह सामूहिक शिक्षण की अवधारणा पर आधारित है, जो एक जटिल समस्या को हल करने और एक मॉडल के प्रदर्शन में सुधार करने के लिए कई क्लासिफायर के संयोजन की एक प्रक्रिया है।

रैंडम फ़ॉरेस्ट एक क्लासिफायरियर है जिसमें किसी दिए गए डेटासेट के विभिन्न उपसमूहों पर कई निर्णय वृक्ष शामिल होते हैं और उस डेटासेट की पूर्वानुमानित सटीकता में सुधार करने के लिए औसत लेते हैं।

एक निर्णय वृक्ष पर भरोसा करने के बजाय, यादृच्छिक वन प्रत्येक उप-वृक्ष से भविष्यवाणी लेता है और उप-वृक्ष भविष्यवाणियों के बहुमत वोटों के आधार पर अंतिम आउटपुट की भविष्यवाणी करता है।

जंगल में पेड़ों की संख्या जितनी अधिक होगी, भविष्यवाणी की सटीकता उतनी ही अधिक होगी;  यह ओवरफिटिंग की समस्या से भी बचाता है।

मान लीजिए कि यादृच्छिक वन वर्गीकरणकर्ता को एक डेटासेट दिया जाता है जिसमें नौकरी के लिए आवेदन करने वाले लोगों के बारे में जानकारी होती है।  डेटासेट को उप-समूहों में विभाजित किया जाता है और कई उप-वृक्षों का निर्माण होता है।

प्रशिक्षण चरण के दौरान, प्रत्येक निर्णय उप-वृक्ष (डीएसटी) एक भविष्यवाणी परिणाम उत्पन्न करता है।  बहुमत के आधार पर, यादृच्छिक वन वर्गीकरणकर्ता अंतिम निर्णय की भविष्यवाणी करता है।  नीचे दिए गए उदाहरण में, चूंकि अधिकांश निर्णय उप-वृक्षों (डीएसटी1, डीएसटी2, और डीएसटी4) द्वारा उत्पादित परिणाम "फिट" हैं, इसलिए अंतिम निर्णय "फिट" है।

मशीन लर्निंग मेट्रिक्स

किसी समस्या को हल करने के लिए एल्गोरिदम की उपयुक्तता को मशीन लर्निंग मेट्रिक्स का उपयोग करके मापा जाता है।  यह अनुभाग चार मेट्रिक्स का वर्णन करता है जो हैं:

आइए आगामी स्क्रीन पर इनमें से प्रत्येक मेट्रिक्स के बारे में विस्तार से जानें।

मशीन लर्निंग मेट्रिक्स - वर्गीकरण सटीकता

वर्गीकरण सटीकता सही भविष्यवाणियों की संख्या और की गई भविष्यवाणियों की कुल संख्या का अनुपात है।

सटीकता = सही भविष्यवाणियों की संख्या / भविष्यवाणियों की कुल संख्या,

 यह माप तभी अच्छा काम करता है जब प्रत्येक वर्ग में नमूनों की संख्या समान हो।

मशीन लर्निंग मेट्रिक्स - कन्फ्यूजन मैट्रिक्स

यह एक मैट्रिक्स है जो किसी मॉडल के संपूर्ण प्रदर्शन का वर्णन करता है।  चार महत्वपूर्ण शब्द हैं:

 • सच्चे सकारात्मक: वे मामले जिनमें मॉडल ने हाँ की भविष्यवाणी की थी और वास्तविक आउटपुट भी हाँ था।

• सही नकारात्मक: वे मामले जिनमें मॉडल ने NO की भविष्यवाणी की थी और वास्तविक आउटपुट NO था।

• झूठी सकारात्मकताएँ: वे मामले जिनमें मॉडल ने हाँ की भविष्यवाणी की थी और वास्तविक आउटपुट नहीं था।

 • गलत नकारात्मक: वे मामले जिनमें मॉडल ने NO की भविष्यवाणी की थी और वास्तविक आउटपुट हाँ था।


मैट्रिक्स की सटीकता की गणना निम्नानुसार की जा सकती है:

सटीकता = # सच्ची सकारात्मकताएँ + # सच्ची नकारात्मकियाँ  / कुल भविष्यवाणियों की संख्या


मशीन लर्निंग मेट्रिक्स - एमएई और एमएसई


 मीन एब्सोल्यूट एरर या एमएई मूल मूल्यों और अनुमानित मूल्यों के बीच अंतर का औसत है।  यह हमें माप देता है कि पूर्वानुमान वास्तविक आउटपुट से कितनी दूर थे।


 एमएई = (मूल मान - पूर्वानुमानित मान) / पूर्वानुमानों की कुल संख्या का योग


 माध्य चुकता त्रुटि या एमएसई काफी हद तक माध्य निरपेक्ष त्रुटि की तरह है।  एकमात्र अंतर यह है कि एमएसई मूल मूल्यों और अनुमानित मूल्यों के बीच अंतर के वर्ग का औसत लेता है।  एमएसई का लाभ यह है कि यह अत्यधिक त्रुटियों को दंडित करता है।


 एमएसई = (मूल मान - पूर्वानुमानित मान)2 / भविष्यवाणियों की कुल संख्या का योग

ओवरफिटिंग और अंडरफिटिंग


 हम एक ऐसा मशीन लर्निंग मॉडल चाहते हैं जो प्रशिक्षण डेटा के साथ-साथ मूल्यांकन डेटा का मॉडलिंग करते समय अच्छे परिणाम दे।

हालाँकि, कुछ मामलों में, हमारे पास एक मॉडल हो सकता है जो प्रशिक्षण डेटा को मॉडलिंग करते समय अच्छे परिणाम देता है लेकिन मूल्यांकन डेटा पर अच्छा प्रदर्शन नहीं करता है।  इसे ओवरफिटिंग कहा जाता है.

अंडरफ़िटिंग एक ऐसे मॉडल को संदर्भित करता है जो प्रशिक्षण डेटा को मॉडलिंग करते समय या मूल्यांकन डेटा को मॉडलिंग करते समय अच्छा प्रदर्शन नहीं करता है।  एक अंडरफ़िट मशीन लर्निंग मॉडल एक उपयुक्त मॉडल नहीं है।

ओवरफिटिंग और अंडरफिटिंग दोनों के कारण मॉडल का प्रदर्शन खराब हो सकता है।  लेकिन मशीन लर्निंग में वास्तविक समस्या ओवरफिटिंग है क्योंकि ओवरफिटिंग के परिणामस्वरूप प्रदर्शन में गिरावट की कोई वास्तविक ऊपरी सीमा नहीं है, जबकि अंडरफिटिंग की एक सीमा है।

ओवरफिटिंग और अंडरफिटिंग - तकनीकें

ओवरफिटिंग को सीमित करने के लिए मशीन लर्निंग एल्गोरिदम का मूल्यांकन करते समय हम दो महत्वपूर्ण तकनीकों का उपयोग कर सकते हैं:

1.मॉडल सटीकता का अनुमान लगाने के लिए पुन: नमूनाकरण तकनीक का उपयोग करें

 2.सत्यापन डेटासेट को रोककर रखें

सबसे लोकप्रिय रीसैंपलिंग तकनीक के-फोल्ड क्रॉस वैलिडेशन है, जो हमें प्रशिक्षण डेटा के विभिन्न उपसमूहों पर अपने मॉडल के बार टी करने और नए डेटा पर मशीन लर्निंग मॉडल के प्रदर्शन का अनुमान लगाने की अनुमति देती है।

अपनी प्रगति जांचें

आपने अब तक जो समझा है, उसकी त्वरित जाँच करने का समय आ गया है।  इन प्रश्नों का उत्तर देने के लिए कुछ देर विचार करें।

सीखने की यात्रा

आइए इकाई 6 से आरंभ करें।

1. मशीन लर्निंग का परिचय (पूर्ण)

2.मशीन लर्निंग के  प्रकार (पूर्ण)

3.मशीन लर्निंग में  नैतिक मुद्दे (पूर्ण)

4.मशीन लर्निंग के उपयोग मामले (पूर्ण)

5. मशीन लर्निंग एल्गोरिदम और मेट्रिक्स (पूर्ण)

 6. मशीन लर्निंग फ्रेमवर्क (अगला)