यूनिट 5: मशीन लर्निंग एल्गोरिदम और मेट्रिक्स
सीखने के उदेश्य
इस इकाई के पूरा होने पर, प्रतिभागियों से यह अपेक्षा की जाती है कि वे इसमें सक्षम होंगे:
• मशीन लर्निंग के लिए छह प्रकार के एल्गोरिदम की सूची बनाएं और समझाएं
• उन मेट्रिक्स के प्रकारों की तुलना करें जिनका उपयोग मशीन लर्निंग एल्गोरिदम के प्रदर्शन को मापने में किया जा सकता है
परिचय
मशीन लर्निंग एल्गोरिदम एक ऐसी विधि है जिसके द्वारा एक कृत्रिम बुद्धिमत्ता (एआई) प्रणाली अपने कार्यों का संचालन करती है, आम तौर पर दिए गए इनपुट डेटा से आउटपुट मूल्यों की भविष्यवाणी करती है।
मशीन लर्निंग में एक मॉडल तब प्राप्त होता है जब मशीन लर्निंग एल्गोरिदम डेटा पर चलता है।
किसी समस्या को हल करते समय, हम यह जानना चाहेंगे कि उपयोग किया गया एल्गोरिदम उस समस्या के लिए उपयुक्त है या नहीं।
मशीन लर्निंग में किसी विशेष एल्गोरिदम का उपयोग करने की उपयुक्तता को मशीन लर्निंग मेट्रिक्स का उपयोग करके मापा जाता है।
यह इकाई मशीन लर्निंग में तीन महत्वपूर्ण अवधारणाओं पर चर्चा करती है: एल्गोरिदम, मॉडल और मेट्रिक्स।
यूनिट 5 के अंदर क्या है?
इकाई में शामिल सामग्री का योजनाबद्ध आरेख नीचे प्रस्तुत किया गया है:
एल्गोरिदम
एल्गोरिदम निर्देशों का एक सीमित सेट है जिसका उपयोग विशिष्ट समस्याओं के एक वर्ग को हल करने या गणना करने के लिए किया जाता है। यह कंप्यूटर को डेटा के साथ इंटरैक्ट करने, हेरफेर करने और बदलने का निर्देश देता है। किसी एल्गोरिदम के क्रियाशील होने के लिए, इसे एक ऐसे प्रोग्राम के रूप में बनाया जाना चाहिए जिसे कंप्यूटर समझ सकें। मशीन लर्निंग एल्गोरिदम अक्सर कई प्रोग्रामिंग भाषाओं में से एक में लिखे जाते हैं, जैसे जावा, पायथन या आर।
यह सुनिश्चित करने के लिए कि हमें किसी दी गई समस्या के लिए सही मॉडल मिले, सबसे उपयुक्त एल्गोरिदम का चयन करना बहुत महत्वपूर्ण है। पर्यवेक्षित और पर्यवेक्षित शिक्षण के लिए कुछ लोकप्रिय एल्गोरिदम हैं:
पर्यवेक्षित अध्ययन
linear regression
decision tree
random forest
support vector machine
naïve Bayes
logistic regression
बिना पर्यवेक्षण के सीखना Unsupervised Learning
principle component analysis
k-means clustering
k-nearest neighbours
singular value decomposition
एल्गोरिदम - श्रेणी
हम एल्गोरिदम को वर्गीकरण, प्रतिगमन या एसोसिएशन नियम के रूप में भी वर्गीकृत कर सकते हैं।
वर्गीकरण मूल रूप से डेटा के एक सेट को वर्गों में वर्गीकृत करता है।
प्रतिगमन स्वतंत्र चर या विशेषताओं और एक आश्रित चर या परिणाम के बीच संबंधों की जांच करने की एक तकनीक है।
एसोसिएशन नियम एक ऐसी तकनीक है जो एक डेटा आइटम की दूसरे डेटा आइटम पर निर्भरता की जांच करती है और उसके अनुसार मैप करती है।
इस इकाई में, हम छह लोकप्रिय एल्गोरिदम पर चर्चा करेंगे जिनमें निम्नलिखित शामिल हैं:
Linear Regression
Logistic Regression
Naïve Bayes
K-nearest Neighbours
Decision Tree
Random Forest Algorithm
आइए आने वाली स्क्रीन पर इनमें से प्रत्येक एल्गोरिदम के बारे में विस्तार से जानें।
Linear Regression रेखीय प्रतिगमन
रैखिक प्रतिगमन विश्लेषण का उपयोग किसी अन्य चर के मूल्य के आधार पर एक चर के मूल्य की भविष्यवाणी करने के लिए किया जाता है। जिस चर की हम भविष्यवाणी करना चाहते हैं उसे आश्रित चर (Y) कहा जाता है। आश्रित चर के मान की भविष्यवाणी करने के लिए हम जिस चर का उपयोग कर रहे हैं उसे स्वतंत्र चर (X) कहा जाता है।
मान लीजिए कि हमारे पास एक्स और वाई का डेटासेट है। हम डेटासेट को स्कैटर ग्राफ के रूप में प्लॉट करते हैं, जैसा कि चित्र 30 में दिखाया गया है।
रेखीय प्रतिगमन विश्लेषण Linear Regression Analysis
रैखिक प्रतिगमन विश्लेषण एक प्रतिगमन रेखा खींचता है, जो दो चर के बीच संबंध का प्रतिनिधित्व करता है
रेखीय समीकरण Linear Equation
प्रतिगमन रेखा को एक रेखीय समीकरण द्वारा दर्शाया जा सकता है:
वाई = एएक्स + बी
रैखिक प्रतिगमन विश्लेषण गुणांक ए और बी के मूल्यों की भी गणना करेगा। एक बार जब हमारे पास ये चार मान होंगे, तो हम एक्स के किसी भी मूल्य के लिए वाई के मूल्य की भविष्यवाणी कर सकते हैं।
मान लीजिए हमारे पास छात्रों की ऊंचाई (X) और वजन (Y) का डेटासेट है। रैखिक प्रतिगमन विश्लेषण का उपयोग करके, हमने पाया कि गुणांक A का मान 0.5 है और B का मान 0.1 है। इसलिए,
वाई = 0.5X+0.1
182 सेमी की ऊंचाई वाले व्यक्ति के लिए, हम आसानी से अनुमान लगा सकते हैं कि उनका वजन होगा:
Y-0.5*182+0.1 = 91.1 किग्रा
रेखीय प्रतिगमन - विश्लेषण के प्रकार Linear Regression - Types of Analysis
रेखीय प्रतिगमन का उपयोग निम्नलिखित प्रकार के विश्लेषण के लिए किया जा सकता है:
रुझानों और बिक्री अनुमानों का मूल्यांकन करना
मूल्य निर्धारण में परिवर्तन कैसे होता है यह निर्धारित करने के लिए मूल्य निर्धारण लोच का विश्लेषण करना
एक बीमा कंपनी के लिए जोखिम का आकलन करना
Linear Regression - Video
संभार तन्त्र परावर्तन Logistic Regression
लॉजिस्टिक रिग्रेशन विश्लेषण का उपयोग श्रेणीबद्ध आश्रित चर के आउटपुट की भविष्यवाणी करने के लिए किया जाता है। इसलिए, आउटपुट एक श्रेणीबद्ध या अलग मान होना चाहिए, जैसे हाँ या नहीं, 0 या 1, सही या गलत आदि।
लॉजिस्टिक रिग्रेशन काफी हद तक लीनियर रिग्रेशन की तरह है, सिवाय इसके कि उनका उपयोग कैसे किया जाता है। रैखिक प्रतिगमन का उपयोग प्रतिगमन समस्याओं को हल करने के लिए किया जाता है, जबकि लॉजिस्टिक प्रतिगमन का उपयोग वर्गीकरण समस्याओं को हल करने के लिए किया जाता है।
मान लीजिए कि हमारे पास एक्स और वाई का डेटासेट है। हम डेटासेट को स्कैटर ग्राफ के रूप में प्लॉट करते हैं, जैसा कि चित्र 32 में दिखाया गया है।
लॉजिस्टिक रिग्रेशन विश्लेषण Logistic Regression Analysis
हम इन दो चरों के बीच संबंध को प्रतिगमन रेखा द्वारा प्रदर्शित नहीं कर सकते। लॉजिस्टिक रिग्रेशन विश्लेषण में, रिश्ते को "एस" आकार के लॉजिस्टिक फ़ंक्शन के रूप में दर्शाया जाता है, जैसा चित्र 33 में दिखाया गया है। इसे सिग्मॉइड वक्र कहा जाता है।
लॉजिस्टिक रिग्रेशन - अनुप्रयोग Logistic Regression – Applications
वास्तविक दुनिया में लॉजिस्टिक रिग्रेशन के कुछ अनुप्रयोग हैं:
यह पता लगाने के लिए कि कोई लेनदेन धोखाधड़ी वाला है या नहीं
यह वर्गीकृत करने के लिए कि कोई ईमेल स्पैम है या नहीं
यह निर्धारित करने के लिए कि किसी व्यक्ति को कोई बीमारी है या नहीं
यह पता लगाने के लिए कि ट्यूमर घातक है या नहीं
लॉजिस्टिक रिग्रेशन - वीडियो Logistic Regression - Video
अधिक विस्तृत स्पष्टीकरण के लिए, कृपया वीडियो लॉजिस्टिक रिग्रेशन देखें।