बिना पर्यवेक्षण के लर्निंग (Unsupervised learning)
जब समस्या के लिए बिना लेबल वाले भारी मात्रा में डेटा की आवश्यकता होती है तो बिना पर्यवेक्षित शिक्षण सबसे उपयुक्त होता है। उदाहरण के लिए, सोशल मीडिया एप्लिकेशन जैसे
• ट्विटर,
• इंस्टाग्राम,
• स्नैपचैट इत्यादि
उन सभी के पास बड़ी मात्रा में बिना लेबल वाला डेटा है। बिना पर्यवेक्षित शिक्षण एल्गोरिदम मानवीय हस्तक्षेप की आवश्यकता के बिना छिपे हुए पैटर्न या डेटा समूहों की खोज करते हैं।जानकारी में समानताएं और अंतर खोजने की एल्गोरिदम की क्षमता इसे डेटा को समूहों या सुविधाओं के समूहों में विभाजित करने में सक्षम बनाती है। संक्षेप में, यह प्रक्रिया डेटा में लेबल जोड़ती है ताकि इसकी निगरानी की जा सके।
बिना पर्यवेक्षण लर्निंग मॉडल (Unsupervised Learning Models)
अनसुपरवाइज्ड लर्निंग मॉडल का उपयोग तीन मुख्य कार्यों के लिए किया जा सकता है, हालांकि यह पहले दो कार्यों में लोकप्रिय रूप से उपयोग किया जाता है।
क्लस्टरिंग Clustering
यह एक ऐसी तकनीक है जो बिना लेबल वाले डेटा को उनकी समानता या अंतर के आधार पर समूहित करती है। क्लस्टरिंग एल्गोरिदम का उपयोग कच्चे, अवर्गीकृत डेटा ऑब्जेक्ट को ऑब्जेक्ट की जानकारी में संरचनाओं या पैटर्न द्वारा दर्शाए गए समूहों में संसाधित करने के लिए किया जाता है।
एसोसिएशन नियम Association rule
यह डेटासेट में चरों के बीच संबंध खोजने की एक नियम-आधारित विधि है।
आयामीता में कमी Dimensionality reduction
यह एक ऐसी तकनीक है जिसका उपयोग तब किया जाता है जब किसी डेटासेट में सुविधाओं या आयामों की संख्या बहुत अधिक हो। यह डेटा इनपुट की संख्या को प्रबंधनीय आकार तक कम कर देता है जबकि डेटासेट की अखंडता को भी संरक्षित करता है।
बिना पर्यवेक्षित लर्निंग - उदाहरण
मान लीजिए कि हमें किसी कंपनी के कर्मचारियों के बारे में डेटा दिया गया है, जैसा कि तालिका 2 में दिखाया गया है। हमें यह अनुमान लगाने का काम दिया गया है कि कौन सा कर्मचारी पांच साल के भीतर कंपनी छोड़ देगा। इस प्रकार के डेटा के विश्लेषण के लिए एक एल्गोरिदम की आवश्यकता होती है जो डेटा को मिलने वाले पैटर्न या क्लस्टर के आधार पर वर्गीकृत कर सके।
तालिका 2: किसी कंपनी के कर्मचारियों के डेटा का एक उदाहरण।
बिना पर्यवेक्षित लर्निंग - उदाहरण Unsupervised Learning - Example
फलों की पहचान करने के एक अन्य उदाहरण में, यदि हमें फलों का बिना लेबल वाला डेटा दिया जाता है, तो हम उन्हें अलग-अलग श्रेणियों में वर्गीकृत करने के लिए अनपर्यवेक्षित शिक्षण एल्गोरिदम का उपयोग कर सकते हैं। उन छवियों के पैटर्न या विशेषताओं के आधार पर वर्गीकरण स्वचालित रूप से किया जाता है।
Unsupervised Learning - Video
अनसुपरवाइज्ड लर्निंग - एल्गोरिदम Unsupervised Learning - Algorithms
अनसुपरवाइज्ड लर्निंग के लिए कुछ एल्गोरिदम प्रमुख घटक विश्लेषण, के-मीन्स क्लस्टरिंग और एकवचन मूल्य अपघटन हैं।
प्रमुख घटक विश्लेषण (पीसीए)Principal component analysis (PCA)
यह डेटासेट के प्रमुख घटकों की गणना करने और इसकी आयामीता को कम करने के लिए उनका उपयोग करने की एक तकनीक है। पीसीए का उपयोग खोजपूर्ण डेटा विश्लेषण में किया जाता है। इसका उपयोग पूर्वानुमानित मॉडल बनाने के लिए भी किया जाता है।
K- का अर्थ है क्लस्टरिंग K-means clustering
यह एक ऐसी विधि है जिसका उद्देश्य n अवलोकनों को k समूहों में विभाजित करना है, जिसमें प्रत्येक अवलोकन निकटतम माध्य वाले क्लस्टर से संबंधित होता है।
विलक्षण मान अपघटन Singular value decomposition
डेटा को मैट्रिक्स रूप में दर्शाया जा सकता है। एकवचन मूल्य अपघटन एक मैट्रिक्स को कई घटक मैट्रिक्स में विघटित करने के लिए व्यापक रूप से उपयोग की जाने वाली तकनीक है, जो मूल मैट्रिक्स के कई उपयोगी और दिलचस्प गुणों को उजागर करती है।
अनसुपरवाइज्ड लर्निंग - अनुप्रयोग - दस्तावेज़ फ़िल्टरिंग Unsupervised Learning - Applications - Document Filtering
अनसुपरवाइज्ड लर्निंग के कुछ अनुप्रयोग दस्तावेज़ फ़िल्टरिंग, ग्राहक विभाजन और विसंगति का पता लगाना हैं।
दस्तावेज़ फ़िल्टरिंग
दस्तावेज़ फ़िल्टरिंग पाठ्य दस्तावेज़ों में क्लस्टर विश्लेषण का एक अनुप्रयोग है। इसमें स्वचालित दस्तावेज़ संगठन, विषय निष्कर्षण और तेज़ सूचना पुनर्प्राप्ति या फ़िल्टरिंग में अनुप्रयोग हैं। दस्तावेज़ फ़िल्टरिंग का एक उदाहरण विभिन्न प्रकार के स्रोतों से समाचार दस्तावेज़ों को प्रासंगिक विषयों में स्वचालित रूप से वर्गीकृत करना है। नए दस्तावेज़ों को पहले एकत्र किया जाता है और एक समाचार भंडार में संग्रहीत किया जाता है। फिर इसे दस्तावेज़ फ़िल्टर में फीड किया जाता है, जो प्रत्येक दस्तावेज़ का विश्लेषण करता है, विषय की पहचान करता है और फिर रुचि के विषयों के अनुसार दस्तावेज़ को वर्गीकृत करता है।
अनसुपरवाइज्ड लर्निंग - अनुप्रयोग - ग्राहक विभाजन Unsupervised Learning - Applications - Customer Segmentation
विपणन में, बाजार विभाजन कुछ प्रकार की साझा विशेषताओं के आधार पर मौजूदा और संभावित ग्राहकों को उपभोक्ताओं के उप-समूहों में विभाजित करने की प्रक्रिया है। ग्राहक विभाजन के चार मुख्य प्रकार हैं:
• जनसांख्यिकीय,
• मनोवैज्ञानिक,
•व्यवहार और
• भौगोलिक
ग्राहकों को विभाजित करके, विपणक उचित दर्शकों को लक्षित करके अपने संचालन और बजट को अनुकूलित कर सकते हैं।
वे सीधे उन ग्राहकों को लक्षित कर सकते हैं जो किसी दिए गए उत्पाद को खरीदने के लिए इच्छुक हों।
ग्राहक विभाजन की प्रक्रिया में तीन चरण शामिल हैं: उत्पाद के लिए संभावित ग्राहक आधार की पहचान करना, ग्राहक आधार को समूहीकृत करने के लिए क्लस्टरिंग एल्गोरिदम लागू करना और फिर परिणाम की कल्पना करना।
अनसुपरवाइज्ड लर्निंग - अनुप्रयोग - विसंगति का पता लगाना
विसंगति वह चीज़ है जो मानक, सामान्य या अपेक्षित से भटक जाती है। विसंगति का पता लगाना एक ऐसा कदम है जो सामान्य व्यवहार से डेटा के विचलन की पहचान करता है। असंगत डेटा महत्वपूर्ण घटनाओं, जैसे तकनीकी गड़बड़ियां, या संभावित अवसर, जैसे उपभोक्ता व्यवहार में बदलाव, का संकेत दे सकता है।
विसंगति का पता लगाने का प्रस्ताव पहली बार डोरोथी डेनिंग द्वारा 1987 में एक घुसपैठ का पता लगाने वाली प्रणाली (डेनिंग, 1987) के लिए प्रस्तावित किया गया था। अब इसका उपयोग साइबर सुरक्षा, चिकित्सा, मशीन विज़न, सांख्यिकी, तंत्रिका विज्ञान, कानून प्रवर्तन और वित्तीय धोखाधड़ी सहित कई डोमेन में किया जा रहा है।
अधिकांश विसंगति का पता लगाना "अपर्यवेक्षित विसंगति का पता लगाना" के रूप में होता है। यह एक प्रशिक्षण चरण से शुरू होता है जहां एल्गोरिदम सिस्टम के सामान्य व्यवहार को "सीखता" है। यह सामान्य व्यवहार के उस मॉडल से किसी भी विचलन का पता चलने पर व्यवस्थापक को सचेत करता है।