यूनिट 2: मशीन लर्निंग के प्रकार
सीखने के प्रतिफल
इस इकाई के पूरा होने पर, प्रतिभागियों से यह अपेक्षा की जाती है कि वे इसमें सक्षम होंगे:
• बता पाएंगे कि मशीन लर्निंग कैसे काम करती है
• पर्यवेक्षित शिक्षण, अप्रशिक्षित शिक्षण और सुदृढीकरण शिक्षण के बीच का अंतर बता पाएंगे (supervised learning, unsupervised learning and reinforcement learning)
परिचय
हमारे पास मौजूद डेटा के प्रकार के आधार पर तीन प्रकार की मशीन लर्निंग का उपयोग किया जा सकता है:
सुदृढीकरण सीखना Reinforcement Learning
पर्यवेक्षित अध्ययन Supervised Learning
बिना पर्यवेक्षण के सीखना Unsupervised Learning
इस इकाई में, हम मशीन लर्निंग के इन तीन प्रकारों पर संक्षेप में चर्चा करेंगे।
मशीन लर्निंग कैसे काम करती है?
हमने पहले बताया था कि मशीन लर्निंग का उद्देश्य किसी दी गई समस्या को हल करने के लिए एक कुशल और सटीक भविष्यवाणी मॉडल तैयार करना है। उपयुक्त मशीन लर्निंग एल्गोरिदम को उचित डेटा प्रदान करके भविष्यवाणी मॉडल तैयार किया जाता है।कई मशीन लर्निंग एल्गोरिदम उपलब्ध हैं, और जिस समस्या को हम हल करने का प्रयास कर रहे हैं उसके लिए हमें सबसे उपयुक्त एल्गोरिदम चुनना होगा।
मशीन लर्निंग प्रक्रिया
मशीन लर्निंग की प्रक्रिया में तीन चरण शामिल हैं:
चरण एक
एक मॉडल तैयार करने के लिए एक मशीन लर्निंग एल्गोरिदम को एक प्रशिक्षण डेटासेट का उपयोग करके प्रशिक्षित किया जाता है।
चरण दो
मॉडल में नया इनपुट डेटा पेश किया गया है। फिर सटीकता के लिए भविष्यवाणी का मूल्यांकन किया जाता है। यदि सटीकता स्वीकार्य है, तो मशीन लर्निंग एल्गोरिदम तैनात किया जाता है।
चरण तीन
यदि सटीकता स्वीकार्य नहीं है, तो मशीन लर्निंग एल्गोरिदम को संवर्धित प्रशिक्षण डेटासेट के भीतर बार-बार प्रशिक्षित किया जाता है।
मशीन लर्निंग मॉडल
जब हम मशीन लर्निंग मॉडल विकसित करना चाहते हैं, तो हमें पहले सही डेटा प्राप्त करना होगा।
चूँकि मशीन लर्निंग "उदाहरण के द्वारा सीखने" की पद्धति का उपयोग करती है, इसलिए हमें अपने डेटा को एक प्रशिक्षण डेटासेट और एक मूल्यांकन डेटासेट में विभाजित करना होगा।
प्रशिक्षण डेटासेट का उपयोग हमारे मॉडल को प्रशिक्षित करने के लिए किया जाता है, जबकि मूल्यांकन डेटासेट का उपयोग हमारे मॉडल की सटीकता की जांच करने के लिए किया जाता है।
पर्यवेक्षित शिक्षण - उदाहरण (Supervised Learning )
पर्यवेक्षित शिक्षण में, मॉडल को एक लेबल किए गए डेटासेट पर प्रशिक्षित किया जाता है, जिसमें कच्चे इनपुट डेटा के साथ-साथ उसके परिणाम भी शामिल होते हैं। लेबल किए गए डेटासेट का एक उदाहरण तालिका 1 में दिया गया है, जो किसी विशेष पाठ्यक्रम में छात्रों के प्रदर्शन का डेटा दिखाता है। "परिणाम" वह लेबल है जिसका उपयोग छात्रों को "उत्तीर्ण" या "असफल" दो श्रेणियों में वर्गीकृत करने के लिए किया जा सकता है।
एक अन्य उदाहरण के रूप में, फलों की लाखों छवियों वाले डेटा पर विचार करें, जिसमें प्रत्येक छवि में फल के प्रकार के बारे में जानकारी शामिल है, जैसा कि चित्र 12 में दिखाया गया है।
चित्र 12. फलों के बारे में डेटा।
ऊपर उल्लिखित फलों के डेटा का उपयोग करके एक मशीन लर्निंग मॉडल बनाने के कार्य पर विचार करें, जो किसी दिए गए फल की पहचान कर सके। सबसे पहले, हमें इस कार्य के लिए सर्वोत्तम मशीन लर्निंग एल्गोरिदम का चयन करना होगा। फिर, हमें प्रशिक्षण डेटा प्रदान करके एल्गोरिदम को प्रशिक्षित करने की आवश्यकता है। एल्गोरिदम को प्रशिक्षित करके, मॉडल छवियों से कुछ पैटर्न या विशेषताओं को पहचानेगा और उस प्रकार के पैटर्न को उस लेबल के साथ जोड़ देगा जो हमने पहले ही प्रदान किया है। उदाहरण के लिए, यह मानता है कि एक सेब एक लाल गोलाकार वस्तु है, जबकि एक नारंगी एक नारंगी गोलाकार वस्तु है। फिर, जब हम मॉडल को एक नई छवि प्रदान करते हैं, तो यह फल के पैटर्न को पहचान लेगा और संबंधित लेबल की तलाश करेगा।
पर्यवेक्षित लर्निंग - एल्गोरिदम Supervised Learning - Algorithms
पर्यवेक्षित लर्निंग के लिए एल्गोरिदम में रैखिक प्रतिगमन, यादृच्छिक वन और समर्थन वेक्टर मशीन शामिल हैं। हम इन एल्गोरिदम को संक्षेप में समझाएंगे। इनमें से कुछ एल्गोरिदम की अधिक विस्तृत चर्चा इकाई 5 में प्रदान की जाएगी।
Linear Regression रेखीय प्रतिगमन
रेखीय प्रतिगमन का उद्देश्य प्रेक्षित जानकारी में एक रेखीय समीकरण फिट करके दो चर के बीच संबंध प्रदर्शित करना है। एक चर को व्याख्यात्मक चर के रूप में देखा जाता है, और दूसरे को आश्रित चर के रूप में देखा जाता है।
Random Forest
इसका उपयोग वर्गीकरण कार्यों में किया जाता है। बेतरतीब ढंग से चयनित डेटा के साथ, यह अलग-अलग निर्णय पेड़ बनाता है और फिर परीक्षण ऑब्जेक्ट की कक्षा की गणना करने के लिए पेड़ों से वोट एकत्र करता है।
3.Support Vector Machine
सपोर्ट वेक्टर मशीन (एसवीएम) दो-समूह वर्गीकरण समस्याओं के लिए एक वर्गीकरण एल्गोरिदम है। प्रशिक्षण उदाहरणों के एक सेट को देखते हुए जिसमें प्रत्येक उदाहरण को दो श्रेणियों में से एक के रूप में चिह्नित किया गया है, एक एसवीएम एल्गोरिदम एक मॉडल बनाता है जो एक श्रेणी या दूसरे को नए उदाहरण प्रदान करता है।
पर्यवेक्षित लर्निंग - अनुप्रयोग - भावना विश्लेषण Supervised Learning - Applications - Sentiment Analysis
पर्यवेक्षित लर्निंग के कुछ अनुप्रयोग भावना विश्लेषण, अनुशंसा इंजन और स्पैम फ़िल्टर हैं।
भावनाओं का विश्लेषण Sentiment Analysis
भावना विश्लेषण एक ऐसी तकनीक है जो यह निर्धारित करती है कि डेटा व्यक्त करता है या नहीं
सकारात्मक,
नकारात्मक या
तटस्थ भाव
व्यवसाय में, भावना विश्लेषण का उपयोग आम तौर पर संगठनों द्वारा बाजार अनुसंधान करने के लिए किया जाता है। इसका उपयोग किसी कंपनी के उत्पादों के प्रति बाज़ार की राय का विश्लेषण करने के लिए किया जा सकता है।
कर्मचारी सर्वेक्षणों का विश्लेषण करके भावना विश्लेषण किसी संगठन को अपने कर्मचारियों को समझने में भी मदद करता है।कुछ मुद्दों पर मतदाताओं की प्रतिक्रिया निर्धारित करने के लिए राजनेताओं द्वारा भावना विश्लेषण का उपयोग किया जा सकता है।
भावना विश्लेषण अक्सर सोशल मीडिया, समाचार और मंचों से असंरचित पाठ्य डेटा पर किया जाता है। पाठ्य डेटा को कॉर्पस ऑब्जेक्ट की मदद से एकत्र और साफ़ किया जाता है। फिर डेटा को सकारात्मक, नकारात्मक और तटस्थ में समूहित करने के लिए एक भावना शब्दावली के साथ विश्लेषण किया जाता है।
पर्यवेक्षित लर्निंग - अनुप्रयोग - अनुशंसा इंजन Supervised Learning - Applications - Recommender Engine
उत्पाद अनुशंसाएँ लोकप्रिय हैं, विशेषकर ई-कॉमर्स में। व्यापारिक वेबसाइटें हमारी ऑनलाइन गतिविधियों के आधार पर हमारे व्यवहार को चुनती हैं और ट्रैक करती हैं। इसमें हमारी पिछली खरीदारी, खोज पैटर्न, क्लिक, कार्ट इतिहास इत्यादि शामिल हैं। इसके बाद एक अनुशंसाकर्ता इंजन व्यक्तिगत ग्राहकों की प्राथमिकताओं को ध्यान में रखते हुए अनुकूलित उत्पाद अनुशंसाएँ तैयार करेगा।एक बार जब इंजन किसी उत्पाद की पहचान कर लेता है, तो निम्नलिखित तर्क के आधार पर एक सिफारिश की जाती है।
विभिन्न प्रकार के तर्कों के बारे में जाने ।
लोकप्रिय उत्पाद Popular product
किसी उत्पाद की लोकप्रियता के आधार पर उसकी अनुशंसा की जाएगी।
रेटिंग-आधारित अनुशंसा Rating-based recommendation
अनुशंसाकर्ता इंजन यह अनुमान लगाएगा कि उपयोगकर्ता किसी आइटम को क्या रेटिंग देगा। उच्च रेटिंग वाले आइटम की अनुशंसा की जाएगी.
वैयक्तिकृत अनुशंसा Personalised recommendation
इंजन उपयोगकर्ता की प्रोफ़ाइल के आधार पर अनुशंसाएँ देता है।
Similar product
इंजन उन उत्पादों की अनुशंसा करता है जो उन उत्पादों के समान हैं जिन्हें उपयोगकर्ता ने अतीत में पसंद किया है।
स्पैम छांटना (Spam Filter)
स्पैम फ़िल्टर एक प्रोग्राम है जो अवांछित और वायरस-संक्रमित ईमेल का पता लगाता है और ऐसे संदेशों को उपयोगकर्ता के इनबॉक्स में जाने से रोकता है। एक स्पैम फ़िल्टर विशिष्ट मानदंडों की तलाश करके काम करता है जिस पर उसके निर्णयों को आधार बनाया जा सके।
स्पैम फ़िल्टर - तरीके Spam Filter - Methods
आज विभिन्न प्रकार की स्पैम फ़िल्टरिंग विधियाँ उपलब्ध हैं। उनमें से कुछ यहां सूचीबद्ध हैं:
सामग्री द्वारा स्पैम फ़िल्टरिंग Spam filtering by content
सबसे आम स्पैम शब्दों में "अतिरिक्त आय," "नकद पुरस्कार" और "आप विजेता हैं" शामिल हैं। ऐसे आकर्षक शब्दों वाले ईमेल को फ़िल्टर करने की आवश्यकता है।
कुछ आईपी को ब्लैकलिस्ट करना Blacklisting certain IPs
संगठनों को उन आईपी से आने वाले स्पैम ईमेल को रोकने के लिए विशिष्ट आईपी पते को ब्लैकलिस्ट करने की आवश्यकता है।
वास्तविक समय ब्लैकहोल सूची Real-time blackhole list
यह सूची ब्लैकलिस्ट के समान है, सिवाय इसके कि तृतीय-पक्ष उद्यम इसे बनाए रखता है।