தரவுச் சுரங்கம் - 29

தரவுச்சுரங்கம் – 29

முந்தைய பகுதியில் இயந்திரக் கற்றலைப் பற்றிய அறிமுகத்தைக் கண்டோம். இப்போது சற்று விளக்கமாக அது எவ்வாறு வடிவமைக்கப்படுகின்றது, இயங்குகின்றது, மற்றும் முந்தைய கணினி நிரலாக்கத்துக்கும் இதற்கும் இருக்கும் வேறுபாடுகள் குறித்துக் காண்போம்.

இயந்திரத்தைக் கற்க வைக்கும் ஒவ்வொரு முயற்சியும் ஒரு மாதிரி எனப்படுகின்றது. ஒவ்வொரு மாதிரியும் அது எதைக் கற்றுக் கொடுக்கின்றோமோ அதில் மட்டுமே தேர்ச்சி பெற்று நிபுணத்துவம்/மேதமை பெறும். அவ்வாறில்லாமல் எல்லா மொழிகளையும், துறைகளையும் கற்றுக் கொள்ள வைப்பது பெருமொழி மாதிரி (Large Language Model) எனப்படுகின்றது. அடிப்படையில் அதுவும் இயந்திரக் கற்றல் என்றாலும் கூட அதற்குத் தேவையான கணினிகள், நினைவகங்கள், சிப்பங்கள், முதலீடு என்பதெல்லாம் கற்பனைக்கெட்டாத வகையில் பிரம்மாண்டமானவை. எனவே தான், உலகில் மாபெரும் தகவல் தொழில்நுட்ப நிறுவனங்களால் மட்டுமே அது சாத்தியமாகின்றது.

இனி ஒவ்வொரு நிறுவனமும் இயந்திரக் கற்றல் மூலம் எவ்வாறு தரவுச் சுரங்கத்தைத் தோண்ட முடியும் என்று காண்போம். இயந்திரக் கற்றலின் அடிச்சுவடு தரவுகளுக்கிடையே இருக்கும் தொடர்பைக் கண்டறிவதும், அந்தத் தொடர்புகள் இறுக்கமாகி எவ்வாறு நூலிழையாக ஆரம்பிக்கும் ஒரு தொடர்பு பின்னர் தேரை இழுக்கும் வடக்கயிறு போல் உறுதியாகின்றது என்னும் தொடர்புகளின் வடிவமைப்பைக் காண்பதும் ஆகும்.

எடுத்துக்காட்டாக, ஒரு கடைக்கு ஒரு வாடிக்கையாளர் புதன்கிழமைகளில் மட்டுமே வந்திருக்கக் கூடும். அது எதேச்சையாகவும் நிகழ்ந்திருக்கலாம். ஓரிரு முறை என்றால் அது எதேச்சை. ஆனால், பத்து தடவைகளுக்கும் மேல் ஒரு வாடிக்கையாளர் புதன்கிழமை மட்டுமே உங்கள் கடைக்கு வருகின்றார் என்றால், இந்தப் புதன்கிழமை வருவதற்கான நிகழ்தகவு மற்ற கிழமைகளில் வருவதைக் காட்டிலும் அதிகம் அன்றோ? இது போன்ற அத்தனை நிகழ்வுகளின் கண்ணுக்குத் தெரியாத நுட்பமான தொடர்புகளையும் கணினியால் கண்டு பிடிக்க முடியும். ஒரு வேளை உங்கள் கடைக்கு அருகில் இருக்கும் ஒரு திரைப்பட அரங்கில் புதன்கிழமைகளில் மட்டுமே ஆங்கிலப் படம் திரையிடப்படுவதால் அங்கே வருபவர்கள் உங்கள் வாடிக்கையாளராக இருக்கக் கூடும். இவ்வாறு ஒரு நிகழ்வுக்கான தொடர்பைக் கண்டுபிடிப்பதும், நினைவில் கொள்வதும் இயந்திரக் கற்றல் ஆகும். இதற்கு வழுநீக்கப்பட்ட தரவுகள் தேவை.

கற்க கசடற கற்பவை கற்றபின் நிற்க அதற்குத் தக. எனும் வள்ளுவப் பெருந்தகையின் குறளை நினைவு கூர்க.

சரி, மரபுவழியில் நாம் இதுகாறும் செய்து வந்த நிரலாக்கத்திற்கும், இப்போதைய இயந்திரக் கற்றலுக்கும் என்ன வேறுபாடு என்பதைக் காண்போம்.

மரபுவழி நிரலாக்கம் என்பது நாம் பல ஆண்டுகளாகப் பயன்படுத்தி வரும் முறையாகும். இதில், ஒரு நிரலர் (Programmer) ஒரு சிக்கலைத் தீர்ப்பதற்குத் தேவையான ஒவ்வொரு தர்க்கரீதியான படியையும் (logic), விதியையும் (rule) கணினிக்குக் கட்டளைகளாக எழுதுகிறார்.

கணினியும், கொடுக்கப்பட்ட தரவை (Input Data) எடுத்து, மனிதர் எழுதிய அந்த நிரலின் (Program / Rules) மீது அவர் குறிப்பிட்ட விதிகளின்படி செயல்பட்டு, ஒரு வெளியீட்டை (Output) வழங்குகிறது.

இயந்திரக் கற்றலிலோ நிரலர் விதிகளை வழங்குவதில்லை. நாம் வழங்கும் தரவிலிருந்தே இயந்திரம் விதிகளை உருவாக்குமாறு நிரலமைக்கப்பட்டுள்ளது! ஆக இயந்திரக் கற்றலுக்கும் மரபுவழி நிரலாக்கத்திற்கும் இடையேயான அடிப்படை வேறுபாடு விதிகளை யார் உருவாக்குகின்றார்கள் என்பதில் உள்ளது. விதிகளை நிரலர் உருவாக்கினால் மரபுவழி நிரலாக்கம். அதுவே கணினி உருவாக்கிக் கொண்டால் அது இயந்திரக் கற்றல். எனவே, இயந்திரக் கற்றல் என்பது நிரலாக்கத்தின் ஒரு புதிய பரிணாம வளர்ச்சியாகும். இதில் நாம் கணினிக்கு "என்ன செய்ய வேண்டும்" என்று சொல்வதை விடுத்து, "எப்படி கற்றுக்கொள்ள வேண்டும்" என்று சொல்கிறோம்.

கீழே இவ்விரண்டிற்கும் இடையேயான மற்ற வேறுபாடுகள் பட்டியலிடப்பட்டுள்ளன.

அம்சம் மரபுவழி நிரலாக்கம் இயந்திரக் கற்றல்
முக்கிய உள்ளீடு விதிகள் / தர்க்கம் (மனிதரால்) தரவு / எடுத்துக்காட்டுகள் (மனிதரால்)
முக்கிய வெளியீடு பதில்கள் (Answers) விதிகள் / மாதிரி (Model)
தர்க்கம் (Logic) வெளிப்படையாக நிரல் எழுதப்பட்டது (Explicit) தரவிலிருந்து ஊகிக்கப்பட்டது (Implicit)
மாற்றங்கள் விதிகளை மனிதர் மாற்றும் வரை மாறாது. புதிய தரவு வரும்போது சுயமாகத் தகவமைக்கும்
பயன்பாடு வரையறுக்கப்பட்ட பணிகள் (எ.கா. வணிக நடவடிக்கை இடுதல்) சிக்கலான, கணிக்க முடியாத பணிகள் (e.g., முகத்தை அறிதல், மொழிபெயர்ப்பு)

திறந்த மூல நிரலிமொழியான பைத்தான் மொழியில் இலவசமாக கிடைக்கும் சில இயந்திரக் கற்றல் நிரலமைப்புகள் இவை: • Scikit-learn, TensorFlow, Keras, PyTorch, XGBoost, LightGBM, NLTK (Natural Language Toolkit), Gensim, Hugging Face Transformers, OpenCV (Open Source Computer Vision Library)

இதன் மூலம் நீங்களே உங்கள் கணினியில் சிறிய முறையில் இயந்திரக் கற்றலை உருவாக்கலாம்.


Author: ரத்தினகிரி

ரத்தினகிரி சுப்பையா

-பட்டயக் கணக்காளர் - ஆசிரியர் - தரவு பகுப்பாய்வு ஆர்வலர்