எதிலும் எதிர்மறையாகவே யோசிக்க வைக்கும். நமது அனுபவங்களிலிருந்து நினைத்துப் பார்த்து ஒரு புன்முறுவல் பூக்க வைக்கும். அத்தகைய மர்பி விதிகளைப் பற்றி 30 ஆண்டுகளுக்கு முன்பு எனக்கு அறிமுகமானதிலிருந்து இன்று வரை அதன் மீது ஒரு ஈர்ப்பு உண்டானது.
கற்றதைத் தமிழில் கொணர்வோம் என்றெண்ணிப் பல ஆண்டுகளுக்கு முன்பு 1600+ மர்பி விதிகளைத் தேடிக் கண்டறிந்து தமிழில் மொழி பெயர்த்து வைத்திருந்தேன். சில ஆண்டுகளுக்கு முன்பு ஆண்டிராய்டு செயலியாக வெளியிட்டிருந்தாலும் இன்றைய செய்யறிவு காலத்தில் தேவைப்படும் என்றே அவ்வாறு தொகுத்து வைத்திருந்தேன் போலும்!
எனது வன்தட்டில் எங்கோ ஒரு மூலையில் சேமித்து வைத்திருந்ததை இன்று தூசு தட்டி எடுத்து மீண்டும் வாசித்துப் பார்க்கையில் ஒரு யோசனை! எனது இந்தத் தொகுப்பை ஒரு செய்யறிவு மாதிரிக்குப் பயிற்சி கொடுத்து விட்டால் இதைப் போல் இதே நடையில் எத்தனை மர்பி விதிகளை வேண்டுமானாலும் இன்று உருவாக்க இயலுமே என்றெண்ணிக் களத்தில் இறங்கினேன். இதன் மூலம் எவ்வாறு நாமே நமது தரவைக் கொண்டு ஒரு செய்யறிவு மாதிரியைப் பயில்விப்பது என்றும் கற்றுக் கொள்ளலாம் அல்லவா?
இயல்மொழிப் பயன்பாட்டுக்கான இன்றைய ஆக்கச் செய்யறிவின் எந்த ஒரு மாதிரியையும் ஆதாரமாகக் கொண்டு இவ்வாறு பயில்விக்க இயலும் என்றாலும் அவையாவும் ஆங்கிலத்தை அடிப்படையாகக் கொண்டவை. எனவே தமிழில் மர்பி விதிகளை உருவாக்க ஒரு தமிழ் அடிப்படை மாதிரி இருந்தால் தான் தமிழில் அதற்கென்று உரித்தான சொற்களைக் கொண்டு பயில்விக்க முடியும் என்று தெரிந்து கொண்டேன்.
இயல் மொழிப் பயன்பாட்டுக்கான பெருமொழி மாதிரிகளில் தமிழுக்கான 16000 வில்லைகளைக் கொண்டு அபிநந்த் பாலச்சந்திரன் அவர்கள் தயாரித்து வைத்திருக்கும் tamil-llama-7b-instruct-v0.2 பெருமொழி மாதிரியை ஆதாரமாக வைத்துக் கொண்டு பயிற்சியை ஆரம்பிக்க கூகுள் ஜெமினையின் துணையை நாடினேன். இது போன்ற பெருமொழி மாதிரிகளை நமக்கேற்றவாறு துல்லியமாக ஒத்தியைவு செய்வதற்கு LoRa (Low Rank Adaptation) எனப்படும் முறை இருக்கின்றது. ஒரு பொதுவான AI மாதிரியை (Large Language Model) எடுத்து, அதைத் தமிழ் இலக்கியம், மருத்துவம், அல்லது குறிப்பிட்ட வாடிக்கையாளர் சேவை போன்ற ஒரு குறிப்பிட்ட துறைக்கான தரவுகளைக் கொண்டு மேலும் பயிற்சி அளித்து, அதன் செயல்திறனை மேம்படுத்துவதே ஒத்தியைவு ஆகும்.
நமது கணினியில் இருக்கும் நினைவுத் திறன் போதாது என்பதால் கூகுள் கோலாப் எனப்படும் இலவச தொழில்நுட்ப மையத்தில் வைத்து ஒரு T4 கிராஃபிக்ஸ் கார்டு கொண்ட ஒரு மெய்நிகர் கணினியில் பைதான் கட்டளைகளின் மூலம் அபிநந்த்தின் தமிழ் மொழி மாதிரியை அடிப்படையாகக் கொண்டு எனது மர்பி விதிகளின் மொழிபெயர்ப்புத் தொகுப்பை அதன் தலைப்புக்கு ஏற்றவாறு பட்டியலிட்டு ஒரு CSV கோப்பாக்கிப் பயிற்சியை ஆரம்பித்தேன். அரை மணி நேரத்தில் கணினி மர்பி விதிகளைப் பற்றியும் அதை எவ்வாறு தமிழில் மொழிபெயர்க்கலாம் என்றும் கற்றுக் கொண்டது. பின் அதனை அபிநந்த்தின் மாதிரியுடன் இணைத்து நமது சாதாரணக் கணினியிலும் LMStudio போன்ற மென்பொருட்களிலும் இயங்கும் வண்ணம் தமிழ் மர்பி மொழி மாதிரி தயாரானது. அதை https://huggingface.co/Rathinagiri/Tamil_Murphy/blob/main/tamil_murphy-llama-7b-instruct-v0.2.Q4_K_M.gguf என்ற இணைப்பில் தரவேற்றி (4.18 GB) யார் வேண்டுமானாலும் தரவிறக்கிப் பயன்படுத்திக் கொள்ள ஒரு பைதான் செயலியையும் உருவாக்கி இப்பக்கத்தில் ஏற்றியாயிற்று!
பயிற்சி பெற்ற நமது செய்யறிவு மாதிரி எவ்வாறு இயங்குகின்றது என்று பரிசோதித்துப் பார்த்ததில் ஆச்சரியம் கலந்த அதிர்ச்சி காத்திருந்தது! 60% முதல் 80% வரை செய்யறிவு உருவாக்கிய மர்பி விதிகள் சிறப்பானதாக இருக்கின்றன! எதிர்காலத்தில் செய்யறிவின் இது போன்ற பயன்பாடுகளை நினைத்துப் பார்த்தால் மலைப்பு தான் மிஞ்சுகின்றது.
எடுத்துக்காட்டாக சில:
அரசியல் எனும் தலைப்பில்:
- தீக்கு தீ மூட்டுவது எவ்வளவு கஷ்டம் என்பது உங்களுக்குப் புரியும். அதைத் தான் மக்கள் தேர்தலில் வாக்களிப்பதன் மூலம் செய்கின்றார்கள்.
- இசைக்கு மட்டும் தான் அரசு மானியம். ஆனால் அது எத்தனை பேருக்கு கிடைக்கும் தெரியுமா?
- இரு தரப்பினருக்கும் இடையே பகை இருக்க வேண்டும். அப்போது தான் இரு தரப்பிலும் இருந்து ஒரு குழு மாறி வரும் வரை பிரச்சனைகள் எதுவும் எழாது.
- எத்தனை முறை தேர்தல் வந்தாலும், எத்தனை முறை ஆட்சி செய்தாலும் எந்தக் கட்சியும் ஆட்சி செய்வது மக்களுக்குத்தான். மக்கள் எந்த விதத்திலாவது வாழத் தயாராக மாட்டார்கள் என்பதே உண்மை.
- இறுதித் தேர்தலின் போது மக்கள் தேர்தல் ஆணையத்தை நம்புவார்கள்.
- ஒரு கட்சிக்குள் இரண்டு வகை தலைவர்கள் இருப்பார்கள். முதலாவதாக, கட்சி தொடங்கும் முன் முதல் ஆளாகச் சேர்ந்தவன். இரண்டாவதாக, கட்சி தொடங்கியவுடன் வந்தவன்.
- ஒரு கட்சி 10 ஆண்டுகள் ஆட்சியில் இருந்தால், அதில் 4 ஆண்டுகாலம் எதிர்க்கட்சி என்று ஆகிவிடும்.
- ஒரு நாட்டில் உள்ள மக்களுக்கு ஆளுங் கட்சியின் தலைவர் தான் நாட்டின் தலைவர் என்பதை உறுதி செய்வது அரசின் பொறுப்பு.
- பொறுப்பில் இருக்கும் அரசியல்வாதிகள் ஊழல் செய்கிறார்கள். தேர்தலில் நிற்கும் அரசியல்வாதிகளை ஊழல் செய்ய வைக்கிறார்கள்.
- நீங்கள் ஒரு தலைவனாக இருந்தால், நீங்கள் ஒரு திருடனாகவும் ஆகிவிடுவீர்கள்.
- என்ன இருந்தாலும் நம் கட்சி ஒரு நல்ல கட்சிதான்.
- அரசாங்கம் என்ன செய்கிறது, எதற்காகச் செயல்படுகிறது என்று தெரியாதவர்களே அதிகம் இருப்பார்கள்.
- அரசாங்கத்தின் கொள்கைகள் மக்கள் விரும்பும் கொள்கைகள் அல்ல. மாறாக, அரசாங்கங்கள் விரும்புவவை தான்.
- எளிமையான முறையில் சொல்வதானால் ஒரு நாட்டின் பொருளாதாரம் வேகமாக வளரும் போது அது எவ்வளவு பலவீனமாக உள்ளது எனலாம்.
- அரசியல் கட்சிகள் தங்கள் தலைவர்கள் என்ன பேசுவார்கள் என்று நினைப்பதில்லை. அவர்கள் எவ்வளவு நேரம் பேசலாம் என்பதில் தான் உறுதியாக உள்ளனர்.
உங்கள் கணினியில் நிறுவி எவ்வாறு பயன்படுத்துவது?
- https://huggingface.co/Rathinagiri/Tamil_Murphy/blob/main/tamil_murphy-llama-7b-instruct-v0.2.Q4_K_M.gguf இந்தத் தொடுப்பிலிருக்கும் இந்தக் கோப்பையும் app.py எனும் கோப்பையும் தரவிறக்கிக் கொள்ளவும்.
- LMStudio வை நிறுவிக் கொண்டு மேலே கண்ட பெருமொழி மாதிரியை ஏற்றிக் கொண்டு அதை வழங்கியாக அமைத்துக் கொள்ளவும்.
- பைதான் மொழியில் தேவையான நூலகங்களைத் தரவிறக்கி நிறுவிக் கொள்ளவும். (pip install requests)
- python app.py என்று செயலியை இயக்கினால் அதுவே நாம் கொடுக்கும் எந்த ஒரு தலைப்பிலும் எத்தனை மர்பி விதிகள் வேண்டுமானாலும் உருவாக்கிக் கொள்ள வகை செய்யுமாறு அமைக்கப்பட்டுள்ளது. மேலும் தேவையானதைத் திருத்தவும், தேர்ந்தெடுக்கவும் தலைப்புவாரியாகச் சேமித்து வைக்கவும் செய்யும்!
இதில் மற்றொரு ஆச்சரியம் என்னவென்றால் இதில் ஒரு வரி நிரலாக்கம் கூட நான் செய்யவில்லை. செய்யறிவைக் கொண்டே செய்யறிவைப் பயில்வித்து செய்யறிவு கொண்டே நிரலாக்கமும் செய்ய முடிந்தது. ஆக, உங்களிடம் சிறந்த படைப்புகள்/தொகுப்புகள்/தரவு இருந்ததென்றால் காத்திராமல் செய்யறிவு பயிற்சிக்கு ஆயத்தமாகுங்கள்!
இந்தச் செயலி மூலமாக, சிறந்த விதிகளைத் தேர்ந்தெடுத்து (Curation), மீண்டும் அந்தத் தரவைக் கொண்டு இந்த மாடலை இன்னும் புத்திசாலியாக மாற்ற முடியும்.