தரவுச் சுரங்கம் - 20

ஓராண்டுத் தரவை மட்டும் ஆய்வு செய்யும் போது எந்தப் பெரிய குழப்பமும் நேர்வதில்லை. ஆனால், ஓராண்டுத் தரவை மட்டும் ஆய்வு செய்தால் ஒரு துணியின் தன்மையைப் பற்றி அறிந்து கொள்ள அதன் ஒரு நூலை மட்டும் எடுத்து அறிந்து கொள்ள முனைவது போலாகும். ஒரு துணியின் சீரான வடிவமைவும் பாங்கும் (Pattern), நிறங்களும் கோடுகளும் பற்றி அறிந்து கொள்ள வேண்டுமாயின் ஒரு நூலை மட்டும் வைத்து முடிவுக்கு வர முடியாது. ஓராயிரம் நூற்களை இணைத்துப் பார்த்தால் உடனே அறிந்து கொள்ள முடியும். இதே முறையில் தான் பெருந்தரவும்(Big data) இயங்குகின்றது. எனவே பல ஆண்டுகளாக இயங்கும் ஒரு நிறுவனம், அது துவங்கிய நாளில் இருந்து தன் வசம் இருக்கும் தரவைச் சரியாகப் பயன்படுத்திக் கொள்ள வேண்டும் என்பது தான் தரவுச்சுரங்கத்தின் அடிப்படையாகும்.

பிரபல நிகழ்நிலை அசைபட இணையத் தளமான யூடியூபில் எவ்வாறு அவரவர்களுக்கு இயைந்தவாறு அசைபடம் பரிந்துரைக்கப்படுகின்றது? கோடிக்கணக்கான மக்களின் விருப்பங்களையும் ஆராய்ந்து அவ்வாறு முடிவெடுக்க எத்தனை ஆய்வுகள் பின்னால் நடைபெற்றிருக்க வேண்டும்? இதற்கெல்லாம் தேவை ஒரு தரவுக்கிட்டங்கி (Data Warehose). அதில் தரமாக்கப்பட்ட தரவு (Standardized Data) சீராய் தேவைக்குத் தகுந்தவாறு அடுக்கி வைக்கப்பட்டிருக்க வேண்டும். அது கோடிக்கணக்கான வரிகளைக் கொண்டு பல கணினிகளின் நினைவகங்களிலும் விரவி வைக்கப்பட்டிருக்கலாம். எனவே தான் அதைப் பெருந்தரவு என்று அழைக்கின்றோம். அதற்குண்டான வன்பொருள் (Hardware), மென்பொருள் (Software), முறைமை (Logic) அனைத்தும் தினந்தோறும் வளர்ந்து கொண்டே இருப்பதைக் கண்கூடாகக் காண முடிகின்றது. சாமான்னியர்களும் இந்தப் பெருந்தரவிலிருந்து தரவைத் தேவைக்கேற்ப எடுத்துக் கொள்ள ஏதுவாக பயன்பாட்டு நிரல் இடைமுகங்கள் (API – Application Program Interface) அனைத்து பிரபலமான சமூக ஊடகங்களுக்கும் கிடைக்கின்றன. எடுத்துக்காட்டாக ஒரு நிறுவனத்தைப் பற்றி பேஸ்புக்கில் என்ன பேசுகின்றார்கள் என்பதை ஒரு சிறு பைத்தான் மொழி நூலகப் பொதியின் மூலம் நமது கணினிக்கு எளிதாக நிகழ்நிலையில் கொண்டு வரமுடியும்.

இவ்வாறு பெருந்தரவைத் தொகுக்கும் போது அல்லது உருவாக்கும் போது நமக்கு ஏற்படும் இடையூறுகளை இந்தப் பகுதியில் காண்போம்.

மெதுவாய் மாறும் பரிமாணங்கள்: (Slowly Changing Dimensions - SCD) தரவை ஆய்வு செய்வதற்கு அதை நான்கு அம்சங்களாகப் பிரித்து அதில் ஒன்று தான் பரிமாணம் என்று பார்த்தோம். அந்தப் பரிமாணம் தான் நிலையானது என்றும். தரவு ஒரு நடவடிக்கையின் செய்திகளைச் சேகரிப்பது என்றால், அதற்கு அர்த்தம் உண்டாக்குவது பரிமாணம் என்றும் பார்த்தோம். ஆனால், இப்பூவுலகில் எதுவும் நிரந்தரமன்று என்பதை நாம் உணர்வோம்! அது போல் பரிமாணங்கள் நிரந்தரமாக இருப்பதில்லை. எடுத்துக்காட்டாக இன்று சென்னையில் இருக்கும் நமது வாடிக்கையாளர், அடுத்த ஆண்டு மதுரையில் குடியேறிவிடலாம். அதனால் அவர் நமது வாடிக்கையாளராக இல்லாது போக மாட்டார். இப்போது அவர் தொடர்பான தரவை சென்னையில் சேர்ப்பதா, மதுரையில் சேர்ப்பதா எனும் குழப்பம் நேரிடுகின்றது அல்லவா? இதைத் தான் மெதுவாய் மாறும் பரிமாணங்கள் என்கின்றனர். இதைச் சரி செய்ய நிறைய வழிமுறைகள் உள்ளன. வகை 0 லிருந்து வகை 7 வரை புதியதாக பல முறைகள் இருக்கின்றன. அதைச் சரி செய்யவில்லை என்றால் நமது ஆய்வு முடிவுகள் சரியானதாக இருக்காது.

தரவு நகல்கள்: (Duplicate data) ஒரு நிறுவனத்தின் மேலாளர் ஒவ்வொருவரும் அவர்களுக்கேற்றவாறு தரவுக் கிட்டங்கியினை வடிவமைத்தோ அல்லது பயன்படுத்தவோ முயலும் போது இயல்பாகவே ஒரே தரவு பல நகல்கள் எடுக்கப்பட்டு நிறுவனத்தின் கணினியை ஆக்கிரமிப்பு செய்து கொள்கின்றது. அதுவும் ஏற்கனவே பெருந்தரவே ஒரு பிரச்னை தான். அதை நகல்கள் வேறு எடுத்தால்? சொல்லவே தேவையில்லை!

தேவையா இல்லையா?: (Redundant Data) ஒரு சமயத்தில் தேவை என்று நினைக்கும் ஒன்று இன்னொரு சமயத்தில் தேவையில்லாததாகத் தோன்றுவதைக் காண்கின்றோம். தேவையான தரவு என்று தேவையில்லாததைச் சேர்த்து வைத்தாலும் பிரச்னை தான். தேவையில்லாத தரவு என்று தேவையானதை ஒதுக்கி வைத்து விட்டாலும் பிரச்னை தான். எனவே தேவை அறிந்து தரவைத் தரமாக்கம் செய்தல் வேண்டும்.

செலவினம்: ஒரு தரவுக்கிட்டங்கியை உருவாக்கி அதை நிர்வகித்து அதிலிருந்து பலன் பெறுவது என்பது அதிகமான செலவாகும்.எந்த ஒரு முயற்சியிலும் பலன் அறிந்து, அந்தப் பலனானது செலவை விட அதிகமாக இருக்கின்றதா என்று அறிந்து முன்னெடுப்பது காலத்தின் கட்டாயமாகும்!

சிக்கல்: ஒரு பெரு நிறுவனத்தின் அத்தனை தரவையும் தரமாக்க முற்படுவது அத்தனை எளிதானதல்ல. பல சிக்கல்களை வழிவகுக்கும். அனைத்திற்கும் ஏற்றவாறு வளைந்து கொடுத்துக் கொண்டே இருந்தால் பிள்ளையார் பிடிக்கக் குரங்காகவும் மாறிவிடக்கூடும்.

நேரவிரையம்: ஏற்கனவே குறிப்பிட்டது தரவு பகுப்பாய்வு அதிக நேரம் எடுத்துக் கொள்ளும். அதற்கான பொறுமை மிகவும் முக்கியமாகும். அதே போன்று தான் தரவுக்கிட்டங்கியில் தரவை நேர்த்தியாக அடுக்கி வைப்பதற்கும் நேரமாகும்.

பொருந்தாத் தரவு: (Irrelevant Data) பல்லாண்டுத் தரவுகளைச் சேமித்து ஆய்வு செய்யும் போது மிகவும் பழமையான தரவு தேவைப்படாமலும் பொருந்தாலும் போகலாம். ‘பழையன கழிதலும் புதியன புகுதலும் வழுவல’ என்பது தரவுத் தரமாக்கத்துக்கும் பொருந்தும்!

பாதுகாப்பு: ஒரு நிறுவனத்தின் ஒட்டுமொத்தத் தரவும் ஓரிடத்தில் சேர்த்து வைப்பதென்றால் அதை எவ்வாறு பாதுகாக்க வேண்டும் என்னும் பிரச்னையும் உடனே வந்து விடுகின்றது. தேவையானவர்கள் மட்டுமே தேவையான தரவைப் பார்க்க முடியவேண்டும் என்பதும், தனியுரிமையைப் பேண வேண்டும் என்பதும் மிகப் பெரிய சவாலாக அமைகின்றது.

இவ்வாறு பல இடையூறுகள் வந்தாலும் தரவுக்கிடங்கின் நன்மைகளைக் கணக்கில் கொண்டால், தரவுக்கிடங்கின் மேன்மை நமக்குத் தெரியவரும். அதை அடுத்த பகுதியில் காண்போம்!


Author: ரத்தினகிரி

ரத்தினகிரி சுப்பையா

-பட்டயக் கணக்காளர் - ஆசிரியர் - தரவு பகுப்பாய்வு ஆர்வலர்