தரவுச் சுரங்கம் - 36

தரவுச்சுரங்கம் – 36

கனத் தரவு (Data Cube) என்பது வெறும் தகவல்களின் குவியல் அல்ல; அது ஒரு பலபரிமாணக் கருவூலம் என்பதை முந்தைய பகுதிகளில் கண்டோம். அதில் பொதிந்திருக்கும் நாம் முடிவெடுக்க உதவக்கூடிய நுணுக்கமான உண்மைகளைக் கண்டு கொள்வதற்காக இந்தக் கனத்தரவில் நாம் செய்ய முடிகின்ற சில செயல்பாடுகள் குறித்து இந்தப் பகுதியில் காண்போம். ஒரு பொருளை ஆராய்ச்சி செய்வதற்கு ஒரு அறிவியலாளர் பல முறைகளைக் கையாளுகின்றார். வானத்தில் நட்சத்திரக் கூட்டங்களைக் காண்பதற்கு தொலைநோக்கியும், அணு அளவில் நுணுக்கமாகக் காண்பதற்கு நுண்ணோக்கியும் கருவிகளாகக் கொண்டிருக்கின்றார். அதே போல் நாம் கனத்தரவில் ஐந்து முக்கியச் செயல்பாடுகள் செய்ய இயலும். அவற்றுள் முதல் மூன்றைப் பற்றி இங்கே காண்போம்.

  1. அச்சு அமைப்பு (Pivoting)

இது தரவை நாம் பார்க்கும் கோணத்தை மாற்றுவது ஆகும். ஒரு தரவு அட்டவணையில் வரிசையாக (Rows) இருப்பவற்றை நிரலாகவும் (Columns), நிரலாக இருப்பவற்றை வரிசையாகவும் இடம் மாற்றிப் பார்ப்பது. இதில் தரவு மாறுவதில்லை, ஆனால் நாம் பார்க்கும் விதம் மாறுவதால் புதிய வணிக நுண்ணறிவு (Insights) கிடைக்கும். ஒரு இருபரிமாணக் கணினித் திரையில் ஒரு பலபரிமாண கனத்தரவினைக் காண இயலாது அல்லவா? நமக்குத் தெரிவது கனத்தரவின் ஒரு முகம் மட்டுமே. அதை நமக்குத் தேவையானவாறு ஏதேனும் ஒரு அச்சில் சுழற்றுவதன் மூலம் வேறு ஒரு கோணத்தில் நம்மால் காண முடியும்.

• உதாரணம்: ஒரு விற்பனை அறிக்கையில் 'பொருட்கள்' வரிசையிலும் 'ஆண்டுகள்' மேலேயும் (Column) இருப்பதாகக் கொள்வோம். இப்போது 'ஆண்டுகளை' வரிசைக்கும், 'பொருட்களை' மேலேயும் மாற்றினால், ஒரு குறிப்பிட்ட ஆண்டில் எல்லாப் பொருட்களும் எப்படிச் செயல்பட்டன என்பதை எளிதாக ஒப்பிட முடியும்.

Pivoting

  1. பகடை/பாய்ச்சிகை (Dicing) பெயருக்கு ஏற்றாற்போல், ஒரு பெரிய கனசதுரத்திலிருந்து ஒரு சிறிய கனசதுரத்தை (Sub-cube) வெட்டி எடுப்பதே பகடை/பாய்ச்சிகை ஆகும். இதில் நாம் இரண்டு அல்லது அதற்கு மேற்பட்ட பரிமாணங்களில் (Dimensions) வடிகட்டல்களை (Filters) மேற்கொள்கிறோம்.

• உதாரணம்: நம்மிடம் 5 வருட விற்பனைத் தரவு, 10 நகரங்கள் மற்றும் 50 பொருட்கள் உள்ளன என்று வைப்போம். அதிலிருந்து "கடந்த 2 ஆண்டுகளில், சென்னை மற்றும் மதுரை கிளைகளில், மின்னணு சாதனங்கள் மட்டும் எவ்வளவு விற்றன?" என்று பார்ப்பது 'Dicing' ஆகும். இங்கே நாம் காலம், இடம், பொருள் ஆகிய மூன்று பரிமாணங்களிலும் கட்டுப்பாடுகளை விதிக்கிறோம்.

Dicing

  1. துண்டாடுதல் (Slicing) ஒரு முழு ரொட்டித் துண்டிலிருந்து ஒரே ஒரு பகுதியை மட்டும் தனியாக வெட்டி எடுப்பது போன்றது இது. பல பரிமாணங்கள் கொண்ட கனத் தரவில், ஒரே ஒரு பரிமாணத்தை மட்டும் தேர்ந்தெடுத்து மற்றவற்றை ஒதுக்கி விட்டுத் தரவைப் பார்ப்பது 'Slicing' எனப்படும்.

• உதாரணம்: "இந்த வருடம் முழுவதிலும் நடந்த மொத்த விற்பனை என்ன?" என்று பார்ப்பது. இங்கே நாம் 'காலம்' (Time) என்ற ஒரே ஒரு பரிமாணத்தை (Slice) மட்டும் எடுத்துக்கொண்டு மற்ற அனைத்துப் பரிமாணங்களையும் அதன் உள்ளே அடக்கி விடுகிறோம். இது ஒரு மெல்லிய தகடு போன்ற தரவுப் பார்வையை வழங்கும்.

Slicing

ஒப்பீடு:

செயல்பாடு நோக்கம் விளக்கம்
அச்சு பார்வையைத் திருப்புதல் தலையைச் சாய்த்துப் பார்ப்பது போல
துண்டு ஒரு பரிமாணத்தை மட்டும் எடுத்தல் ஒரு பக்கத்தை மட்டும் வெட்டுவது
பகடை பல பரிமாணங்களைச் சேர்த்து எடுத்தல் ஒரு சிறு துண்டைத் தனியாக எடுப்பது

Related posts

Published by

ரத்தினகிரி

ரத்தினகிரி

ரத்தினகிரி சுப்பையா

-பட்டயக் கணக்காளர் - ஆசிரியர் - தரவு பகுப்பாய்வு ஆர்வலர்