தரவுச் சுரங்கம் - 32

தரவுச்சுரங்கம் – 32

தொழில் தொடர்பான எந்த ஒரு சிக்கலான கேள்விக்கும் பதிலளிக்கும் வண்ணம் நமது தரவு மாதிரியை அமைக்க வேண்டும் என்பது குறித்து முந்தைய பகுதியில் கண்டோம். அத்தகைய தரவு மாதிரி பின்புலத்தில் இயங்குகின்றது. அப்படியானால் முன்புலத்தில் அதை எவ்வாறு பயனர்களுக்குக் காட்டுவது என்ற கேள்வி எழுகின்றது. தரவுப் பரிமாணங்களின் பரிணாம வளர்ச்சியைக் காண்பதற்குச் சற்றே வரலாற்றைத் திரும்பிப் பார்க்க வேண்டியிருக்கின்றது.

தொழிற்புரட்சிக்கு முன்னர் தரவைப் பற்றியெல்லாம் யாருக்கும் அவ்வளவு அக்கறையிருந்திருக்குமா என்று தெரியவில்லை. பண்ட மாற்று முறையின் போது பண்டங்களுக்கு மதிப்பே இல்லை. நாணயங்களும் நோட்டுகளும் புழக்கத்தில் வந்த பின்னரே மதிப்பு வந்தது. இருந்தாலும் மனிதன் தான் குகையில் இருக்கும் போதே தன்னைச் சுற்றி நிகழும் நிகழ்வுகளைக் குறித்து வைக்கும் பழக்கத்தைக் கொண்டிருந்திருக்கின்றான். காகிதங்கள் கண்டறிந்த பின்னர் செய்திகள் காகிதங்களில் குறித்து வைக்கப் பட்டன. எனவே கணினி கண்டுபிடிக்கும் வரை காகிதங்களில் மட்டுமே பகுப்பாய்வு இருந்தது. அட்டவணை/பட்டியல்களின் பயன்பாடு என்பது வரலாற்றுக்கு முற்பட்டது. செய்திகளைத் தரம் பிரித்து ஒன்றுக் கொன்று தொடர்பான செய்திகளைத் தொகுத்து ஒரு வரிசைக்கு ஒரு செய்தி என்றும் ஒவ்வொரு செய்தியிலும் ஒத்த வகையான அம்சங்களை நெடுவரிசையிலும், கட்டங்களில் இட்டு அதற்கு தலைப்பிடும் பட்டியலைக் கண்டறிந்தவர் எந்தப் புண்ணியவானோ?!

அவ்வாறான பட்டியல்கள் என்னும் தரவுப் பழத்தைப் பிழிந்து சாறெடுக்க உதவிய பகுப்பாய்வின் முதல் அமைப்பு குறுக்குப் பட்டியல் முறை ஆகும். அதாவது வரிசையில் இருக்கும் அம்சங்களைக் குறுக்கே நெடுவரிசையில் தலைப்புகளாக மாற்றி எண்களைக் கூட்டி வரிசையும் நெடுவரிசையும் சந்திக்கும் கட்டத்தில் அதன் கூட்டுத் தொகையினை இடுவதன் மூலம் ஒரு எண்ணைக் கொண்டு இரண்டு அம்சங்களைச் சுட்ட வைக்க முடியும் அல்லவா? இதன் மூலம் மிகப் பெரிய பட்டியல்களைச் சுருக்கி அந்த மொத்தப் பட்டியலின் சாரத்தையும் காண முடிந்தது. இந்தக் குறுக்குப் பட்டியல் முறை காகிதத்தில் பகுப்பாய்வு நடத்துவதற்கு ஏதுவாக இருந்தது.

• எடுத்துக்காட்டு: ஒரு நிறுவனம் நான்கு மண்டலங்களில் (வடக்கு, தெற்கு, கிழக்கு, மேற்கு), மூன்று பொருட்களை (TV, Fridge, AC) விற்கிறது. • இதை அறிய, நாம் ஒரு பக்கம் மண்டலங்களையும், மறுபக்கம் பொருட்களையும் எழுதுவோம். • இந்த இரண்டும் சந்திக்கும் இடத்தில் விற்பனைத் தொகையை நிரப்புவோம்.

இது பார்ப்பதற்கு எளிமையாக இருக்கும். "தெற்கு மண்டலதில், TV விற்பனை எவ்வளவு?" என்று கேட்டால், விரலை வைத்து உடனே சொல்லிவிடலாம். இதுதான் Cross-tab எனும் குறுக்குப் பட்டியல்.

கணினி கண்டுபிடிக்கப்பட்ட பின்னர் இவ்வாறான பட்டியல்கள் எளிதாக உருவாக்க முடிந்தது. காலப்போக்கில் வணிகர்களின் தேவைகள் அதிகரித்தன. "எனக்கு மண்டலம் வாரியாக வேண்டாம், தயாரிப்பு வாரியாக வேண்டும்" என்பார்கள். அல்லது "வரிசையை நெடுவரிசையாகவும், நெடுவரிசையை வரிசையாகவும் மாற்றிப் பார்க்க வேண்டும்" என்பார்கள்.

enter image description here இதற்கு உதவியதுதான் Pivot (சுழல் அச்சு) முறை. ஒரு கதவு எப்படி அதன் கீலை (கீல் - இரண்டு திடப் பொருட்களை இணைத்து, ஒரு குறிப்பிட்ட அச்சில் சுழல அனுமதிக்கும் ஒரு இயந்திர தாங்கி.) மையமாக வைத்துச் சுழல்கிறதோ, அதேபோலத் தரவை மையமாக வைத்து, வரிசை-நெடுவரிசைகளைத் தேவைக்கேற்பச் சுழற்றிப் பார்க்கும் வசதி இது. மின்விரிதாள் மென்பொருளின் ஆகச்சிறந்த கண்டுபிடிப்பு இது எனலாம்! இவ்வாறு இருபரிமாணங்களில் தரவைச் சுழற்றிச் சுழற்றிப் பார்க்கும் பகுப்பாய்வு முறை இப்போது வரை நமக்குப் பயனளிப்பதாக இருக்கின்றது.

மேலே கண்ட இரண்டு முறைகளிலும் ஒரு சிக்கல் உள்ளது. இவற்றால் ஒரே நேரத்தில் இரண்டு பரிமாணங்களை (X-axis, Y-axis) மட்டுமே கையாள முடியும். வணிகமோ பல பரிமாணங்களைக் கொண்டு இயங்குவது. பல முனைகளில் இருந்து வணிகத்தைக் கண்ணுறும் போதே நம்மால் இந்தப் போட்டி நிறைந்த உலகில் சமாளிக்க முடியும் என்ற நிலை வந்த போது சுழல் அச்சுமுறையின் இருபரிமாணங்களைத் தாண்டி பல பரிமாணங்களைக் கண்டறிய முடிகின்ற தரவுப் பகுப்பாய்வின் பரிணாம வளர்ச்சியே கனத்தரவு ஆகும்.

ஒரு மேலாளரின் கேள்வி இப்படியும் இருக்கலாம்:

"சென்னை கிளையில் (இடம்), 2024 ஆம் ஆண்டில் (காலம்), சாம்சங் டிவியின் (பொருள்) விற்பனை எவ்வளவு?" இங்கே பாருங்கள்: இடம், காலம், பொருள் என மூன்று பரிமாணங்கள் வந்துவிட்டன! இதை ஒரு சாதாரண 2D அட்டவணையில் காட்ட வேண்டுமென்றால், பல அட்டவணைகளை உருவாக்க வேண்டும் அல்லது வடிகட்டிகளை (Filters) பயன்படுத்த வேண்டும். இது குழப்பத்தை விளைவிக்கும்.

இங்குதான் கனத் தரவு (Data Cube) அல்லது OLAP Cube அவதாரம் எடுக்கிறது.

கணிதத்தில் ஒரு சதுரத்திற்கும் (Square), ஒரு கனசதுரத்திற்கும் (Cube) என்ன வித்தியாசம்? சதுரம் தட்டையானது (2D). கனசதுரம் ஆழம் கொண்டது (3D).

நாம் மேலே கேட்ட கேள்வியை ஒரு ரூபிக்ஸ் கியூப் (Rubik's Cube) கொண்டு கற்பனை செய்யுங்கள்:

• பரிமாணம் 1 (அகலம்): பொருட்கள் (Products) • பரிமாணம் 2 (உயரம்): இடங்கள் (Locations) • பரிமாணம் 3 (ஆழம்): காலம் (Time - Year/Month)

இந்த மூன்றும் சந்திக்கும் அந்தச் சிறிய கனசதுரப் பெட்டிக்குள் (Cell) இருப்பதுதான் "விற்பனைத் தொகை" enter image description here

இப்போது மேலாளர் எந்தக் கேள்வி கேட்டாலும்—மூன்று பரிமாணங்களில் மட்டுமல்ல, நான்கு, ஐந்து என எத்தனை பரிமாணங்கள் (N-Dimensions) இருந்தாலும்—இந்த கனத் தரவு முறையால் நொடிப்பொழுதில் விடையளிக்க முடியும். (4 பரிமாணங்களை நம்மால் வரைந்து பார்க்க முடியாது, ஆனால் கணித ரீதியாகக் கணினியால் கையாள முடியும்).

enter image description here

இந்தக் கனத்தரவு முறைக்கு ஏற்றவாறு நமது தரவு மாதிரிகளை அமைப்பதற்கு இன்றைய நவீன ஊடாடும் தொழில்நுட்பக் கருவிகளில் வசதிகள் இருக்கின்றன. அவற்றைப் பற்றி அடுத்து வரும் பகுதிகளில் ஒவ்வொன்றாகக் காணலாம்.


Author: ரத்தினகிரி

ரத்தினகிரி சுப்பையா

-பட்டயக் கணக்காளர் - ஆசிரியர் - தரவு பகுப்பாய்வு ஆர்வலர்