தரவுச்சுரங்கம் – 32
தொழில் தொடர்பான எந்த ஒரு சிக்கலான கேள்விக்கும் பதிலளிக்கும் வண்ணம் நமது தரவு மாதிரியை அமைக்க வேண்டும் என்பது குறித்து முந்தைய பகுதியில் கண்டோம். அத்தகைய தரவு மாதிரி பின்புலத்தில் இயங்குகின்றது. அப்படியானால் முன்புலத்தில் அதை எவ்வாறு பயனர்களுக்குக் காட்டுவது என்ற கேள்வி எழுகின்றது. தரவுப் பரிமாணங்களின் பரிணாம வளர்ச்சியைக் காண்பதற்குச் சற்றே வரலாற்றைத் திரும்பிப் பார்க்க வேண்டியிருக்கின்றது.
தொழிற்புரட்சிக்கு முன்னர் தரவைப் பற்றியெல்லாம் யாருக்கும் அவ்வளவு அக்கறையிருந்திருக்குமா என்று தெரியவில்லை. பண்ட மாற்று முறையின் போது பண்டங்களுக்கு மதிப்பே இல்லை. நாணயங்களும் நோட்டுகளும் புழக்கத்தில் வந்த பின்னரே மதிப்பு வந்தது. இருந்தாலும் மனிதன் தான் குகையில் இருக்கும் போதே தன்னைச் சுற்றி நிகழும் நிகழ்வுகளைக் குறித்து வைக்கும் பழக்கத்தைக் கொண்டிருந்திருக்கின்றான். காகிதங்கள் கண்டறிந்த பின்னர் செய்திகள் காகிதங்களில் குறித்து வைக்கப் பட்டன. எனவே கணினி கண்டுபிடிக்கும் வரை காகிதங்களில் மட்டுமே பகுப்பாய்வு இருந்தது. அட்டவணை/பட்டியல்களின் பயன்பாடு என்பது வரலாற்றுக்கு முற்பட்டது. செய்திகளைத் தரம் பிரித்து ஒன்றுக் கொன்று தொடர்பான செய்திகளைத் தொகுத்து ஒரு வரிசைக்கு ஒரு செய்தி என்றும் ஒவ்வொரு செய்தியிலும் ஒத்த வகையான அம்சங்களை நெடுவரிசையிலும், கட்டங்களில் இட்டு அதற்கு தலைப்பிடும் பட்டியலைக் கண்டறிந்தவர் எந்தப் புண்ணியவானோ?!
அவ்வாறான பட்டியல்கள் என்னும் தரவுப் பழத்தைப் பிழிந்து சாறெடுக்க உதவிய பகுப்பாய்வின் முதல் அமைப்பு குறுக்குப் பட்டியல் முறை ஆகும். அதாவது வரிசையில் இருக்கும் அம்சங்களைக் குறுக்கே நெடுவரிசையில் தலைப்புகளாக மாற்றி எண்களைக் கூட்டி வரிசையும் நெடுவரிசையும் சந்திக்கும் கட்டத்தில் அதன் கூட்டுத் தொகையினை இடுவதன் மூலம் ஒரு எண்ணைக் கொண்டு இரண்டு அம்சங்களைச் சுட்ட வைக்க முடியும் அல்லவா? இதன் மூலம் மிகப் பெரிய பட்டியல்களைச் சுருக்கி அந்த மொத்தப் பட்டியலின் சாரத்தையும் காண முடிந்தது. இந்தக் குறுக்குப் பட்டியல் முறை காகிதத்தில் பகுப்பாய்வு நடத்துவதற்கு ஏதுவாக இருந்தது.
• எடுத்துக்காட்டு: ஒரு நிறுவனம் நான்கு மண்டலங்களில் (வடக்கு, தெற்கு, கிழக்கு, மேற்கு), மூன்று பொருட்களை (TV, Fridge, AC) விற்கிறது. • இதை அறிய, நாம் ஒரு பக்கம் மண்டலங்களையும், மறுபக்கம் பொருட்களையும் எழுதுவோம். • இந்த இரண்டும் சந்திக்கும் இடத்தில் விற்பனைத் தொகையை நிரப்புவோம்.
இது பார்ப்பதற்கு எளிமையாக இருக்கும். "தெற்கு மண்டலதில், TV விற்பனை எவ்வளவு?" என்று கேட்டால், விரலை வைத்து உடனே சொல்லிவிடலாம். இதுதான் Cross-tab எனும் குறுக்குப் பட்டியல்.
கணினி கண்டுபிடிக்கப்பட்ட பின்னர் இவ்வாறான பட்டியல்கள் எளிதாக உருவாக்க முடிந்தது. காலப்போக்கில் வணிகர்களின் தேவைகள் அதிகரித்தன. "எனக்கு மண்டலம் வாரியாக வேண்டாம், தயாரிப்பு வாரியாக வேண்டும்" என்பார்கள். அல்லது "வரிசையை நெடுவரிசையாகவும், நெடுவரிசையை வரிசையாகவும் மாற்றிப் பார்க்க வேண்டும்" என்பார்கள்.
இதற்கு உதவியதுதான் Pivot (சுழல் அச்சு) முறை. ஒரு கதவு எப்படி அதன் கீலை (கீல் - இரண்டு திடப் பொருட்களை இணைத்து, ஒரு குறிப்பிட்ட அச்சில் சுழல அனுமதிக்கும் ஒரு இயந்திர தாங்கி.) மையமாக வைத்துச் சுழல்கிறதோ, அதேபோலத் தரவை மையமாக வைத்து, வரிசை-நெடுவரிசைகளைத் தேவைக்கேற்பச் சுழற்றிப் பார்க்கும் வசதி இது. மின்விரிதாள் மென்பொருளின் ஆகச்சிறந்த கண்டுபிடிப்பு இது எனலாம்! இவ்வாறு இருபரிமாணங்களில் தரவைச் சுழற்றிச் சுழற்றிப் பார்க்கும் பகுப்பாய்வு முறை இப்போது வரை நமக்குப் பயனளிப்பதாக இருக்கின்றது.
மேலே கண்ட இரண்டு முறைகளிலும் ஒரு சிக்கல் உள்ளது. இவற்றால் ஒரே நேரத்தில் இரண்டு பரிமாணங்களை (X-axis, Y-axis) மட்டுமே கையாள முடியும். வணிகமோ பல பரிமாணங்களைக் கொண்டு இயங்குவது. பல முனைகளில் இருந்து வணிகத்தைக் கண்ணுறும் போதே நம்மால் இந்தப் போட்டி நிறைந்த உலகில் சமாளிக்க முடியும் என்ற நிலை வந்த போது சுழல் அச்சுமுறையின் இருபரிமாணங்களைத் தாண்டி பல பரிமாணங்களைக் கண்டறிய முடிகின்ற தரவுப் பகுப்பாய்வின் பரிணாம வளர்ச்சியே கனத்தரவு ஆகும்.
ஒரு மேலாளரின் கேள்வி இப்படியும் இருக்கலாம்:
"சென்னை கிளையில் (இடம்), 2024 ஆம் ஆண்டில் (காலம்), சாம்சங் டிவியின் (பொருள்) விற்பனை எவ்வளவு?" இங்கே பாருங்கள்: இடம், காலம், பொருள் என மூன்று பரிமாணங்கள் வந்துவிட்டன! இதை ஒரு சாதாரண 2D அட்டவணையில் காட்ட வேண்டுமென்றால், பல அட்டவணைகளை உருவாக்க வேண்டும் அல்லது வடிகட்டிகளை (Filters) பயன்படுத்த வேண்டும். இது குழப்பத்தை விளைவிக்கும்.
இங்குதான் கனத் தரவு (Data Cube) அல்லது OLAP Cube அவதாரம் எடுக்கிறது.
கணிதத்தில் ஒரு சதுரத்திற்கும் (Square), ஒரு கனசதுரத்திற்கும் (Cube) என்ன வித்தியாசம்? சதுரம் தட்டையானது (2D). கனசதுரம் ஆழம் கொண்டது (3D).
நாம் மேலே கேட்ட கேள்வியை ஒரு ரூபிக்ஸ் கியூப் (Rubik's Cube) கொண்டு கற்பனை செய்யுங்கள்:
• பரிமாணம் 1 (அகலம்): பொருட்கள் (Products) • பரிமாணம் 2 (உயரம்): இடங்கள் (Locations) • பரிமாணம் 3 (ஆழம்): காலம் (Time - Year/Month)
இந்த மூன்றும் சந்திக்கும் அந்தச் சிறிய கனசதுரப் பெட்டிக்குள் (Cell) இருப்பதுதான் "விற்பனைத் தொகை"

இப்போது மேலாளர் எந்தக் கேள்வி கேட்டாலும்—மூன்று பரிமாணங்களில் மட்டுமல்ல, நான்கு, ஐந்து என எத்தனை பரிமாணங்கள் (N-Dimensions) இருந்தாலும்—இந்த கனத் தரவு முறையால் நொடிப்பொழுதில் விடையளிக்க முடியும். (4 பரிமாணங்களை நம்மால் வரைந்து பார்க்க முடியாது, ஆனால் கணித ரீதியாகக் கணினியால் கையாள முடியும்).

இந்தக் கனத்தரவு முறைக்கு ஏற்றவாறு நமது தரவு மாதிரிகளை அமைப்பதற்கு இன்றைய நவீன ஊடாடும் தொழில்நுட்பக் கருவிகளில் வசதிகள் இருக்கின்றன. அவற்றைப் பற்றி அடுத்து வரும் பகுதிகளில் ஒவ்வொன்றாகக் காணலாம்.