தரவுச் சுரங்கம் - 10

நெடுவரிசைத் தரவுத்தளம்: (Columnar Database)

            நெடுவரிசைகளில் (Columns) வேண்டிய தரவைச் சேமிப்பது என்பது ஏதோ புதிதாய் கண்டுபிடிக்கப்பட்டது அல்ல. நாம் நிரைகளிலேயே (Rows) தரவுகளைப் பார்ப்பது வழக்கமாக இருப்பதால் இது புதிதாகத் தோன்றுகின்றது. நமது தேவைக்குத் தகுந்தவாறு நிரைகளிலோ நிரல்களிலோ தரவுகளைச் சேமித்து வைப்பது நல்லது. அதிலும் தரவுக் கிட்டங்கிகளில் (Data Warehouses) சேமித்து வைத்துப் பின்னர் தரவுச்சுரங்கத்தில் (Data Mining) பயன்படுத்துவதற்கு இந்த வகை தரவுத்தளம் பொருத்தமானதாக இருப்பதால் இதைப் பயன்படுத்துகின்றனர்.

            இனி, ஒரு சிறு எடுத்துக்காட்டின் உதவியோடு இந்த நெடுவரிசைத்தளத்தினைப் பற்றி அறிந்து கொள்வோம். ஒரு விற்பனைத் தரவு அட்டவணையில் ஒரு லட்சம் வரிகளும், பதினைந்து நெடுவரிசைகளும் இருக்கின்றது என்று வைத்துக் கொள்வோம். இதில் பதிநான்காவது நெடுவரிசையில் விற்பனைத் தொகை இருப்பதாக வைத்துக் கொள்வோம். இப்போது ரூ. 10000/-க்கு அதிகமான விற்பனைத் தொகைகளைப் பட்டியலிட வேண்டியிருந்தால் நிரை தரவுத்தளத்தில் ஒரு லட்சம் வரிகளையும் பார்வையிட வேண்டும். ஒவ்வொரு வரியைப் பார்வையிடும் போதும் தேவையில்லாத மற்ற பதிநான்கு நெடுவரிசைகளையும் தாண்டித் தாண்டி வன்தட்டிலிருந்து தகவல்கள் எடுக்கப்படுவதால் மிகவும் நேரமெடுக்கும். அதுவே 1 லட்சம் விற்பனைத் தொகைகளும் ஒரே நெடுவரிசையாகச் சேமிக்கப்பட்டிருந்தால் மிகக் குறைந்த நேரத்திலேயே தேவையான பதிலை எடுத்துவிட முடியும்.

வ.எண்தேதிபெயர்சம்பளம்
101-09-2022முருகன்100000
201-09-2022குமரன்150000
301-09-2022தமிழ்ச்செல்வன்120000
401-09-2022கண்ணன்125000
501-09-2022தென்றல்120000
601-09-2022ரவி100000
701-09-2022சந்திரன்110000

மேற்கண்ட அட்டவணை நிரைவரிசைத் தரவாகும். இது நடவடிக்கைகளைப் பதிவிட வாடிக்கையாக அனைவரும் பயன்படுத்தும் முறை. இதை அப்படியே வன்தட்டில் நிரைவரிசையாகவே பதிவிடுவதாகக் கொண்டால் கீழ்க்கண்டவாறு வன்தட்டில் எழுதப்படும்.

101-09-2022முருகன்100000201-09-2022குமரன்1500003

இதையே நெடுவரிசைத் தரவுத்தளத்தில் கீழ்க்கண்டவாறு பதிவிடப்படும்.

வ.எண் தேதி 1 01-09-2022 2 01-09-2022 3 01-09-2022 4 01-09-2022 5 01-09-2022 6 01-09-2022 7 01-09-2022வ.எண் பெயர் 1 முருகன் 2 குமரன் 3 தமிழ்ச்செல்வன் 4 கண்ணன் 5 தென்றல் 6 ரவி 7 சந்திரன்வ.எண் சம்பளம் 1 100000 2 150000 3 120000 4 125000 5 120000 6 100000 7 110000 

இதை வன்தட்டில் பதியும் போது கீழ்க்கண்டவாறு பதிந்தால் போதும்.

01-09-2022:1,2,3,4,5,6,7

முருகன்:1;குமரன்:2;தமிழ்ச்செல்வன்:3;கண்ணன்:4;தென்றல்:5;ரவி:6; சந்திரன்:7

100000:1,6;15000:2;120000:3,5;125000:4;110000:7

01-09-2022 என்ற தேதி ஒரே ஒருமுறை மட்டும் பதியப்படுவதையும், வரிசை எண் மட்டுமே திரும்ப வருவதையும் கவனியுங்கள். இதில் ஒவ்வொரு நெடுவரிசைக்கும் சுட்டுகையும் (Index) உருவாக்கிவிட்டால் இன்னும் வேகமாகத் தரவுகளை மீட்டெடுக்க முடியும். இந்த முறையில் ஒரு தகவல் ஒருமுறை மட்டுமே சேமிக்கப்பட்டு வன்தட்டின் பயன்பாட்டு அளவும் கணிசமாகக் குறைகின்றது.

லட்சம் வரிகளில் சேமிப்பதை 15 நெடுவரிசைகளில் சேமிப்பது உகந்தது தானே? மேலும், தரவுகளைப் பகுப்பாய்வு செய்யும் போது நாம் எப்போதும் முழு வரியையும் தேர்ந்தெடுப்பதே இல்லை. (எ.கா. 120000க்கு மேல் சம்பளம் வாங்குபவர்களின் பெயர் மட்டுமே தேவைப்படுமே ஒழிய முழு முகவரி, அவர் வேலைக்கு வந்த நாட்கள், விடுமுறை எடுத்த நாட்கள் போன்ற தகவல்கள் தேவையில்லை தானே? )

ஆனால் அதுவே மாதாந்திரச் சம்பள அறிக்கை எடுக்கும் போது முழு முகவரியும் மேலே குறிப்பிட்ட அனைத்து தகவல்களுமே தேவைப்படக்கூடும். எனவே நடவடிக்கைகளைச் சேமித்து வைத்து முழு நடவடிக்கைகளின் தகவல்களும் தேவைப்படும் நிகழ்நிலை நடவடிக்கைச் செயலாக்கத்திற்கு (Online Transaction Processing – OLTP) நிரைவரிசை முறை சிறப்பானதாகும்.

நெடுவரிசைத் தரவுத்தளத்தில் மீட்டெடுக்கும் நேரம் மிகக் குறைவானதாக இருந்தாலும், புதியதாக ஒரு வரியை உள்ளீடு செய்து சேமிப்பது அதிக நேரமெடுக்கும். எனவே தான் ஒரே நேரத்தில் அதிக நடவடிக்கைகளைப் பதிவதற்கு இந்த தரவுத்தளம் உகந்ததல்ல. நடவடிக்கைகள் முடிந்த பின்னர் அத்தகவல்களைப் பகுப்பாய்வு செய்வதற்கான நோக்கத்துடன் (Online Analytical Processing - OLAP) அடுக்கி வைக்கப்படும் தரவுக்கிட்டங்கிகளில் முக்கியமாக இந்த நெடுவரிசைத் தரவுத்தளங்கள் பயன்படுத்தப்படுகின்றன.

தற்போதைய மைக்ரோசாப்ட் ஆஃபீஸ் 365 பதிப்பில் தரவு பகுப்பாய்வுக்கு இந்த வகை தரவுத்தளம் பயன்படுத்துவதால், எக்செல் மென்பொருளின் 1048576 வரிகள் என்ற குறைபாடில்லாமல் எத்தனை கோடி வரிகள் கொண்ட தரவாக இருந்தாலும் மிகச் சிறப்பாக பகுப்பாய்வு செய்ய முடிகின்றது.


Author: ரத்தினகிரி

ரத்தினகிரி சுப்பையா

-பட்டயக் கணக்காளர் - ஆசிரியர் - தரவு பகுப்பாய்வு ஆர்வலர்