தரவுச் சுரங்கம் - 16

பெருந்தரவைப் பகுப்பாய்வு செய்வதற்கும், அதைக் காட்சியாக வரைபடத்தில் உள்ளுணர்ந்து காண்பதற்கும் எக்செல் போன்ற மின்விரிதாள் மென்பொருளைப் பயன்படுத்த இயலாதா? அதிலேயே அத்தனை வசதிகளும் இருக்கத் தானே செய்கின்றன என்ற கேள்வி எழுகின்றது.

பொதுவாக மின்விரிதாள் மென்பொருள் என்பது பெருந்தரவுக்கு உகந்ததல்ல. ஏனெனில் அதன் வடிவமைப்பும் இயல்பான தன்மையும் அவ்வாறுள்ளது. அடிக்கடி மா(ற்)றக் கூடிய சிக்கலான கணக்குகளை எளிதான சூத்திரங்களின் மூலம் சாத்தியமாக்கும் மென்பொருளாக அது விளங்குகின்றது. சிறிய வகை தரவைப் பகுப்பாய்வு செய்கின்ற வசதி இருந்தாலும் கட்டமைப்பில்லா இடத்தில் கட்டமைவுள்ள தரவைப் பயன்படுத்த முடியும் என்றாலும் அதன் அமைப்பு பெருந்தரவுக்கு ஒத்ததாக இல்லை.

மொத்தமே 1048576 வரிகளே வைக்க முடியும். ஒவ்வொரு நிரலுக்கும் சுட்டி (Index) உருவாக்க முடியாது. ஒரு அட்டவணைக்கும் இன்னொரு அட்டவணைக்குமான உறவுமுறையை உறவுமுறைத் தரவமைப்பைப் போல் நிர்ணயித்துப் பொருத்தி ஒட்டு மொத்தமாக ஒரு தரவுப் படிமத்தை (Data Model) உருவாக்க இயலாது. இன்றைய நவீனப் பகுப்பாய்வுக் களமான நெடுவரிசைத் தரவுத்தள (Columnar Database) அடிப்படையில் மின்விரிதாளில் தரவைப் பேண முடிவதில்லை. தற்போதைய தகவல் பலகத்தில் (Dashboard) உள்ளது போல் ஒரு வரைபடத்தில் சுட்டி அதில் குறிப்பிட்ட இடத்தை மட்டும் வெட்டினால் மற்ற வரைபடங்களிலும் அது எதிரொலிப்பது போன்ற வசதிகள் (Interactive Slicing) இல்லை என்று மின்விரிதாள் மென்பொருளின் பகுப்பாய்வுக் குறைகளை அடுக்கிக் கொண்டே செல்லலாம்.

இருந்த போதிலும், மின்விரிதாளிலும் மேலே கண்ட வசதிகளைக் கொண்டு வந்து விட்டால் பகுப்பாய்வுக்கு மட்டும் என்று வேறொரு மென்பொருளை நாட வேண்டிய அவசியம் இல்லையே என்பதே அனைவரின் எதிர்பார்ப்பாக இருந்தது. எனவே தற்போதைய மின்விரிதாள் மென்பொருள் கட்டமைப்பாளர்களில் முதன்மையாகக் கருதப்படும் மைக்ரோசாஃப்ட் எக்செல் மற்றும் கூகுள் ஷீட்ஸ் ஆகிய இரு பெரும் நிறுவனங்களும் இதில் ஈடுபட்டுள்ளன. மற்ற மென்பொருள் வல்லுநர்களும் இதே பாதையில் தான் செல்ல முற்பட்டுள்ளனர். இந்தப் போட்டியில் முன்னணியில் தொடர்ந்து சென்று மைக்ரோசாஃப்ட் எக்செல்லின் சமீபத்திய பதிப்புகள் யாவும் பெருந்தரவுப் பகுப்பாய்வை முன்வைத்தே அனைத்து புதுமைகளையும் கண்டு வருகின்றது. எனவே எக்செல்லின் சமீபத்திய பதிப்புக்கு மாறுவதும், அதன் புதிய அம்சங்களைக் கற்றுணர்வதும் அனைத்து மின்விரிதாள் மென்பொருள் பயனர்களின் பொறுப்பாகின்றது.

எக்செல் கொண்டு வந்துள்ள சில புதிய வசதிகள்:

  1. அணிகளில் புதுமை – இயங்கு அணி (Dynamic Array)
  2. டேபுலர் என்ற உள்ளமைந்த நெடுவரிசைத் தரவுத்தளம் (Tabular – in memory Columnar Database)
  3. எந்த அளவு, விதம், அமைவும் உடைய எத்தகைய தரவாக இருந்தாலும் அதைச் சீரமைத்து தரவுப் படிவத்திற்கு ஏற்றவாறு மாற்றும் பவர் க்வரி எனும் அமைப்பு (Power Query for ETL)
  4. அவ்வாறு தரவுப்படிவத்திலிருக்கும் தரவில் இருந்து பகுப்பாய்வுக்கு ஏற்றவாறு பல்பரிமாணக் கண்ணோட்டத்தில் காண வைக்கும் பவர் பைவட் என்னும் அமைப்பு (Power Pivot with DAX)
  5. காலத்துக்குத் தகுந்த மாதிரியான பலவித தரவுசார் வசதிகள் (எ.கா. தரவு வகை) (Data Types)
  6. கால பருவ மாற்றங்களைக் கணக்கில் கொள்ள  Forecasting with Exponential Smoothing
  7. புள்ளியியல் வரைபடங்கள்

இவ்வாறு நிறைய வசதிகளைக் கொண்டு வரும் மின்விரிதாள் மென்பொருளைப் பயன்படுத்த ஆரம்பிக்கும் போது நம்மால் பெருந்தரவைப் பகுப்பாய்வு செய்வதற்கும் காட்சியாகக் காண்பதற்கும் ஏதுவாகின்றது. இருந்த போதும் மின்விரிதாள் மென்பொருளின் தனித் தன்மை இதனால் இழந்து போகும் என்று வாதிடும் வல்லுனர்களும் உள்ளனர். எனினும் அடுத்த தலைமுறை தரவு பகுப்பாய்வுக்கான துவக்கப் புள்ளியாக மின்விரிதாளின் பங்கு மகத்தானது.


Author: ரத்தினகிரி

ரத்தினகிரி சுப்பையா

-பட்டயக் கணக்காளர் - ஆசிரியர் - தரவு பகுப்பாய்வு ஆர்வலர்