தரவுச் சுரங்கம் - 18

சென்ற பகுதியில் தரவுப் பகுப்பாய்வு குறித்து விளக்கமாகக் கண்டோம். அடுத்ததாக பகுப்பாய்வின் வகைகளைக் குறித்து காண்போம். நோக்கங்கள், வழிமுறைகள், செயல்பாடுகள், அதற்கான கருவிகள் ஆகியவற்றைக் கருத்தில் கொண்டு பகுப்பாய்வினைப் பலவகைகளாகப் பிரிக்கின்றார்கள்.

  • விளக்கப் பகுப்பாய்வு (Descriptive Analytics): இருக்கின்ற தரவிலிருந்து “அப்படி என்ன தான் நடந்திருக்கின்றது?” என்ற கேள்விக்கான விடை தேட முற்படுவது விளக்கப் பகுப்பாய்வாகும். இதற்கு முக்கியமாக அடிப்படை புள்ளியியல் அளவைகளும் சூத்திரங்களும் பயன்படுத்தப்படுகின்றன. எவ்வாறு ஒரு துணியைத் தைப்பதற்கு முன்னர் தையல் வல்லுநர் ஒருவரை அளந்து பார்த்துச் சில எண்களை மட்டும் குறித்துக் கொண்டு பின்னர் தேவையான நேரத்தில் அதைப் பயன்படுத்திக் கொள்கின்றாரோ அதே போல் நாமும் ஒட்டு மொத்தத் தரவிற்கும் சில எண்களைக் கண்டுபிடித்து அது குறித்து ஆராய முற்படுகின்றோம். அனைத்துத் தரவுகளையும் ஒரே நேரத்தில் அலசி ஆராய்வது என்பது கடற்கரையில் மணலை எண்ணுவது போல ஆகிவிடும். அது நம்மால் சாத்தியமாகாது. இந்தப் பகுப்பாய்வில் பயன்படுத்தப்படும் அளவைகள்:
    1. சராசரி (Average)
    2. முகடு (Mode)
    3. இடைநிலை (Median)
    4. கால்மானங்கள் (Quartiles)
    5. சதமானங்கள் (Percentiles)
    6. திட்டவிலக்கம் (Standard Deviation)
    7. சிறுமம் (Minimum)
    8. பெருமம் (Maximum)
    9. நிகழ்வெண் பரவல் (Frequency Distribution)
    10. கோட்டம் – கோணல் தன்மை (Skewness)
    11. முகட்டளவு – தட்டை அளவு (Kurtosis)
    12. தண்டு இலை படம் (Stem-Leaf picture)
    13. கட்ட வரைபடம் (Box Plot)
    14. அலைவெண் செவ்வகப்படம் (Histogram)

மேற்கண்ட அளவைகளுடன் மொத்தம், சதவீதம் போன்ற பல கணித சூத்திரங்களையும் பயன்படுத்துவதன் மூலம் என்ன நடந்து கொண்டிருக்கின்றது என்று அறிந்து கொள்ள முடியும்.

  • பரிசோதனைப் பகுப்பாய்வு (Diagnostic Analytics) அடுத்த கட்டக் கேள்வியாக ஏன் நடக்கின்றது அல்லது எப்படி நடக்கின்றது என்று முன்னேறிச் செல்வது அடுத்த வகை பகுப்பாய்வு ஆகும். இதற்கும் சில புள்ளியியல் அளவைகள் பயன்படுத்தப்படுகின்றன. அவற்றுள் சில:
    • ஒட்டுறவு – காரணம் (Correlation – Causation)
    • கருதுகோள் (Hypothesis testing)
    • போக்குப் பகுப்பாய்வு (Trend Analysis)
    • தொடர்புப்போக்கு (Regression)
    • வேற்றுமைப் பகுப்பாய்வு (Analysis of Variance -ANOVA)
    • விகிதம் (Ratios)

இதன்மூலம் விளைவுகளையும் நடவடிக்கைகளையும் ஆராய்ந்து ஏன், எதனால் இப்படி நடக்கின்றது என்று கண்டுகொள்ளலாம். மேலும் தரவுகளுக்கு இடையேயான உறவுகளையும் கண்டறிய முடிகின்றது.

  • முன்கணிப்புப் பகுப்பாய்வு: (Predictive Analytics) இது வரை என்ன நடந்தது, ஏன் நடந்தது என்று கண்டோம். இனி முக்கியமாக அடுத்ததாக என்ன நடக்கும் என்று கணிப்பது தான் இந்தப் பகுப்பாய்வாகும்.

எதிரதாக் காக்கும் அறிவினார்க்கு இல்லை

அதிர வருவதோர் நோய்

எனும் வள்ளுவர் குறளுக்கிணங்க அடுத்து என்ன வரப்போகின்றது என்று ஊகித்து அதற்கேற்றாற்போல் முடிவெடுக்க வல்லோர் வெற்றியை நோக்கிய பயணத்தின் அடுத்த கட்டத்தை எட்டுகின்றார்கள். இதில் பாங்கு கண்டறிதல் (Pattern Identification) முக்கியமானதாகும். பயன்படுத்தப்படும் புள்ளியியல் அளவைகள்:

முன்னறிவிப்பு/முன்கணிப்பு, (Forecasting)

இயல்பரவல் (Normal Distribution)

நிகழ்தகவு (Probability)

கணிச மட்டம் (Level of Significance)

நம்பிக்கை எல்லை/இடைவெளி (Confidence Limit/Interval)

  • வழிமொழி பகுப்பாய்வு (Prescriptive Analytics) இது ஒரு முக்கியமான பகுப்பாய்வாகும். இதில் அடுத்து நாம் என்ன செய்ய வேண்டும் என்று வழிமொழிய முனைகின்றோம். இது பகுப்பாய்வின் உச்சகட்டம் எனலாம். என்ன தான் நடக்கும் நடக்கட்டுமே என்று இருந்து விட முடியாதல்லவா? நாம் அதற்கு என்ன செய்யவேண்டும் என்று முடிவெடுத்து அதன்படி நடக்கவேண்டும். யூடியூப், கூகுள் மேப் ஆகியவை அடுத்து நாம் எந்த அசைபடத்தைப் பார்க்கவேண்டும் என்றோ அடுத்து எந்த வழி திரும்பவேண்டுமென்றோ தானியங்கியாகச் சொல்ல என்ன மாதிரி பகுப்பாய்வை மேற்கொள்ள வேண்டும் என்று எண்ணிப் பார்க்க வேண்டும். இதற்குப் பல மாதிரிகள் (Models), கணித/புள்ளியியல் சமன்பாடுகள், கோட்பாடுகள் பயன்படுத்தப்படுகின்றன. எக்செல் மென்பொருளில் இருக்கும் தீர்வியை (Solver) இங்கே குறிப்பிடலாம். செய்யறிவும் (AI), இயந்திரக்கற்றலும் (Machine Learning), ஆழக்கற்றலும் (Deep Learning) இதை நோக்கியே பயணிக்கின்றன.

Author: ரத்தினகிரி

ரத்தினகிரி சுப்பையா

-பட்டயக் கணக்காளர் - ஆசிரியர் - தரவு பகுப்பாய்வு ஆர்வலர்