தரவுச் சுரங்கம் - 22

தரவுச் சுரங்கத்தின் ஒரு முக்கியமான அங்கமான தரவுக் கிட்டங்கியைப் பற்றிச் சற்று விளக்கமாகக் காண்கின்றோம். முந்தைய பகுதிகளில் தரவுக் கிட்டங்கியின் நன்மை தீமைகளைப் பட்டியலிட்டோம். ஒரு நிறுவனத்தின் அனைத்து வரலாற்றுத் தரவுகளின் ஒட்டு மொத்த மூலமாக விளங்கி அதைப் பயன்படுத்தும் அனைவருக்கும் வழங்கத் தயாராக இருக்க வேண்டும் அல்லவா? எனவே அதை உருவாக்கும் முறைகள் பற்றி இந்தப் பகுதியில் காணலாம்.

தரவுக் கிட்டங்கிகளை இரண்டு முறைகளில் உருவாக்கலாம். பில் இன்மானின் (Bill Inmon) மேலிருந்து கீழ் அணுகுமுறை மற்றும் ரால்ஃப் கிம்பாலின் (Ralph Kimball) கீழிருந்து மேல் அணுகுமுறை ஆகிய இரண்டு முறைகளையும் ஒவ்வொன்றாகக் காண்போம்.

பில் இன்மானின் (Bill Inmon) மேலிருந்து கீழ் அணுகுமுறை:

Data Warehouse Designஇந்த அணுகுமுறையின் படி, தரவுகளின் மூல வழங்கியிலிருந்து தரவுக் கிட்டங்கியின் வடிவமைப்பு ஆரம்பமாகின்றது. பல்வேறு தரவு மூலங்களிலிருந்தும் பிரித்தெடுத்தல், உருமாற்றம், ஏற்றுதல் ஆகிய மூன்று படிநிலைகளுக்கு உட்படுத்தப்பட்டு ஒட்டு மொத்த நிறுவனத்திற்கான தரவுக் கிட்டங்கி முதலில் வடிவாக்கம் செய்யப்படுகின்றது. பின்னர் அதிலிருந்து மீண்டும் தேவையான தரவு அங்காடிகள் (Data Marts) தமக்குத் தேவையான வகையில் மீண்டும் மேலே கண்ட பிரித்தெடுத்தல், உருமாற்றம், ஏற்றுதல் ஆகிய படிநிலைகளுக்கு உட்படுத்தப்பட்டு  நட்சத்திர திட்டங்களாக தரவு மாதிரியைப் (Data Models) பெற்றுக் கொள்கின்றன. இங்கே கொடுக்கப்பட்டிருக்கும் படத்தைப் பார்த்தால் எளிதாகப் புரியும். இந்த அணுகுமுறையின் படி ஒட்டு மொத்த தரவுக் கிட்டங்கியை உருவாக்கிய பின்னர் தேவையான தரவு அங்காடிகள் தமக்குத் தேவையான தரவுகளைப் பெற முடிகின்றது.

Data Warehouse Designரால்ஃப் கிம்பாலின் கீழிருந்து மேல் அணுகுமுறை:

இந்த அணுகுமுறையின் படி முதலில் தேவைக்குத் தகுந்தவாறு தரவு அங்காடிகள் உருவாக்கப்படுகின்றன. அவ்வாறு உருவாக்கப்படும் போதே தரவு மாதிரிகளும், பரிமாணங்களும், தேவையான செய்திகளும் நிர்ணயிக்கப்படுகின்றன. அதன் பின்னர், அந்தச் செய்திகளும் பரிமாணங்களும் எந்தத் தரவு மூலங்களில் இருக்கின்றன என்று கண்டறியப்பட்டு பின்னர் பிரித்தெடுத்தல், உருமாற்றம், ஏற்றுதல் ஆகிய படிநிலைகளுக்கு உட்படுத்தப்பட்டு தரவு அங்காடிகளால் பெறப்படுகின்றன. இந்த முறையில் ஒட்டு மொத்த தரவுக் கிட்டங்கி மேலே இல்லாமல் கீழிருந்து சிறு சிறு அங்காடிகளின் தொகுப்பாக அமைவதைக் காணலாம். கீழிருந்து மேலான இந்த அணுகுமுறையில் தரவுக் கிட்டங்கியின் அமைப்பு நடுவில் இல்லாமல் கீழே இருக்கின்றது.

வழக்கம் போல் இந்த இரண்டு அணுகுமுறைகளிலும் நன்மை தீமைகளுண்டு. இரண்டில் எதைத் தேர்ந்தெடுப்பது என்ற கேள்விக்குப் பதிலாக, எந்த ஒரு நிறுவனம் பரிணாம வளர்ச்சியடைந்து முதிர்ச்சியடைந்து அதன் தரவுத் தேவைகளைப் பற்றி நன்கு அறிந்தும் தரவு அமைப்புகளைப் பூர்த்தியாகவும் வைத்திருக்கின்றதோ அவ்வகை நிறுவனத்திற்கு மேலிருந்து கீழ் அணுகுமுறை சிறப்பாக இருக்கும். (எ.கா. இரயில் போக்குவரத்து) அதே சமயத்தில் தற்போது பரிணாம வளர்ச்சி கண்டு வரும், அடிக்கடி மாறிக் கொண்டிருக்கும் தரவு அமைப்பைக் கொண்டிருக்கும் நிறுவனத்திற்கு கீழிருந்து மேலான அணுகுமுறை சிறப்பாக இருக்கும். (எ.கா. தொலைதொடர்பு மற்றும் கணினி) இவ்விரு அணுகுமுறைகளையும் ஒன்றிணைத்து கலப்பின அணுகுமுறைகளும் உருவாகின்றன. எனவே நமது நிறுவனத்திற்கு எது பொருத்தம் என்று உணர்ந்து அதைச் செயல்படுத்துவது நல்லது.

தரவுக் கிட்டங்கிகள் மற்றும் அங்காடிகளுக்கான சூழல் பின்வருவனவற்றை உள்ளடக்கியது. எனவே தரவுக் கிட்டங்கியை உருவாக்கும் போது கவனத்தில் கொள்ள வேண்டும்.

  • கிட்டங்கி அல்லது அங்காடிக்குத் தரவை வழங்கும் மூல அமைப்புகள்;
  • தரவு ஒருங்கிணைப்பு தொழில்நுட்பம் மற்றும் பயன்பாட்டிற்குத் தரவைத் தயாரிக்கத் தேவையான செயல்முறைகள்;
  • ஒரு நிறுவனத்தின் தரவுக் கிட்டங்கி அல்லது தரவு அங்காடிகளில் தரவைச் சேமிப்பதற்கான பல்வேறு கட்டமைப்புகள்;
  • பல்வேறு பயனர்களுக்கான பல்வேறு கருவிகள் மற்றும் பயன்பாடுகள்;
  • கிட்டங்கி அல்லது அங்காடி அதன் நோக்கங்களைப் பூர்த்திசெய்கிறதா என்பதை உறுதிப்படுத்த, மீதரவு (Meta Data), தரவுத் தரம் மற்றும் நிர்வாகச் செயல்முறைகள் இருக்க வேண்டும்.

மீதரவு எனப்படுவது தரவு பற்றிய தரவு ஆகும். மேனிலைத்தரவு என்றும் அழைக்கப்படுகின்றது. எடுத்துக்காட்டாக ஒரு புகைப்படம் என்பது தரவு ஆனால், அது எந்தப் புகைப்படக் கருவி கொண்டு எடுக்கப்பட்டது என்பது மீதரவு ஆகும். ஒரு தரவுப் பட்டியலின் நெடுவரிசைத் தலைப்புகளை மேனிலைத் தரவு எனலாம்.

அடுத்த பகுதியில் தரவுக் கிட்டங்கியின் படிநிலைகளைக் காணலாம்.

தரவுச் சுரங்கம் - 21

தரவுச் சுரங்கத்தில் ஒரு முக்கியமான பங்கு தரவுக்கிடங்குக்கு உண்டு. அதனைப் பராமரிப்பதில் இருக்கும் சிக்கல்களை முந்தைய பகுதியில் பார்த்தோம். இப்போது அந்தத் தடைகளைத் தாண்டி அதைச் சரியாகப் பயன்படுத்தினால் ஏற்படும் நன்மைகளைக் காண்போம். இந்த நன்மைகளைக் காணும் போது பல்லாண்டுகளாகக் கணினியைப் பயன்படுத்தி நிர்வகிக்கும் ஒவ்வொரு நிறுவனமும் தமக்கேற்ற தரவுக் கிடங்கைப் பராமரிப்பது அவசியம் என்பது புரியும்.

தரவுக் கிடங்கின் நன்மைகள்:

  1. தரவு சார்ந்த முடிவெடுத்தல் (Data Driven Decision Making): ஒரு தரவுக் கிடங்கு நிறுவனத்தின் அனைத்து தரவுகளுக்கும் ஒரே உண்மை மூலமாக செயல்படுகிறது, இது மேலாளர்கள் காண்பதற்கு ஏதுவாக வழக்கமான அறிக்கைகள் மற்றும் பார்வைகளை உருவாக்க உதவுகிறது. இது வணிகங்கள் தயாரிப்பு மேம்பாட்டிலிருந்து சந்தைப்படுத்தல் நுகர்வோரைச் சென்று சேர்வது வரை அனைத்திலும் சிறந்த முடிவுகளை எடுக்க உதவும்.
  • திறன் மேம்பாடு (Increased Efficiency): தரவு சேகரிப்பு, செயலாக்கம் மற்றும் பகுப்பாய்வு ஆகியவற்றில் ஈடுபட்டுள்ள பல பணிகளை ஒரு தரவுக் கிடங்கு தானியக்கப்படுத்த முடியும். இது ஊழியர்களின் நேரத்தை மிகவும் சேமித்து அவர்களது நேரத்தை மேலும் சமயோசிதமான பணிகளில் கவனம் செலுத்த அனுமதிக்கும்.
  • குறைந்த செலவு: ஒரு தரவு கிடங்கு நிறுவனங்களுக்கு பல்வேறு வழிகளில் செலவைக் குறைக்க உதவும். எடுத்துக்காட்டாக, நிறுவனங்கள் திறனற்ற தன்மைகளை அடையாளம் காண்பதற்கும் அவற்றை நீக்குவதற்கும், அவற்றின் விநியோக சங்கிலிகளை மேம்படுத்துவதற்கும் உதவும்.
  • வாடிக்கையாளர் சேவை மேம்பாடு: வாடிக்கையாளர்களின் தேவைகள் மற்றும் விருப்பங்களை நன்கு புரிந்துகொள்ள ஒரு தரவுக் கிடங்கு நிறுவனங்களுக்கு உதவும். இது மேம்படுத்தப்பட்ட வாடிக்கையாளர் சேவை மற்றும் வாடிக்கையாளர் திருப்திக்கு வழிவகுக்கும். மீண்டும் மீண்டும் நம்மை நோக்கியே வருபவர் தானே வாடிக்கையாளர்? ஒவ்வொரு வாடிக்கையாளரிடமிருந்தும் பல்லாண்டுகள் தொடர்பை உருவாக்கி மேம்படுத்தி சிறந்த சேவையளிப்பதன் மூலம் வாடிக்கையாளரையும் லாபத்தையும் தக்க வைத்துக் கொள்ளலாம்.
  • சந்தைச் சவால்கள் சமாளிப்பு: மிகுந்த சவால் மிக்க சந்தை கொண்ட இன்றைய உலகில், சிறந்த முடிவுகளை விரைவாக எடுக்க உதவுவதன் மூலம் தரவுக் கிடங்கு நிறுவனங்களுக்கு முன்னோக்கிச் செல்ல வழிகாட்டியாக விளங்கும்.
  • இடர் மேலாண்மை: இன்றைய உலகில் ஏமாற்றுபவர்களின் எண்ணிக்கை பல மடங்கு அதிகரித்து இருக்கின்றது. நமக்கான இக்கட்டு நிறுவனத்தின் உள்ளே, வெளியே என்று பல கோணங்களிலிருந்து ஏற்பட வாய்ப்பிருக்கின்றது. தரவுக் கிடங்கின் மூலம் ஒட்டு மொத்தத் தகவல்களையும் ஒரே இடத்தில் காண முடிவதால் பல கோணங்களிலும் பணியாளர்கள், வாடிக்கையாளர்கள், நமக்கு சரக்கு மற்றும் சேவையளிப்போரைக் கண்காணித்து அறிந்து கொள்ள முடியும். இதனால் மோசடிகளை மிக விரைவில் கண்டறிந்து களவையும் கழிவையும் குறைக்க இயலும்.
  • ஆராய்ச்சியில் சிக்கனம்: எப்போதும் புதிய கண்டுபிடிப்புகளையே நாடி நிற்கும் நிறுவனங்கள் (எடுத்துக்காட்டு மருத்துவம், வாகன உற்பத்தி) தங்கள் ஆராய்ச்சிக்குச் செலவிடும் தொகையைக் குறைக்க இந்தத் தரவுக் கிடங்கிகள் உதவி புரிகின்றன. பெருந்தரவைப் பயன்படுத்துவதன் மூலம் தேவையற்ற செலவுகளைக் குறைக்கலாம்.
  • தரவின் தரம்: தரவென்றாலே அது தரப்படுத்தப்பட்டது என்று முன்பே அறிவோம். இருந்தாலும் அதை இன்னும் துப்புரவு செய்தால் இன்னும் பொலிவாகத் திகழும் அல்லவா? ஒரு சாதாரண பொருள் சேமிப்பு அறைக்கும் ஒரு பெரிய அறிவியல் சார்ந்த கிட்டங்கிக்கும் இருக்கும் மலைக்கும் மடுவுக்குமான வித்தியாசத்தை நாம் உணர வேண்டும். சாதாரண அறையில் மூட்டை மூட்டையாக அடுக்கி வைக்க இயலும். ஆனால் ஒரு துறைமுகத்திலிருக்கும் ஆயிரக்கணக்கான கப்பல்களில் ஏற்றும் வகையில் பொருட்களை அடுக்கி வைக்க மூட்டைகள் காணாது அல்லவா? மிகப்பெரிய இரும்புக் கொள்கலன்களில் கொண்டு செல்வதைக் காண்கின்றோம். அதே போன்று தரவமைப்பிலும் செய்து தரப்படுத்துவதால் தரக்கிடங்குகளில் இருக்கும் தரவுகளின் தரம் உயர்ந்ததாக நம்பகமானதாக இருக்கின்றது.
  • மேம்பட்ட பாதுகாப்பு: தரவுக் கிடங்கில் இருக்கும் தரவு சேமித்துப் பின்னர் பயன்படுத்துவதற்கு மட்டுமே என்பதால் முதலில் “காண்பதற்கு மட்டும்” என்று கணினியில் சேமித்து யாரும்  மாற்ற முடியாதவாறு செய்கின்றோம். மேலும் அனைத்து தரவையும் ஒரே இடத்தில் குவித்து வைத்து தேவையானவர்களுக்கு தேவையான தரவுக்கு உண்டான அனுமதியை மட்டும் வழங்குவதால் பாதுகாப்பு எளிதாகின்றது.
  1. தற்போதைய மேக் கணிமைத் தொழில்நுட்பத்தில் சரியாக வடிவமைத்து விட்டால் மிகச் சிறிதான ஒரு கிடங்கிலிருந்து ஆரம்பித்து நிறுவனம் வளர வளர தரவுக் கிடங்கினையும் தேவைக்கேற்ப பெரிதாக்கிக் கொள்ள இயலும் என்பதால் குறைந்த செலவில் நிறைந்த பயனை அடைய முடியும்.

சற்றே கூர்ந்து கவனித்தால் எதையெல்லாம் குறையென்று சென்ற பகுதியில் குறிப்பிட்டோமோ அதையே நிறைகளாக இங்கே காண்கின்றோம். எனவே தரவுக் கிடங்கானது பூங்கொத்தாக மாறுவதும் குரங்கு கை பூமாலை ஆவதும் அதைத் திட்டமிட்டுப் பயன்படுத்துவோரின் கையில் உள்ளது என்தை அறிந்து கொள்ளலாம்!

தரவுச் சுரங்கம் - 20

ஓராண்டுத் தரவை மட்டும் ஆய்வு செய்யும் போது எந்தப் பெரிய குழப்பமும் நேர்வதில்லை. ஆனால், ஓராண்டுத் தரவை மட்டும் ஆய்வு செய்தால் ஒரு துணியின் தன்மையைப் பற்றி அறிந்து கொள்ள அதன் ஒரு நூலை மட்டும் எடுத்து அறிந்து கொள்ள முனைவது போலாகும். ஒரு துணியின் சீரான வடிவமைவும் பாங்கும் (Pattern), நிறங்களும் கோடுகளும் பற்றி அறிந்து கொள்ள வேண்டுமாயின் ஒரு நூலை மட்டும் வைத்து முடிவுக்கு வர முடியாது. ஓராயிரம் நூற்களை இணைத்துப் பார்த்தால் உடனே அறிந்து கொள்ள முடியும். இதே முறையில் தான் பெருந்தரவும்(Big data) இயங்குகின்றது. எனவே பல ஆண்டுகளாக இயங்கும் ஒரு நிறுவனம், அது துவங்கிய நாளில் இருந்து தன் வசம் இருக்கும் தரவைச் சரியாகப் பயன்படுத்திக் கொள்ள வேண்டும் என்பது தான் தரவுச்சுரங்கத்தின் அடிப்படையாகும்.

பிரபல நிகழ்நிலை அசைபட இணையத் தளமான யூடியூபில் எவ்வாறு அவரவர்களுக்கு இயைந்தவாறு அசைபடம் பரிந்துரைக்கப்படுகின்றது? கோடிக்கணக்கான மக்களின் விருப்பங்களையும் ஆராய்ந்து அவ்வாறு முடிவெடுக்க எத்தனை ஆய்வுகள் பின்னால் நடைபெற்றிருக்க வேண்டும்? இதற்கெல்லாம் தேவை ஒரு தரவுக்கிட்டங்கி (Data Warehose). அதில் தரமாக்கப்பட்ட தரவு (Standardized Data) சீராய் தேவைக்குத் தகுந்தவாறு அடுக்கி வைக்கப்பட்டிருக்க வேண்டும். அது கோடிக்கணக்கான வரிகளைக் கொண்டு பல கணினிகளின் நினைவகங்களிலும் விரவி வைக்கப்பட்டிருக்கலாம். எனவே தான் அதைப் பெருந்தரவு என்று அழைக்கின்றோம். அதற்குண்டான வன்பொருள் (Hardware), மென்பொருள் (Software), முறைமை (Logic) அனைத்தும் தினந்தோறும் வளர்ந்து கொண்டே இருப்பதைக் கண்கூடாகக் காண முடிகின்றது. சாமான்னியர்களும் இந்தப் பெருந்தரவிலிருந்து தரவைத் தேவைக்கேற்ப எடுத்துக் கொள்ள ஏதுவாக பயன்பாட்டு நிரல் இடைமுகங்கள் (API – Application Program Interface) அனைத்து பிரபலமான சமூக ஊடகங்களுக்கும் கிடைக்கின்றன. எடுத்துக்காட்டாக ஒரு நிறுவனத்தைப் பற்றி பேஸ்புக்கில் என்ன பேசுகின்றார்கள் என்பதை ஒரு சிறு பைத்தான் மொழி நூலகப் பொதியின் மூலம் நமது கணினிக்கு எளிதாக நிகழ்நிலையில் கொண்டு வரமுடியும்.

இவ்வாறு பெருந்தரவைத் தொகுக்கும் போது அல்லது உருவாக்கும் போது நமக்கு ஏற்படும் இடையூறுகளை இந்தப் பகுதியில் காண்போம்.

மெதுவாய் மாறும் பரிமாணங்கள்: (Slowly Changing Dimensions - SCD) தரவை ஆய்வு செய்வதற்கு அதை நான்கு அம்சங்களாகப் பிரித்து அதில் ஒன்று தான் பரிமாணம் என்று பார்த்தோம். அந்தப் பரிமாணம் தான் நிலையானது என்றும். தரவு ஒரு நடவடிக்கையின் செய்திகளைச் சேகரிப்பது என்றால், அதற்கு அர்த்தம் உண்டாக்குவது பரிமாணம் என்றும் பார்த்தோம். ஆனால், இப்பூவுலகில் எதுவும் நிரந்தரமன்று என்பதை நாம் உணர்வோம்! அது போல் பரிமாணங்கள் நிரந்தரமாக இருப்பதில்லை. எடுத்துக்காட்டாக இன்று சென்னையில் இருக்கும் நமது வாடிக்கையாளர், அடுத்த ஆண்டு மதுரையில் குடியேறிவிடலாம். அதனால் அவர் நமது வாடிக்கையாளராக இல்லாது போக மாட்டார். இப்போது அவர் தொடர்பான தரவை சென்னையில் சேர்ப்பதா, மதுரையில் சேர்ப்பதா எனும் குழப்பம் நேரிடுகின்றது அல்லவா? இதைத் தான் மெதுவாய் மாறும் பரிமாணங்கள் என்கின்றனர். இதைச் சரி செய்ய நிறைய வழிமுறைகள் உள்ளன. வகை 0 லிருந்து வகை 7 வரை புதியதாக பல முறைகள் இருக்கின்றன. அதைச் சரி செய்யவில்லை என்றால் நமது ஆய்வு முடிவுகள் சரியானதாக இருக்காது.

தரவு நகல்கள்: (Duplicate data) ஒரு நிறுவனத்தின் மேலாளர் ஒவ்வொருவரும் அவர்களுக்கேற்றவாறு தரவுக் கிட்டங்கியினை வடிவமைத்தோ அல்லது பயன்படுத்தவோ முயலும் போது இயல்பாகவே ஒரே தரவு பல நகல்கள் எடுக்கப்பட்டு நிறுவனத்தின் கணினியை ஆக்கிரமிப்பு செய்து கொள்கின்றது. அதுவும் ஏற்கனவே பெருந்தரவே ஒரு பிரச்னை தான். அதை நகல்கள் வேறு எடுத்தால்? சொல்லவே தேவையில்லை!

தேவையா இல்லையா?: (Redundant Data) ஒரு சமயத்தில் தேவை என்று நினைக்கும் ஒன்று இன்னொரு சமயத்தில் தேவையில்லாததாகத் தோன்றுவதைக் காண்கின்றோம். தேவையான தரவு என்று தேவையில்லாததைச் சேர்த்து வைத்தாலும் பிரச்னை தான். தேவையில்லாத தரவு என்று தேவையானதை ஒதுக்கி வைத்து விட்டாலும் பிரச்னை தான். எனவே தேவை அறிந்து தரவைத் தரமாக்கம் செய்தல் வேண்டும்.

செலவினம்: ஒரு தரவுக்கிட்டங்கியை உருவாக்கி அதை நிர்வகித்து அதிலிருந்து பலன் பெறுவது என்பது அதிகமான செலவாகும்.எந்த ஒரு முயற்சியிலும் பலன் அறிந்து, அந்தப் பலனானது செலவை விட அதிகமாக இருக்கின்றதா என்று அறிந்து முன்னெடுப்பது காலத்தின் கட்டாயமாகும்!

சிக்கல்: ஒரு பெரு நிறுவனத்தின் அத்தனை தரவையும் தரமாக்க முற்படுவது அத்தனை எளிதானதல்ல. பல சிக்கல்களை வழிவகுக்கும். அனைத்திற்கும் ஏற்றவாறு வளைந்து கொடுத்துக் கொண்டே இருந்தால் பிள்ளையார் பிடிக்கக் குரங்காகவும் மாறிவிடக்கூடும்.

நேரவிரையம்: ஏற்கனவே குறிப்பிட்டது தரவு பகுப்பாய்வு அதிக நேரம் எடுத்துக் கொள்ளும். அதற்கான பொறுமை மிகவும் முக்கியமாகும். அதே போன்று தான் தரவுக்கிட்டங்கியில் தரவை நேர்த்தியாக அடுக்கி வைப்பதற்கும் நேரமாகும்.

பொருந்தாத் தரவு: (Irrelevant Data) பல்லாண்டுத் தரவுகளைச் சேமித்து ஆய்வு செய்யும் போது மிகவும் பழமையான தரவு தேவைப்படாமலும் பொருந்தாலும் போகலாம். ‘பழையன கழிதலும் புதியன புகுதலும் வழுவல’ என்பது தரவுத் தரமாக்கத்துக்கும் பொருந்தும்!

பாதுகாப்பு: ஒரு நிறுவனத்தின் ஒட்டுமொத்தத் தரவும் ஓரிடத்தில் சேர்த்து வைப்பதென்றால் அதை எவ்வாறு பாதுகாக்க வேண்டும் என்னும் பிரச்னையும் உடனே வந்து விடுகின்றது. தேவையானவர்கள் மட்டுமே தேவையான தரவைப் பார்க்க முடியவேண்டும் என்பதும், தனியுரிமையைப் பேண வேண்டும் என்பதும் மிகப் பெரிய சவாலாக அமைகின்றது.

இவ்வாறு பல இடையூறுகள் வந்தாலும் தரவுக்கிடங்கின் நன்மைகளைக் கணக்கில் கொண்டால், தரவுக்கிடங்கின் மேன்மை நமக்குத் தெரியவரும். அதை அடுத்த பகுதியில் காண்போம்!

தரவுச் சுரங்கம் - 19

இத்தனை பாகங்களாக தரவுச்சுரங்கம் பற்றிய ஒரு நீண்ட அறிமுகத்தை வழங்கியிருக்கின்றோம். இனி சுரங்கம் தோண்டுவதற்கான பணியினை ஆரம்பிக்கலாம். ஒரு நிறுவனத்தில் தரவுகளின் பயன்பாடு கீழ்க்கண்ட இரண்டு வகைகளில் ஒன்றாக இருக்கின்றது.

  1. நிகழ்நிலை நடப்புச் செயல்முறை (Online Transaction Processing – OLTP)

நடவடிக்கைகள் நடந்தவுடன் நமக்குத் தேவைப்படும் அறிக்கைகளுக்காக இந்தச் செயல்முறை இருக்கின்றது. எடுத்துக்காட்டாக ஒரு வாடிக்கையாளர் சரக்கு வாங்கும் போது அவருக்குத் தருவதற்காக ஒரு பட்டி அல்லது ரசீது தரவேண்டியிருக்கின்றது. அதன் பின்னர் அதைக் கணக்குப் பதிவு செய்ய வேண்டியிருக்கின்றது. அன்றாடம் நமது நிறுவனம் செவ்வனே நடைபெறுவதற்காக இந்தச் செயல்முறை நடைமுறையில் இருக்கின்றது. இது உறவுமுறைத் தரவுத்தள மேலாண்மையைக் (Relational Database Management System) கொண்டு இயங்குகின்றது. உருபொருட்களை (Entities) மையப்படுத்தியும் அவற்றின் பண்புகளைச் (Attributes) சுற்றிலும் அமையுமாறு உள்ளது. இதற்கு நிரைகளை அடிப்படையாகக் கொண்டுஇயங்கும் உறவுமுறைத் தரவுத்தளம் (Row based Databases) பொருத்தமானதாக உள்ளது. அதாவது ஒரு ரசீதை நாம் அச்சிட வேண்டுமானால் நமக்கு வாடிக்கையாளரின் பெயர், முகவரி, வரிவிதிப்பு எண் என்று ஒட்டு மொத்தத் தரவும் தேவைப்படுகின்றது.

  • நிகழ்நிலை பகுப்பாய்வுச் செயல்முறை (Online Analytical Processing – OLAP)

நடவடிக்கைகள் நடந்து முடிந்தவுடன் எதிர்காலத் தேவைக்காக இரண்டாம் வகை தரவு வடிவமைப்பு அவசியமாகின்றது. ஏனெனில் பகுப்பாய்வு செய்வதற்கு நமக்கு ஒவ்வொரு வாடிக்கையாளரின் முகவரி, வரிவிதிப்பு எண் போன்ற துல்லியமான  தரவுகள் தேவைப்படாது. நடவடிக்கைகள் குறித்த செய்தித் தரவுகள் மட்டுமே தேவைப்படும். எனவே இங்கே செய்தியை (Facts) நடுவில் வைத்து உருபொருட்களைச் (Entities) சுற்றிலும் அமைக்கும் வழிமுறை தேவைப்படுகின்றது. இவ்வுருபொருட்களும் பின்னால் பரிமாணங்களில் (Dimensions) சிலவாக உருவெடுக்கும் விந்தையும் காணப் போகின்றோம்.

இரண்டு வகைகளுமே ஒரு நிறுவனம் செவ்வனே இயங்குவதற்குத் தேவை என்றாலும் அதே தரவையே அடிப்படையாகக் கொண்டு இரண்டுமே வடிவமைக்கப்படுகின்றது என்றாலும் அடிப்படையில் இவற்றுக்கிடையே மலைக்கும் மடுவுக்குமான  வேறுபாடுகளைக் காண முடிகின்றது. அவற்றை இங்கே பட்டியலிடுவோம்.

வ. எண்நிகழ்நிலை நடப்புச் செயல்முறை (OLTP)நிகழ்நிலை பகுப்பாய்வுச் செயல்முறை (OLAP)
1அன்றாட நடவடிக்கைகளுக்காகப் பயன்படுத்தப்படுகின்றது.எதிர்காலத் திட்டமிடலுக்கும் பகுப்பாய்வுக்கும் பயன்படுத்தப்படுகின்றது.
2அன்றாடத் தரவுகளை மட்டுமே பயன்படுத்துகின்றது.தேவைப்பட்டால் நிறுவனம் தொடங்கிய நாளில் இருந்து இன்று வரையான வரலாற்றுத் தரவுகளும் பயன்படுத்தப்படுகின்றது.
3அறிக்கைகளுக்குப் பொதுவாக தரவுத்தள மேலாண்மையைப் பயன்படுத்துகின்றது. (DBMS)அறிக்கைகளுக்கு தரவுக்கிட்டங்கிகள் தேவைப்படுகின்றன. (Data warehouses)
4இதன் தேவை அன்றாட மென்பொருள் பயன்பாட்டுக்கானதாகும். (Application Oriented)  தொழில் நடைமுறைக்குப் பயன்படுகின்றது.இது புலம் சார்ந்த மேலான (Subject Oriented) பயன்பாட்டுக்காகும். திட்டமிடல், முடிவெடுத்தல், பகுப்பாய்வு செய்தல் ஆகியவற்றுக்குப் பயன்படுகின்றது.  
5தரவுத் தள இயல்பாக்கம் (Database Normalization) அவசியமாகும்.இயல்பாக்கம் இருக்க வேண்டிய அவசியமில்லை.
6இன்றைய தொழிலின் நிலையை அறிய உதவும் ஒரு கண்ணாடி போன்றது..இது பல்பரிமாணத் தரவுப் பெட்டகமாகத் திகழ்கின்றது.
7எப்போதுமே 100 சதவீதத் தரவுகளைப் பயன்படுத்தப்போவதில்லை ஆதலால் மிகவும் வேகமாக இயங்கும்!அதிகப்படியான தரவுகளைப் பயன்படுத்துவதால் சற்று மெதுவாகவே இயங்கும். மணிக்கணக்கில் கூட ஆகலாம்!
8இதைப் பயன்படுத்துபவர்கள் நிறுவனத்தின் அடிமட்டப் பணியாளர்கள்.இதைப் பயன்படுத்துபவர்கள் திட்டமிடும் அளவில் இருக்கின்ற மேல்மட்டப் பணியாளர்கள்.
9தரவில் வாசித்தல் மற்றும் எழுதல் (Read and Write) ஆகிய இரு பணிகளும் அடிக்கடி நடக்கும்.இதில் எழுத வேண்டிய அவசியமில்லை. வாசித்தல் மட்டுமே நடைபெறும்.
10நிரைவரிசைத் தரவுகள் பொருத்தமானதாகும். (Row based Database)நெடுவரிசைத் தரவுகள் (Columnar Databases) பொருத்தமானதாகும்.
11உருபொருளை மையமாகக் கொண்டு, பண்புகளைச் சுற்றிலும் கொண்ட வடிவமைப்பில் இயங்குகின்றது. (Entity Centered.)நடவடிக்கைச் செய்திகளை மையமாகக் கொண்டு பரிமாணங்களைச் சுற்றிலும் கொண்ட வடிவமைப்பில் இயங்குகின்றது. (Fact Centered)
12இயல்பாக்கத்தினால் உருபொருள் உறவுமுறை வரைபடத்தின் மூலம் வரையப்படுகின்றது. (Entity Relationship Diagrams)எளிய நட்சத்திர வடிவமைப்பிலிருந்து பனித்துகள் வடிவமைப்பு மற்றும் சிக்கலான நட்சத்திரத் திரள் வடிவமைப்பு வரை நீண்டு கொண்டே செல்லக்கூடும். (Star/Snowflake/Cluster Schema)

மேற்கண்ட வேறுபாடுகளிலிருந்து நிகழ்தரவு பகுப்பாய்வின் சிறப்பம்சங்களை அறிந்து கொள்ளலாம். மேலும் பல ஆண்டுகளின் தரவுகளையும் சேர்க்கும் போது சில சிக்கல்களும் ஏற்படுகின்றன. அவைபற்றிய விளக்கங்களை அடுத்தடுத்த பகுதிகளில் காணலாம்.

தரவுச் சுரங்கம் - 18

சென்ற பகுதியில் தரவுப் பகுப்பாய்வு குறித்து விளக்கமாகக் கண்டோம். அடுத்ததாக பகுப்பாய்வின் வகைகளைக் குறித்து காண்போம். நோக்கங்கள், வழிமுறைகள், செயல்பாடுகள், அதற்கான கருவிகள் ஆகியவற்றைக் கருத்தில் கொண்டு பகுப்பாய்வினைப் பலவகைகளாகப் பிரிக்கின்றார்கள்.

  • விளக்கப் பகுப்பாய்வு (Descriptive Analytics): இருக்கின்ற தரவிலிருந்து “அப்படி என்ன தான் நடந்திருக்கின்றது?” என்ற கேள்விக்கான விடை தேட முற்படுவது விளக்கப் பகுப்பாய்வாகும். இதற்கு முக்கியமாக அடிப்படை புள்ளியியல் அளவைகளும் சூத்திரங்களும் பயன்படுத்தப்படுகின்றன. எவ்வாறு ஒரு துணியைத் தைப்பதற்கு முன்னர் தையல் வல்லுநர் ஒருவரை அளந்து பார்த்துச் சில எண்களை மட்டும் குறித்துக் கொண்டு பின்னர் தேவையான நேரத்தில் அதைப் பயன்படுத்திக் கொள்கின்றாரோ அதே போல் நாமும் ஒட்டு மொத்தத் தரவிற்கும் சில எண்களைக் கண்டுபிடித்து அது குறித்து ஆராய முற்படுகின்றோம். அனைத்துத் தரவுகளையும் ஒரே நேரத்தில் அலசி ஆராய்வது என்பது கடற்கரையில் மணலை எண்ணுவது போல ஆகிவிடும். அது நம்மால் சாத்தியமாகாது. இந்தப் பகுப்பாய்வில் பயன்படுத்தப்படும் அளவைகள்:
    1. சராசரி (Average)
    2. முகடு (Mode)
    3. இடைநிலை (Median)
    4. கால்மானங்கள் (Quartiles)
    5. சதமானங்கள் (Percentiles)
    6. திட்டவிலக்கம் (Standard Deviation)
    7. சிறுமம் (Minimum)
    8. பெருமம் (Maximum)
    9. நிகழ்வெண் பரவல் (Frequency Distribution)
    10. கோட்டம் – கோணல் தன்மை (Skewness)
    11. முகட்டளவு – தட்டை அளவு (Kurtosis)
    12. தண்டு இலை படம் (Stem-Leaf picture)
    13. கட்ட வரைபடம் (Box Plot)
    14. அலைவெண் செவ்வகப்படம் (Histogram)

மேற்கண்ட அளவைகளுடன் மொத்தம், சதவீதம் போன்ற பல கணித சூத்திரங்களையும் பயன்படுத்துவதன் மூலம் என்ன நடந்து கொண்டிருக்கின்றது என்று அறிந்து கொள்ள முடியும்.

  • பரிசோதனைப் பகுப்பாய்வு (Diagnostic Analytics) அடுத்த கட்டக் கேள்வியாக ஏன் நடக்கின்றது அல்லது எப்படி நடக்கின்றது என்று முன்னேறிச் செல்வது அடுத்த வகை பகுப்பாய்வு ஆகும். இதற்கும் சில புள்ளியியல் அளவைகள் பயன்படுத்தப்படுகின்றன. அவற்றுள் சில:
    • ஒட்டுறவு – காரணம் (Correlation – Causation)
    • கருதுகோள் (Hypothesis testing)
    • போக்குப் பகுப்பாய்வு (Trend Analysis)
    • தொடர்புப்போக்கு (Regression)
    • வேற்றுமைப் பகுப்பாய்வு (Analysis of Variance -ANOVA)
    • விகிதம் (Ratios)

இதன்மூலம் விளைவுகளையும் நடவடிக்கைகளையும் ஆராய்ந்து ஏன், எதனால் இப்படி நடக்கின்றது என்று கண்டுகொள்ளலாம். மேலும் தரவுகளுக்கு இடையேயான உறவுகளையும் கண்டறிய முடிகின்றது.

  • முன்கணிப்புப் பகுப்பாய்வு: (Predictive Analytics) இது வரை என்ன நடந்தது, ஏன் நடந்தது என்று கண்டோம். இனி முக்கியமாக அடுத்ததாக என்ன நடக்கும் என்று கணிப்பது தான் இந்தப் பகுப்பாய்வாகும்.

எதிரதாக் காக்கும் அறிவினார்க்கு இல்லை

அதிர வருவதோர் நோய்

எனும் வள்ளுவர் குறளுக்கிணங்க அடுத்து என்ன வரப்போகின்றது என்று ஊகித்து அதற்கேற்றாற்போல் முடிவெடுக்க வல்லோர் வெற்றியை நோக்கிய பயணத்தின் அடுத்த கட்டத்தை எட்டுகின்றார்கள். இதில் பாங்கு கண்டறிதல் (Pattern Identification) முக்கியமானதாகும். பயன்படுத்தப்படும் புள்ளியியல் அளவைகள்:

முன்னறிவிப்பு/முன்கணிப்பு, (Forecasting)

இயல்பரவல் (Normal Distribution)

நிகழ்தகவு (Probability)

கணிச மட்டம் (Level of Significance)

நம்பிக்கை எல்லை/இடைவெளி (Confidence Limit/Interval)

  • வழிமொழி பகுப்பாய்வு (Prescriptive Analytics) இது ஒரு முக்கியமான பகுப்பாய்வாகும். இதில் அடுத்து நாம் என்ன செய்ய வேண்டும் என்று வழிமொழிய முனைகின்றோம். இது பகுப்பாய்வின் உச்சகட்டம் எனலாம். என்ன தான் நடக்கும் நடக்கட்டுமே என்று இருந்து விட முடியாதல்லவா? நாம் அதற்கு என்ன செய்யவேண்டும் என்று முடிவெடுத்து அதன்படி நடக்கவேண்டும். யூடியூப், கூகுள் மேப் ஆகியவை அடுத்து நாம் எந்த அசைபடத்தைப் பார்க்கவேண்டும் என்றோ அடுத்து எந்த வழி திரும்பவேண்டுமென்றோ தானியங்கியாகச் சொல்ல என்ன மாதிரி பகுப்பாய்வை மேற்கொள்ள வேண்டும் என்று எண்ணிப் பார்க்க வேண்டும். இதற்குப் பல மாதிரிகள் (Models), கணித/புள்ளியியல் சமன்பாடுகள், கோட்பாடுகள் பயன்படுத்தப்படுகின்றன. எக்செல் மென்பொருளில் இருக்கும் தீர்வியை (Solver) இங்கே குறிப்பிடலாம். செய்யறிவும் (AI), இயந்திரக்கற்றலும் (Machine Learning), ஆழக்கற்றலும் (Deep Learning) இதை நோக்கியே பயணிக்கின்றன.

தரவுச் சுரங்கம் - 17

              இன்று கணினித் தரவுச் சந்தையில் கோலோச்சியிருக்கும் தரவு பகுப்பாய்வின் பல வகைகளை இந்தப் பகுதியில் காண்போம்.  ஆங்கிலத்தில் இரண்டு சொற்களைக் காண்கின்றோம். Analysis – Analytics. இவையிரண்டு சொற்களும் ஒன்றுக்கொன்று மாற்றாகவோ அல்லது ஒன்றையொன்று வேறுபடுத்துவதாகவோ கையாளப்படுகின்றது. இரண்டும் ஒன்றே என்று பலரும், இரண்டும் வெவ்வேறே என்று பலரும் பல இணையதளங்களிலும் புத்தகங்களிலும் உரையாடுவதையும் விவாதம் செய்வதையும் காணமுடிகின்றது. வேறுபடுத்திப் பார்க்கும் பலரும் விவாதிக்கும் குறிப்பிடத்தக்க வித்தியாசங்கள் இவை:

  1. Analysis ஐ விட Analytics என்பது உயர்தரமானது.
  2. முதலாவது முடிந்ததும் இரண்டாவது ஆரம்பமாகின்றது.
  3. முதலாவது இறந்த காலத்தை ஆய்வு செய்வதாகவும், இரண்டாவது எதிர்காலத்தை ஊகிக்க வல்லதாகவும் உள்ளது.
  4. முதலாவது பொதுவானது. இரண்டாவது குறிப்பிட்ட வகையானது என்போரும் உள்ளனர்.
  5. முதலாவது குறிப்பிட்ட வகையானது, இரண்டாவது பொதுவானது என்போரும் உள்ளனர்!
  6. முதலாவது படைப்பு என்றால் இரண்டாவது அதைப் படைக்கும் கருவித் தொகுப்பு என்றும் சிலர் கூறுகின்றனர்.
  7. ஆங்கில அகராதியோ Analysis  என்பது தீர ஆய்வது (a detailed examination of anything complex in order to understand its nature or to determine its essential features : a thorough study) என்றும், Analytics என்பது (the method of logical analysis) அவ்வாறு ஆய்வதற்கான முறையான வழிமுறை என்றும் குறிப்பிடக் காண்கின்றோம்.

ஆக, ஒன்று மட்டும் நிச்சயமாகின்றது. இரண்டும் ஒன்றாகவே இருந்தாலும் இன்றைய காலகட்டத்தில் இவை இரண்டையும் ஒன்றாய்ப் பார்ப்பதற்கான வாய்ப்பைக் கடந்து விட்டதாகவே நாம் கருதலாம். ஏனென்றால் கணினி உலகில் இவ்விரு சொற்களின் பயன்பாடும் வெவ்வேறு இடங்களில் வெவ்வேறு விதமாகவே உள்ளது. கடந்த இருபது ஆண்டுகளில் தரவுப் பகுப்பாய்வில் ஏற்பட்டிருக்கும் முன்னேற்றத்தைச் சுட்டிக் காட்டுவதாக Analytics என்ற சொல்லே பயன்படுத்தப்படுகின்றது. எனவே பழையன கழிதலும் புதியன புகுதலும் வழுவல எனும் சொல்லுக்கேற்ப நானும் இந்தத் தொடரில் இவ்விரண்டும் வேறெனக் கருதித் தொடர்கின்றேன்.

இரண்டுக்கும் முக்கிய வேறுபாடாகப் பலரும் குறிப்பிடுவது இவற்றில் பயன்படுத்தும் கருவிகளையும், முறைகளையும், பயன்பாடுகளையும் பற்றியதாகவே உள்ளது. எடுத்துக்காட்டாக Analyticsல் அதிகப்படியான புள்ளியியல் கோட்பாடுகளையும், கணித சூத்திரங்களைப் பயன்படுத்துவதும், பெருந்தரவில் உள்ளமைந்துள்ள பாங்குகளைக் கண்டறிந்து அதை எதிர்காலத்தில் எவ்வாறு பயன்படுத்தி வியாபார முடிவுகளை எடுக்க முடியும் என்பதையும் காண முடிகின்றது. கீழ்க்கண்ட படத்தைக் காணுங்கள். நீங்களே முடிவெடுத்துக் கொள்ளுங்கள். இணையத்தில் இது போன்ற வித்தியாசமான கருத்துள்ள பல்லாயிரக்கணக்கான படங்களைக் காண முடிகின்றது.

The Difference Between Business Analytics and Business Analysis

எதிலும் நமக்கென்று ஒரு கருத்தும் இருக்கும் அல்லவா? அதையும் இங்கே குறிப்பிடுகின்றேன். ஆனால் இது எனது தனிப்பட்ட சொந்தக் கருத்தாகும். என்னைப் பொருத்தவரை Analysis என்பது நாம் என்ன காண்கின்றோம் என்று அறிந்து அதைக் காண்பதாகும். Analytics என்பது நாம் என்ன காண்கின்றோம் என்பதை அறியாமல் அதைப் புதியதாகக் கண்டறிந்து வெளியிடுவதாகும்! அதாவது ஆய்வுக்கும் ஆராய்ச்சிக்கும் இருக்கும் வேறுபாடை நான் இவ்விரு சொற்களின் பயன்பாட்டின் மூலம் உணர முடிகின்றது. மற்றவர்கள் இதுவரை கண்டிராத ஒரு கண்ணோட்டத்தில் தரவைப் பயன்படுத்திக் கண்டறிந்து அதைச் சரியான நேரத்தில் சரியான முறையில் பயன்படுத்திப் பலரும் பயனடைவதே சிறப்பு. அதையே பகுப்பாய்வு செய்ய வேண்டும்.

கூகுள் நிறுவனம் தரவுப் பகுப்பாய்வின் படிநிலைகளை இவ்வாறு வரையறுக்கின்றது. சுருக்கமாக APPASA என்றும் அழைக்கப்படுகின்றது.

Ask - கேள்வி

Prepare - தயாரித்தல்

Process - தகவமைத்தல்

Analyze - பகுப்பாய்வு

Share - பகிர்வு

Act – செயல்பாடு

எந்த ஒரு விடையின் தராதரமும் கேள்வியின் தராதரத்தை ஒட்டியே இருக்கின்றது. ஒரு புத்திசாலித்தனமான கேள்விக்கு ஒரு புத்திசாலித்தனமான பதிலே விடையாகக் கிடைக்கக்கூடும். எனவே தகுந்த வித்தியாசமான கோணத்தில் கேள்வி கேட்பதில் ஆரம்பித்து, அதற்கான தரவுகளை எங்கெங்கு கிடைத்தாலும் அதனைப் பக்குவமாகச் சேகரித்து, பின்னர் நாம் ஏற்கனவே கண்ட பதப்படுத்தும் முறைகளைக் கொண்டு தகவமைத்து அதனை மீண்டும் மீண்டும் ஆய்வுக்கு உட்படுத்தி நாம் மட்டுமே மஞ்சள் கண்ணாடி கொண்டு உலகைக் காண்பது போல் காணாமல் மற்றவர்களுக்கும் அதைப் பகிர்ந்து அவர்களின் கருத்துகளையும் உள்வாங்கிப் பின் தேவையான முடிவுகளை எடுத்து அதைச் செயல்பாட்டில் சாதித்துக் காட்டுவதே கூகுளின் தரவுப் பகுப்பாய்வுப் படிநிலையின் உன்னதம் ஆகும். உலகின் முன்னணி நிறுவனமான கூகுளால் முடியுமென்றால் நம்மாலும் முடியும் தானே?

தரவுச் சுரங்கம் - 16

பெருந்தரவைப் பகுப்பாய்வு செய்வதற்கும், அதைக் காட்சியாக வரைபடத்தில் உள்ளுணர்ந்து காண்பதற்கும் எக்செல் போன்ற மின்விரிதாள் மென்பொருளைப் பயன்படுத்த இயலாதா? அதிலேயே அத்தனை வசதிகளும் இருக்கத் தானே செய்கின்றன என்ற கேள்வி எழுகின்றது.

பொதுவாக மின்விரிதாள் மென்பொருள் என்பது பெருந்தரவுக்கு உகந்ததல்ல. ஏனெனில் அதன் வடிவமைப்பும் இயல்பான தன்மையும் அவ்வாறுள்ளது. அடிக்கடி மா(ற்)றக் கூடிய சிக்கலான கணக்குகளை எளிதான சூத்திரங்களின் மூலம் சாத்தியமாக்கும் மென்பொருளாக அது விளங்குகின்றது. சிறிய வகை தரவைப் பகுப்பாய்வு செய்கின்ற வசதி இருந்தாலும் கட்டமைப்பில்லா இடத்தில் கட்டமைவுள்ள தரவைப் பயன்படுத்த முடியும் என்றாலும் அதன் அமைப்பு பெருந்தரவுக்கு ஒத்ததாக இல்லை.

மொத்தமே 1048576 வரிகளே வைக்க முடியும். ஒவ்வொரு நிரலுக்கும் சுட்டி (Index) உருவாக்க முடியாது. ஒரு அட்டவணைக்கும் இன்னொரு அட்டவணைக்குமான உறவுமுறையை உறவுமுறைத் தரவமைப்பைப் போல் நிர்ணயித்துப் பொருத்தி ஒட்டு மொத்தமாக ஒரு தரவுப் படிமத்தை (Data Model) உருவாக்க இயலாது. இன்றைய நவீனப் பகுப்பாய்வுக் களமான நெடுவரிசைத் தரவுத்தள (Columnar Database) அடிப்படையில் மின்விரிதாளில் தரவைப் பேண முடிவதில்லை. தற்போதைய தகவல் பலகத்தில் (Dashboard) உள்ளது போல் ஒரு வரைபடத்தில் சுட்டி அதில் குறிப்பிட்ட இடத்தை மட்டும் வெட்டினால் மற்ற வரைபடங்களிலும் அது எதிரொலிப்பது போன்ற வசதிகள் (Interactive Slicing) இல்லை என்று மின்விரிதாள் மென்பொருளின் பகுப்பாய்வுக் குறைகளை அடுக்கிக் கொண்டே செல்லலாம்.

இருந்த போதிலும், மின்விரிதாளிலும் மேலே கண்ட வசதிகளைக் கொண்டு வந்து விட்டால் பகுப்பாய்வுக்கு மட்டும் என்று வேறொரு மென்பொருளை நாட வேண்டிய அவசியம் இல்லையே என்பதே அனைவரின் எதிர்பார்ப்பாக இருந்தது. எனவே தற்போதைய மின்விரிதாள் மென்பொருள் கட்டமைப்பாளர்களில் முதன்மையாகக் கருதப்படும் மைக்ரோசாஃப்ட் எக்செல் மற்றும் கூகுள் ஷீட்ஸ் ஆகிய இரு பெரும் நிறுவனங்களும் இதில் ஈடுபட்டுள்ளன. மற்ற மென்பொருள் வல்லுநர்களும் இதே பாதையில் தான் செல்ல முற்பட்டுள்ளனர். இந்தப் போட்டியில் முன்னணியில் தொடர்ந்து சென்று மைக்ரோசாஃப்ட் எக்செல்லின் சமீபத்திய பதிப்புகள் யாவும் பெருந்தரவுப் பகுப்பாய்வை முன்வைத்தே அனைத்து புதுமைகளையும் கண்டு வருகின்றது. எனவே எக்செல்லின் சமீபத்திய பதிப்புக்கு மாறுவதும், அதன் புதிய அம்சங்களைக் கற்றுணர்வதும் அனைத்து மின்விரிதாள் மென்பொருள் பயனர்களின் பொறுப்பாகின்றது.

எக்செல் கொண்டு வந்துள்ள சில புதிய வசதிகள்:

  1. அணிகளில் புதுமை – இயங்கு அணி (Dynamic Array)
  2. டேபுலர் என்ற உள்ளமைந்த நெடுவரிசைத் தரவுத்தளம் (Tabular – in memory Columnar Database)
  3. எந்த அளவு, விதம், அமைவும் உடைய எத்தகைய தரவாக இருந்தாலும் அதைச் சீரமைத்து தரவுப் படிவத்திற்கு ஏற்றவாறு மாற்றும் பவர் க்வரி எனும் அமைப்பு (Power Query for ETL)
  4. அவ்வாறு தரவுப்படிவத்திலிருக்கும் தரவில் இருந்து பகுப்பாய்வுக்கு ஏற்றவாறு பல்பரிமாணக் கண்ணோட்டத்தில் காண வைக்கும் பவர் பைவட் என்னும் அமைப்பு (Power Pivot with DAX)
  5. காலத்துக்குத் தகுந்த மாதிரியான பலவித தரவுசார் வசதிகள் (எ.கா. தரவு வகை) (Data Types)
  6. கால பருவ மாற்றங்களைக் கணக்கில் கொள்ள  Forecasting with Exponential Smoothing
  7. புள்ளியியல் வரைபடங்கள்

இவ்வாறு நிறைய வசதிகளைக் கொண்டு வரும் மின்விரிதாள் மென்பொருளைப் பயன்படுத்த ஆரம்பிக்கும் போது நம்மால் பெருந்தரவைப் பகுப்பாய்வு செய்வதற்கும் காட்சியாகக் காண்பதற்கும் ஏதுவாகின்றது. இருந்த போதும் மின்விரிதாள் மென்பொருளின் தனித் தன்மை இதனால் இழந்து போகும் என்று வாதிடும் வல்லுனர்களும் உள்ளனர். எனினும் அடுத்த தலைமுறை தரவு பகுப்பாய்வுக்கான துவக்கப் புள்ளியாக மின்விரிதாளின் பங்கு மகத்தானது.

தரவுச் சுரங்கம் - 15

இன்றைய தகவல் தொழில்நுட்பச் சந்தையில் வியாபார நுண்ணறிவு தொடர்பான மென்பொருளின் பங்கு மிக அதிகமாகவே உள்ளதைக் காண்கின்றோம். சென்ற பகுதியில் நாம் கண்ட தகவல் வரைகலை மற்றும் தரவு காட்சிப்படுத்தலின் தொடர்ச்சியாக, அதற்கு உதவிகரமாக இருக்கும் சில மென்பொருட்களின், சேவைகளின் பட்டியலைத் தற்போது காண்போம். இவற்றில் பல மென்பொருட்கள்/வசதிகள் இலவசமாகக் கிடைக்கின்றன என்பது வியாபாரத் துறைக்கு ஒரு வரப்பிரசாதம் என்றே கொள்ளலாம்.

இந்த மென்பொருட்களின் பட்டியல் என்பது ஒரு முடிவான ஒன்று அல்ல. அது ஒரு மிகப் பெரிய பட்டியலாகும். இந்த மென்பொருட்களைப் பட்டியலிடும் போது சில விஷயங்களைக் கருத்தில் கொள்ளலாம்.

தரவு காட்சியமைப்பு மென்பொருட்கள் அனைத்துமே அனைவரும் பயன்படுத்தும் வண்ணம் எளிமையாக உருவாக்கப்பட்டுள்ளன. அனைவருமே செயற்கை நுண்ணறிவையும், இயந்திரவழிக் கற்றலையும் எவ்வாறு இதில் புகுத்தலாம் என்பதில் மிகுந்த முனைப்புடன் இருக்கின்றார்கள் என்பதும் தெரிகின்றது.

இந்தத் துறையில் இருப்பவர்கள் இவற்றைக் குறைந்த நேரம் செலவிட்டுக் கற்றுக் கொள்ளவியலும். மேலும் ஒன்றைப் போலவே மற்ற மென்பொருட்கள் இருப்பதாலும் ஒன்றுக் கொன்று அதிக வித்தியாசமில்லாத வசதிகளைக் கொண்டிருப்பதாலும் ஒரு மென்பொருளைக் கற்றுக் கொண்டாலே மற்றவற்றைக் கற்றுக் கொள்ளத் தேவையில்லை என்பதையும் உணரலாம். மேலும் ஒன்றை ஒன்று மாறுபடுத்தும் வசதிகளே அவற்றை நோக்கி அவற்றின் வாடிக்கையாளர்கள் செல்வதற்கான காரணமாக அமைகின்றது. எது எப்படியிருப்பினும் எப்பேர்ப்பட்ட பெருந்தரவையும் உள்வாங்கி  அதைப் பகுப்பாய்வு செய்வதை இம்மென்பொருட்கள் அனைத்துமே அடிப்படை வசதியாகக் கொண்டுள்ளன.

பகுதி இலவசமாகவும், முக்கிய வசதிகளைச் செயல்படுத்த வேண்டியிருக்கும் போது அதிக விலையும் கொண்ட மென்பொருட்களையும் காண்கின்றோம். அப்படியான மென்பொருட்களில் பெரும்பாலும் ஆலையில்லா ஊருக்கு இலுப்பைப்பூ சர்க்கரை எனும் பழமொழிக்கேற்ப இலவச வசதிகளை மட்டுமே பயன்படுத்தி திருப்தியடையும் பலரையும் காணமுடிகின்றது.

இப்போது சில மென்பொருட்களின் பட்டியலைக் காணலாம்:

  1. Tableau
  2. Power BI
  3. Zoho Reports
  4. Google Charts
  5. Visual.ly
  6. IBM Watsom
  7. Plotly
  8. Fusioncharts
  9. Qlikview
  10. Infogram
  11. ChartBlocks
  12. Chart.js
  13. KNIME
  14. Grafana
  15. Data Wrapper
  16. JupyteR

மேற்கண்ட பட்டியலைக் காண்பவர்கள் நாம் அன்றாடம் பயன்படுத்தும் மின்விரிதாள் மென்பொருளான எக்செல் இந்தப் பட்டியலில் இடம் பெறாதா என்று கேட்பது வழக்கம். அடுத்த பகுதியில் இதற்கான விடையையும், எவ்வாறு எக்செல் அல்லது எந்த ஒரு மின்விரிதாள் மென்பொருளைப் பயன்படுத்தியும் தகவல் வரைகலையையும் தரவு காட்சிப்படுத்தலையும் செய்யலாம் என்பதைக் காணலாம்.

மேலே குறிப்பிட்ட மென்பொருட்களில் சிலவற்றைப் பயன்படுத்திப் பார்க்கவும்.

தரவுச் சுரங்கம் - 14

தரவை எவ்வாறு காட்சிப்படுத்தலின் மூலம் பகுப்பாய்வு செய்ய இயலும் என்பதையும் அது தரவு அறிவியலின் மிக முக்கிய பங்கு வகிக்கின்றது என்பதையும் சென்ற பகுதியில் பார்த்தோம். இப்போது தரவைக் காட்சிப்படுத்தும் கலை பற்றிக் காண்போம். சமீபகாலங்களில் இதற்கு ஒரு கலைச்சொல் உருவாக்கப்பட்டு பயன்பாட்டில் உள்ளது. ஆங்கிலத்தில் infographics என்றழைக்கப்படும் “தகவல் வரைகலை” வருங்காலத்தில் தனிப்பட்ட ஒரு துறையாக மாறும் அளவுக்கு அதில் வல்லுநர்களும் புதிய உத்திகளும் உருவாகி வருகின்றது. தரவு காட்சிப்படுத்தல்  என்பது ஒரு வரைபடத்தில் எவ்வாறு தரவு காட்டப்படுகின்றது என்பதாம். ஆனால் அதுவே தகவல் வரைகலை என்பது வரைபடத்தை எவ்வாறு காண்பது என்ற தொழில்நுட்பம் அறியாத பாமர மக்களும் அறிந்துய்ந்துணரும் வண்ணம்  தகவலாக உருமாற்றம் அடைந்த தரவை எவ்வாறு குறைந்த சொற்களைக் கொண்டு வரைகலையில் கொண்டு வருவது எனும் கலையாம். இரண்டும் வெவ்வேறு என்றாலும் ஒன்றுக்கொன்று தொடர்புடையது.

தரவு காட்சிப்படுத்தல்:

தரவு காட்சிப்படுத்தல் என்பது தரவுகளை விரைவாக பார்ப்பதற்கு பயன்படுத்தப்படும் ஒரு பயன்பாடு. இது ஒரு காகிதத்தில் அல்லது ஒரு பக்கத்தில் பார்க்க முடியாத பெருந்தரவையும் பார்க்க, விளக்க, வாசிக்க, மற்றும் செயல்படுத்த முடிவுகளை ஏற்படுத்துவதற்கு உபயோகிக்கப்படும். பலவகை தரவு காட்சிப்படுத்தல் மென்பொருள் இப்போது கிடைக்கின்றது. தகவல் காட்சிப்படுத்தல் துறை மனிதர்-கணினி ஊடாட்டம், கணினியியல், வரைகலை, காட்சி வடிவமைப்பு, உளவியல், வணிக மாதிர்கள் ஆகிய துறைகளின் ஆய்வுகளில் இருந்து உருவாகி உள்ளது. இத்துறை அறிவியல் ஆய்வு, எண்ணிம நூலகங்கள், தரவு அகழ்வு, நிதித் தரவு பகுப்பாய்வு, சந்தையியல், உற்பத்திச் செயலாக்கக் கட்டுப்பாடு, மருந்துக் கண்டுபிடிப்பு போன்ற துறைகளில் முதன்மையாகப் பயன்படுகிறது.

தரவு காட்சிப்படுத்தலின் முக்கிய நோக்கம் பயனாளர்களுக்கு தகவல்களை படக் காட்சி முறையில் காண்பிப்பது. தரவை காட்சிப்படுத்துதல், புள்ளியியல் வரைகலை முறையைப் பயன்படுத்துகிறது. இம்முறையில் எண்வகை தரவு, புள்ளி, கோடு அல்லது பட்டையைக் கொண்டு, குறியாக்கப்பட்டு, அளவைக்குரிய செய்திகளை காட்சிப்படுத்துவதன் மூலம் அறிவிக்கலாம். (நன்றி: தமிழ்நாடு பாடநூல் நிறுவனம்)

தரவு காட்சிப்படுத்தலின் வகைகள்

• வரைப்படங்கள் (Charts)

• அட்டவணைகள் (Tables)

• வரைகலை (Graphs)

• நிலப்படங்கள் (Maps)

• தகவல் வரைகலை (Infographics)

• முகப்பலகம் – கட்டுப்பாட்டகம் (Dashboards)

தரவு காட்சிப்படுத்தலின் பயன்கள்:

• தரவு காட்சிப்படுத்தல் பயனர்கள் தரவுகளை எளிதாக கூர்ந்து ஆய்வு செய்யவும், உட்பொருளை வெளிப்படுத்த உதவுகிறது.

• இது சிக்கலான தரவுகளை புரிந்துக் கொண்டு அவற்றை பயன்படுத்திக் கொள்ள வழி செய்கிறது.

• தரவு காட்சிப்படுத்தல் பல்வேறு வரைப்படங்களைக் கொண்டு தரவு மாறிகளுக்கு இடையே உள்ள உறவு நிலையை வெளிப்படுத்துகிறது.

வரைபட வகைகள்

வரைபடங்களில் பல்வேறு வகைகள் உள்ளன. குறிப்பிட்ட வகைத் தரவுக்கு குறிப்பிட்ட வகை வரைபடமே ஏற்றதாக இருக்கும். ஏராளமான வரைபட வகைகள் இருக்கின்றன. அவற்றுள் மிகப் பரவலாகப் பயன்படுத்தக் கூடிய முக்கியமான சிலவற்றைப் பார்ப்போம்:

பட்டை வரைபடம் (Bar Chart):

காலம், இடம் அல்லது வகைப்பாட்டு வாரியான மதிப்புகளை ஒப்பிட ஏற்றது. மாத வாரியான விற்பனை, மாவட்ட வாரியான மழை, மாத வாரியாக வரவு செலவுக்கான ஒப்பீடு போன்ற புள்ளி விவரங்களுக்குப் பயன்படுத்தலாம். அளவீட்டுப் பட்டைகள் செங்குத்தாகவோ கிடைமட்டமாகவோ அமையலாம். பட்டைகள் செங்குத்தாக அமையும் வரைபடத்தை ‘நெடுக்கை வரைபடம்’ (Column Chart) என்று கூறுவதுமுண்டு.

அடுக்குப் பட்டை வரைபடம் (Stacked Bar Chart):

காலம், இடம் அல்லது வகைப்பாட்டு வாரியாக ஒன்றுக்கு மேற்பட்ட கூறுகளின் கூட்டு மதிப்பை ஒப்பிட ஏற்றது. மாத வாரியாக இரண்டு மூன்று பொருள்களின் மொத்த விற்பனை போன்ற ஒப்பீடுகளுக்குப் பயன்படுத்தலாம்.

வட்ட வரைபடம் (Pie Chart):

முழுமை மதிப்பில் ஒவ்வொரு கூறுகளும் எவ்வளவு பங்கு என்பதைத் தெளிவுபடுத்த ஏற்றது. வரவு-செலவுத் திட்டத்தில் மொத்த வருமானத்தில் பல்வேறு பணிகளுக்கான செலவு மதிப்பீடு, மக்கள் தொகையில் வெவ்வேறு மதங்களைச் சார்ந்தோரின் விழுக்காடு, நாடாளுமன்றத் தில் பல்வேறு கட்சிகள் வகிக்கும் இடங்கள் - இதுபோன்ற விவரங்களை வெளியிட மிகவும் உகந்தது.

கோட்டு வரைபடம் (Line Chart):

ஏற்றம் இறக்கம் கொண்ட ஒரு நிகழ்வின் தொடர்ச்சியான போக்கினைச் சுட்டிக்காட்ட ஏற்றது. மாதந்தோறும் விலைவாசிப் புள்ளி உயர்வு, பங்குச் சந்தையில் சென்செக்ஸ் குறியீட்டின் ஏற்ற இறக்கம், கிரிக்கெட் போட்டியில் இந்தியாவும் பாகிஸ்தானும் ஒவ்வோர் ஓவரிலும் எடுத்த ரன்கள் - இத்தகைய விவரங்களுக்கு உகந்தது.

வரைபடம் உருவாக்கும்போது, தரவுக்கு ஏற்ற வரைபட வகையை நாம்தான் முடிவுசெய்ய வேண்டும். வகையை முடிவு செய்துவிட்டால் வரைபடத்தை எளிதில் உருவாக்கி விடலாம். (நன்றி: தமிழ் மெய்நிகர் பல்கலைக்கழகம்)

அப்படியே தகவல் வரைகலை பற்றியும் காணலாம். தகவல் வரைகலை நாம் ஏற்கனவே கண்டது போல் தகவலையும் சொற்களையும் படங்களையும் கொண்டு நேர்த்தியான புதுமையான வரைகலையையும் சேர்த்து அதை யாவரும் உணரும் வண்ணம் உருவாக்கும் கலையாகும். எடுத்துக்காட்டாக, கொரொனா பெருந்தொற்றின் போது நமது அரசாங்கம் அனைவரும் அறிந்து கொள்ளும் வகையில் கைகளை எவ்வாறு சுத்தம் செய்ய வேண்டும் என்று படத்தொகுப்பின் மூலம் தெரிவித்தது அல்லவா? அதைக் குறிப்பிடலாம்.

தகவல் வரைகலை குறைந்தபட்சம் எட்டு வகைப்படும்.

பட்டியல் தகவல் வரைகலை List infographics.

புள்ளியியல் தகவல் வரைகலை Statistical infographics.

வழிமுறை தகவல்வரைகலை How-to infographics.

காலவரிசை தகவல் வரைகலை Timeline infographics.

ஒப்பீடு தகவல் வரைகலை Comparison infographics.

வரைபடம் மற்றும் இடம் சார்ந்த தகவல் வரைகலை Map and location infographics.

பாய்வுப்பட தகவல் வரைகலை Flowchart infographics.

செயல் வழிமுறை தகவல் வரைகலை Process description infographics.

தரவு காட்சிப்படுத்தலும் தகவல் வரைகலையும் இவ்வளவு தான் என்று வரையறைப்படுத்த முடியாத அளவுக்கு நூதனமான பல அமைப்புகளைக் கொண்டு திகழ்கின்றது. தினமும் புதுமைகளைக் கொண்டு வந்து சேர்க்கின்றது. இதனால் வியாபார உலகிற்குக் கிடைக்கும் நன்மைகள் சொல்லிலடங்கா! அடுத்த பகுதியில் தரவுக்காட்சிப்படுத்தலுக்கும், தகவல் வரைகலைக்கும், முகப்பலகத்திற்கும் பயன்படுத்தப்படும் பல மென்பொருட்கள் பற்றி விரிவாகக் காணலாம்.

தரவுச் சுரங்கம் - 13

இந்தப் பகுதியில் பல கருத்தாழமிக்க தகவல் தொழில்நுட்பச் சொல்லாடல்களையும் ஒன்றாகக் கட்டி வைத்திருக்கும் சங்கிலியைப் பற்றிக் காண்போம். எடுத்துக்காட்டாக வியாபார நுண்ணறிவு (Business Intelligence), தரவுத்தள மேலாண்மை (Database Management), தகவல் தொழில்நுட்பம் (Information Technology), தரவுச்சுரங்கம் (Data Mining), தரவுக் கிட்டங்கி (Data Warehouse), நிகழ்தரவு பகுப்பாய்வு (Online Analytical Processing), செயற்கை நுண்ணறிவு (Artificial Intelligence), இயந்திரக் கற்றல் (Machine Learning), ஆழக் கற்றல் (Deep Learning) போன்ற பல நவீனக் கணினித் தரவுச் சொற்களைத் தற்போது காண முடிகின்றது.  இவை அனைத்தையும் ஒன்றிணைத்து ஒரு நவயுகத் துறையாக உருவெடுத்து வருவது தரவு அறிவியல் ஆகும். தகவல் அறிவியல் வேறு. தரவு அறிவியல் வேறு. இன்று நாம் காண இருப்பது தரவு அறிவியல்.

தரவு அறிவியல் என்றால் என்ன? விக்கிப்பீடியாவில் அறிவார்ந்த பெருமக்கள் என்ன சொல்கின்றார்கள் என்று பார்ப்போம்.

தரவு அறிவியல் கணிதம், புள்ளியியல், கணினி அறிவியல், தரவுச் செயலாக்கம் போன்ற பல்வேறு துறைகளிலிருந்து கோட்பாடுகளையும், தொழில்நுட்பங்களையும் பயன்படுத்துகிறது. தரவு அறிவியலின் ஒரு முக்கியமான பிரிவு பெருந் தரவு ஆகும்.

உழவு, சந்தைப்படுத்தலை மேம்படுத்தல், மோசடிகளைக் கண்டுபிடித்தல் போன்ற சிக்கல்களை ஆராய, தரவுத் தயார்ப்படுத்துதல், புள்ளியியல், இயந்திரக் கற்றல் போன்ற துறைகளைத் தரவு அறிவியல் பயன்படுத்துகிறது.

தரவு விஞ்ஞானிகள் தங்களின் திறனைப் பயன்படுத்தி தரவு மூலத்தை கண்டுபிடித்து விளக்கவும், வன்பொருள், மென்பொருள் மற்றும் அலைவரிசை தடைகள் இருந்தபோதிலும் அதிக அளவிலான தரவுகளை நிர்வகிக்கவும், தரவுகளுக்கான ஆதாரங்களை இணைக்கவும், தரவுகளின் நிலைத்தன்மையை உறுதிப்படுத்தவும், தரவுகளை புரிந்து கொள்வதற்கு உதவியாக காட்சிப்படங்களை உருவாக்கவும், தரவுகளைப் பயன்படுத்தி கணித மாதிரிகளை கட்டமைக்கவும் மற்றும் தரவுகளைப்பற்றிய கண்டுபிடிப்புகளை வெளிப்படுத்தவும் செய்கிறார்கள்.

என்ன அருமையான விளக்கம் பாருங்கள்? மேற்கண்ட பத்திகளைத் திரும்பத் திரும்ப இருமுறை வாசித்துப் பார்த்தாலே தரவு அறிவியல் பற்றி உணர்ந்து கொள்ளலாம்.

இன்றைய தகவல் தொழில்நுட்ப யுகத்தின் புதிய துறையாகவும் அதிக வேலைவாய்ப்பைத் தரக் கூடிய துறையாகவும் இந்தத் தரவு அறிவியல் துறையைக் காண முடிகின்றது. இந்தியர்கள் அதிலும் குறிப்பாக கணிப்பொறியாளர்கள் தங்கள் வாயால் உச்சரிக்கும் ஒரு மந்திரமாக இந்தச் சொல் இருப்பதைக் காணலாம்.

இதில் ஒரு கணிப்பொறியாளர் தம்மை ஒரு தரவு விஞ்ஞானியாக மேம்படுத்திக் கொள்வதைக் காணலாம். விஞ்ஞானிகள் என்பவர்கள் உலகில் ஆல்பர்ட் ஐன்ஸ்டீன் போல ஐசக் நியூட்டனைப் போல அபூர்வமாகப் பிறப்படுத்துத் தங்கள் கண்டுபிடிப்புகளைக் கொண்டு சாதனைகளையும் புதுவிதக் கருவிகளையும், இயற்கையின் விசித்திரமான புதிர்களுக்கான பதில்களையும் கண்டுபிடிப்பவர்களாகத் தான் இதுவரை நாம் உணர்ந்திருக்கின்றோம்.

இன்றோ யார் வேண்டுமானாலும் தரவு விஞ்ஞானி ஆக முடிகின்ற ஒரு வசதியையும் வாய்ப்பையும் இந்தக் கணினித் துறை உருவாக்கிக் கொடுத்திருக்கின்றது என்றால் அது மிகையாகாது.

மேலே குறிப்பிட்டபடி, கணிதம், புள்ளியியல், கணிப்பொறியியல், தரவு மேலாண்மை குறித்த அறிவு ஆகியவற்றை வளர்த்துக் கொண்டால் நீங்கள் நானும் கூட தரவு விஞ்ஞானிகளாக ஆகி விட முடியும்!

இன்றைய உலகம் காண்கின்ற மற்றும் காணப் போகின்ற பல்வேறு பிரச்னைகளுக்கும் கணினியைப் பயன்படுத்தி தீர்வு காணும் ஒரு துறை தரவு அறிவியல் துறை.

இதனை இதனால் இவன்முடிக்கும் என்றாய்ந்து அதனை அவன்கண் விடல். என்னும் திருக்குறளுக்கு ஏற்ப விண்மீண்களின் எண்ணிக்கையை ஒத்திருக்கும் பெருந்தரவை ஆராய்ந்து அதிலிருந்து காலப் புதிர்களை விடுவிக்கும் அறிவைப் பெறுவதற்குக் கணினியை எவ்வாறு பயன்படுத்துவது என்பதை இப்போது மனிதன் நன்றாகவே கற்றுக் கொண்டு விட்டான். தரவு அறிவியலில் இன்று பலரும் கற்றுத் தேர்ந்து கணினியின் கையில் சுக்கானைக் கொடுத்து பெருந்தரவுக் கடலில் கப்பல் ஓட்ட வைக்கின்றார்கள்.

தரவு விஞ்ஞானிகள் “தரவுகளை புரிந்து கொள்வதற்கு உதவியாக காட்சிப்படங்களை (Visualizations) உருவாக்கவும், தரவுகளைப் பயன்படுத்தி கணித மாதிரிகளை (Mathematical Models) கட்டமைக்கவும் மற்றும் தரவுகளைப்பற்றிய கண்டுபிடிப்புகளை வெளிப்படுத்தவும் செய்கிறார்கள்.” மேலே தடிப்பான எழுத்துகளில் கூறப்பட்டிருப்பதில் நம் கவனத்தைச் செலுத்துவோம்!