தரவுச் சுரங்கம் - 16

பெருந்தரவைப் பகுப்பாய்வு செய்வதற்கும், அதைக் காட்சியாக வரைபடத்தில் உள்ளுணர்ந்து காண்பதற்கும் எக்செல் போன்ற மின்விரிதாள் மென்பொருளைப் பயன்படுத்த இயலாதா? அதிலேயே அத்தனை வசதிகளும் இருக்கத் தானே செய்கின்றன என்ற கேள்வி எழுகின்றது.

பொதுவாக மின்விரிதாள் மென்பொருள் என்பது பெருந்தரவுக்கு உகந்ததல்ல. ஏனெனில் அதன் வடிவமைப்பும் இயல்பான தன்மையும் அவ்வாறுள்ளது. அடிக்கடி மா(ற்)றக் கூடிய சிக்கலான கணக்குகளை எளிதான சூத்திரங்களின் மூலம் சாத்தியமாக்கும் மென்பொருளாக அது விளங்குகின்றது. சிறிய வகை தரவைப் பகுப்பாய்வு செய்கின்ற வசதி இருந்தாலும் கட்டமைப்பில்லா இடத்தில் கட்டமைவுள்ள தரவைப் பயன்படுத்த முடியும் என்றாலும் அதன் அமைப்பு பெருந்தரவுக்கு ஒத்ததாக இல்லை.

மொத்தமே 1048576 வரிகளே வைக்க முடியும். ஒவ்வொரு நிரலுக்கும் சுட்டி (Index) உருவாக்க முடியாது. ஒரு அட்டவணைக்கும் இன்னொரு அட்டவணைக்குமான உறவுமுறையை உறவுமுறைத் தரவமைப்பைப் போல் நிர்ணயித்துப் பொருத்தி ஒட்டு மொத்தமாக ஒரு தரவுப் படிமத்தை (Data Model) உருவாக்க இயலாது. இன்றைய நவீனப் பகுப்பாய்வுக் களமான நெடுவரிசைத் தரவுத்தள (Columnar Database) அடிப்படையில் மின்விரிதாளில் தரவைப் பேண முடிவதில்லை. தற்போதைய தகவல் பலகத்தில் (Dashboard) உள்ளது போல் ஒரு வரைபடத்தில் சுட்டி அதில் குறிப்பிட்ட இடத்தை மட்டும் வெட்டினால் மற்ற வரைபடங்களிலும் அது எதிரொலிப்பது போன்ற வசதிகள் (Interactive Slicing) இல்லை என்று மின்விரிதாள் மென்பொருளின் பகுப்பாய்வுக் குறைகளை அடுக்கிக் கொண்டே செல்லலாம்.

இருந்த போதிலும், மின்விரிதாளிலும் மேலே கண்ட வசதிகளைக் கொண்டு வந்து விட்டால் பகுப்பாய்வுக்கு மட்டும் என்று வேறொரு மென்பொருளை நாட வேண்டிய அவசியம் இல்லையே என்பதே அனைவரின் எதிர்பார்ப்பாக இருந்தது. எனவே தற்போதைய மின்விரிதாள் மென்பொருள் கட்டமைப்பாளர்களில் முதன்மையாகக் கருதப்படும் மைக்ரோசாஃப்ட் எக்செல் மற்றும் கூகுள் ஷீட்ஸ் ஆகிய இரு பெரும் நிறுவனங்களும் இதில் ஈடுபட்டுள்ளன. மற்ற மென்பொருள் வல்லுநர்களும் இதே பாதையில் தான் செல்ல முற்பட்டுள்ளனர். இந்தப் போட்டியில் முன்னணியில் தொடர்ந்து சென்று மைக்ரோசாஃப்ட் எக்செல்லின் சமீபத்திய பதிப்புகள் யாவும் பெருந்தரவுப் பகுப்பாய்வை முன்வைத்தே அனைத்து புதுமைகளையும் கண்டு வருகின்றது. எனவே எக்செல்லின் சமீபத்திய பதிப்புக்கு மாறுவதும், அதன் புதிய அம்சங்களைக் கற்றுணர்வதும் அனைத்து மின்விரிதாள் மென்பொருள் பயனர்களின் பொறுப்பாகின்றது.

எக்செல் கொண்டு வந்துள்ள சில புதிய வசதிகள்:

  1. அணிகளில் புதுமை – இயங்கு அணி (Dynamic Array)
  2. டேபுலர் என்ற உள்ளமைந்த நெடுவரிசைத் தரவுத்தளம் (Tabular – in memory Columnar Database)
  3. எந்த அளவு, விதம், அமைவும் உடைய எத்தகைய தரவாக இருந்தாலும் அதைச் சீரமைத்து தரவுப் படிவத்திற்கு ஏற்றவாறு மாற்றும் பவர் க்வரி எனும் அமைப்பு (Power Query for ETL)
  4. அவ்வாறு தரவுப்படிவத்திலிருக்கும் தரவில் இருந்து பகுப்பாய்வுக்கு ஏற்றவாறு பல்பரிமாணக் கண்ணோட்டத்தில் காண வைக்கும் பவர் பைவட் என்னும் அமைப்பு (Power Pivot with DAX)
  5. காலத்துக்குத் தகுந்த மாதிரியான பலவித தரவுசார் வசதிகள் (எ.கா. தரவு வகை) (Data Types)
  6. கால பருவ மாற்றங்களைக் கணக்கில் கொள்ள  Forecasting with Exponential Smoothing
  7. புள்ளியியல் வரைபடங்கள்

இவ்வாறு நிறைய வசதிகளைக் கொண்டு வரும் மின்விரிதாள் மென்பொருளைப் பயன்படுத்த ஆரம்பிக்கும் போது நம்மால் பெருந்தரவைப் பகுப்பாய்வு செய்வதற்கும் காட்சியாகக் காண்பதற்கும் ஏதுவாகின்றது. இருந்த போதும் மின்விரிதாள் மென்பொருளின் தனித் தன்மை இதனால் இழந்து போகும் என்று வாதிடும் வல்லுனர்களும் உள்ளனர். எனினும் அடுத்த தலைமுறை தரவு பகுப்பாய்வுக்கான துவக்கப் புள்ளியாக மின்விரிதாளின் பங்கு மகத்தானது.

தரவுச் சுரங்கம் - 15

இன்றைய தகவல் தொழில்நுட்பச் சந்தையில் வியாபார நுண்ணறிவு தொடர்பான மென்பொருளின் பங்கு மிக அதிகமாகவே உள்ளதைக் காண்கின்றோம். சென்ற பகுதியில் நாம் கண்ட தகவல் வரைகலை மற்றும் தரவு காட்சிப்படுத்தலின் தொடர்ச்சியாக, அதற்கு உதவிகரமாக இருக்கும் சில மென்பொருட்களின், சேவைகளின் பட்டியலைத் தற்போது காண்போம். இவற்றில் பல மென்பொருட்கள்/வசதிகள் இலவசமாகக் கிடைக்கின்றன என்பது வியாபாரத் துறைக்கு ஒரு வரப்பிரசாதம் என்றே கொள்ளலாம்.

இந்த மென்பொருட்களின் பட்டியல் என்பது ஒரு முடிவான ஒன்று அல்ல. அது ஒரு மிகப் பெரிய பட்டியலாகும். இந்த மென்பொருட்களைப் பட்டியலிடும் போது சில விஷயங்களைக் கருத்தில் கொள்ளலாம்.

தரவு காட்சியமைப்பு மென்பொருட்கள் அனைத்துமே அனைவரும் பயன்படுத்தும் வண்ணம் எளிமையாக உருவாக்கப்பட்டுள்ளன. அனைவருமே செயற்கை நுண்ணறிவையும், இயந்திரவழிக் கற்றலையும் எவ்வாறு இதில் புகுத்தலாம் என்பதில் மிகுந்த முனைப்புடன் இருக்கின்றார்கள் என்பதும் தெரிகின்றது.

இந்தத் துறையில் இருப்பவர்கள் இவற்றைக் குறைந்த நேரம் செலவிட்டுக் கற்றுக் கொள்ளவியலும். மேலும் ஒன்றைப் போலவே மற்ற மென்பொருட்கள் இருப்பதாலும் ஒன்றுக் கொன்று அதிக வித்தியாசமில்லாத வசதிகளைக் கொண்டிருப்பதாலும் ஒரு மென்பொருளைக் கற்றுக் கொண்டாலே மற்றவற்றைக் கற்றுக் கொள்ளத் தேவையில்லை என்பதையும் உணரலாம். மேலும் ஒன்றை ஒன்று மாறுபடுத்தும் வசதிகளே அவற்றை நோக்கி அவற்றின் வாடிக்கையாளர்கள் செல்வதற்கான காரணமாக அமைகின்றது. எது எப்படியிருப்பினும் எப்பேர்ப்பட்ட பெருந்தரவையும் உள்வாங்கி  அதைப் பகுப்பாய்வு செய்வதை இம்மென்பொருட்கள் அனைத்துமே அடிப்படை வசதியாகக் கொண்டுள்ளன.

பகுதி இலவசமாகவும், முக்கிய வசதிகளைச் செயல்படுத்த வேண்டியிருக்கும் போது அதிக விலையும் கொண்ட மென்பொருட்களையும் காண்கின்றோம். அப்படியான மென்பொருட்களில் பெரும்பாலும் ஆலையில்லா ஊருக்கு இலுப்பைப்பூ சர்க்கரை எனும் பழமொழிக்கேற்ப இலவச வசதிகளை மட்டுமே பயன்படுத்தி திருப்தியடையும் பலரையும் காணமுடிகின்றது.

இப்போது சில மென்பொருட்களின் பட்டியலைக் காணலாம்:

  1. Tableau
  2. Power BI
  3. Zoho Reports
  4. Google Charts
  5. Visual.ly
  6. IBM Watsom
  7. Plotly
  8. Fusioncharts
  9. Qlikview
  10. Infogram
  11. ChartBlocks
  12. Chart.js
  13. KNIME
  14. Grafana
  15. Data Wrapper
  16. JupyteR

மேற்கண்ட பட்டியலைக் காண்பவர்கள் நாம் அன்றாடம் பயன்படுத்தும் மின்விரிதாள் மென்பொருளான எக்செல் இந்தப் பட்டியலில் இடம் பெறாதா என்று கேட்பது வழக்கம். அடுத்த பகுதியில் இதற்கான விடையையும், எவ்வாறு எக்செல் அல்லது எந்த ஒரு மின்விரிதாள் மென்பொருளைப் பயன்படுத்தியும் தகவல் வரைகலையையும் தரவு காட்சிப்படுத்தலையும் செய்யலாம் என்பதைக் காணலாம்.

மேலே குறிப்பிட்ட மென்பொருட்களில் சிலவற்றைப் பயன்படுத்திப் பார்க்கவும்.

தரவுச் சுரங்கம் - 14

தரவை எவ்வாறு காட்சிப்படுத்தலின் மூலம் பகுப்பாய்வு செய்ய இயலும் என்பதையும் அது தரவு அறிவியலின் மிக முக்கிய பங்கு வகிக்கின்றது என்பதையும் சென்ற பகுதியில் பார்த்தோம். இப்போது தரவைக் காட்சிப்படுத்தும் கலை பற்றிக் காண்போம். சமீபகாலங்களில் இதற்கு ஒரு கலைச்சொல் உருவாக்கப்பட்டு பயன்பாட்டில் உள்ளது. ஆங்கிலத்தில் infographics என்றழைக்கப்படும் “தகவல் வரைகலை” வருங்காலத்தில் தனிப்பட்ட ஒரு துறையாக மாறும் அளவுக்கு அதில் வல்லுநர்களும் புதிய உத்திகளும் உருவாகி வருகின்றது. தரவு காட்சிப்படுத்தல்  என்பது ஒரு வரைபடத்தில் எவ்வாறு தரவு காட்டப்படுகின்றது என்பதாம். ஆனால் அதுவே தகவல் வரைகலை என்பது வரைபடத்தை எவ்வாறு காண்பது என்ற தொழில்நுட்பம் அறியாத பாமர மக்களும் அறிந்துய்ந்துணரும் வண்ணம்  தகவலாக உருமாற்றம் அடைந்த தரவை எவ்வாறு குறைந்த சொற்களைக் கொண்டு வரைகலையில் கொண்டு வருவது எனும் கலையாம். இரண்டும் வெவ்வேறு என்றாலும் ஒன்றுக்கொன்று தொடர்புடையது.

தரவு காட்சிப்படுத்தல்:

தரவு காட்சிப்படுத்தல் என்பது தரவுகளை விரைவாக பார்ப்பதற்கு பயன்படுத்தப்படும் ஒரு பயன்பாடு. இது ஒரு காகிதத்தில் அல்லது ஒரு பக்கத்தில் பார்க்க முடியாத பெருந்தரவையும் பார்க்க, விளக்க, வாசிக்க, மற்றும் செயல்படுத்த முடிவுகளை ஏற்படுத்துவதற்கு உபயோகிக்கப்படும். பலவகை தரவு காட்சிப்படுத்தல் மென்பொருள் இப்போது கிடைக்கின்றது. தகவல் காட்சிப்படுத்தல் துறை மனிதர்-கணினி ஊடாட்டம், கணினியியல், வரைகலை, காட்சி வடிவமைப்பு, உளவியல், வணிக மாதிர்கள் ஆகிய துறைகளின் ஆய்வுகளில் இருந்து உருவாகி உள்ளது. இத்துறை அறிவியல் ஆய்வு, எண்ணிம நூலகங்கள், தரவு அகழ்வு, நிதித் தரவு பகுப்பாய்வு, சந்தையியல், உற்பத்திச் செயலாக்கக் கட்டுப்பாடு, மருந்துக் கண்டுபிடிப்பு போன்ற துறைகளில் முதன்மையாகப் பயன்படுகிறது.

தரவு காட்சிப்படுத்தலின் முக்கிய நோக்கம் பயனாளர்களுக்கு தகவல்களை படக் காட்சி முறையில் காண்பிப்பது. தரவை காட்சிப்படுத்துதல், புள்ளியியல் வரைகலை முறையைப் பயன்படுத்துகிறது. இம்முறையில் எண்வகை தரவு, புள்ளி, கோடு அல்லது பட்டையைக் கொண்டு, குறியாக்கப்பட்டு, அளவைக்குரிய செய்திகளை காட்சிப்படுத்துவதன் மூலம் அறிவிக்கலாம். (நன்றி: தமிழ்நாடு பாடநூல் நிறுவனம்)

தரவு காட்சிப்படுத்தலின் வகைகள்

• வரைப்படங்கள் (Charts)

• அட்டவணைகள் (Tables)

• வரைகலை (Graphs)

• நிலப்படங்கள் (Maps)

• தகவல் வரைகலை (Infographics)

• முகப்பலகம் – கட்டுப்பாட்டகம் (Dashboards)

தரவு காட்சிப்படுத்தலின் பயன்கள்:

• தரவு காட்சிப்படுத்தல் பயனர்கள் தரவுகளை எளிதாக கூர்ந்து ஆய்வு செய்யவும், உட்பொருளை வெளிப்படுத்த உதவுகிறது.

• இது சிக்கலான தரவுகளை புரிந்துக் கொண்டு அவற்றை பயன்படுத்திக் கொள்ள வழி செய்கிறது.

• தரவு காட்சிப்படுத்தல் பல்வேறு வரைப்படங்களைக் கொண்டு தரவு மாறிகளுக்கு இடையே உள்ள உறவு நிலையை வெளிப்படுத்துகிறது.

வரைபட வகைகள்

வரைபடங்களில் பல்வேறு வகைகள் உள்ளன. குறிப்பிட்ட வகைத் தரவுக்கு குறிப்பிட்ட வகை வரைபடமே ஏற்றதாக இருக்கும். ஏராளமான வரைபட வகைகள் இருக்கின்றன. அவற்றுள் மிகப் பரவலாகப் பயன்படுத்தக் கூடிய முக்கியமான சிலவற்றைப் பார்ப்போம்:

பட்டை வரைபடம் (Bar Chart):

காலம், இடம் அல்லது வகைப்பாட்டு வாரியான மதிப்புகளை ஒப்பிட ஏற்றது. மாத வாரியான விற்பனை, மாவட்ட வாரியான மழை, மாத வாரியாக வரவு செலவுக்கான ஒப்பீடு போன்ற புள்ளி விவரங்களுக்குப் பயன்படுத்தலாம். அளவீட்டுப் பட்டைகள் செங்குத்தாகவோ கிடைமட்டமாகவோ அமையலாம். பட்டைகள் செங்குத்தாக அமையும் வரைபடத்தை ‘நெடுக்கை வரைபடம்’ (Column Chart) என்று கூறுவதுமுண்டு.

அடுக்குப் பட்டை வரைபடம் (Stacked Bar Chart):

காலம், இடம் அல்லது வகைப்பாட்டு வாரியாக ஒன்றுக்கு மேற்பட்ட கூறுகளின் கூட்டு மதிப்பை ஒப்பிட ஏற்றது. மாத வாரியாக இரண்டு மூன்று பொருள்களின் மொத்த விற்பனை போன்ற ஒப்பீடுகளுக்குப் பயன்படுத்தலாம்.

வட்ட வரைபடம் (Pie Chart):

முழுமை மதிப்பில் ஒவ்வொரு கூறுகளும் எவ்வளவு பங்கு என்பதைத் தெளிவுபடுத்த ஏற்றது. வரவு-செலவுத் திட்டத்தில் மொத்த வருமானத்தில் பல்வேறு பணிகளுக்கான செலவு மதிப்பீடு, மக்கள் தொகையில் வெவ்வேறு மதங்களைச் சார்ந்தோரின் விழுக்காடு, நாடாளுமன்றத் தில் பல்வேறு கட்சிகள் வகிக்கும் இடங்கள் - இதுபோன்ற விவரங்களை வெளியிட மிகவும் உகந்தது.

கோட்டு வரைபடம் (Line Chart):

ஏற்றம் இறக்கம் கொண்ட ஒரு நிகழ்வின் தொடர்ச்சியான போக்கினைச் சுட்டிக்காட்ட ஏற்றது. மாதந்தோறும் விலைவாசிப் புள்ளி உயர்வு, பங்குச் சந்தையில் சென்செக்ஸ் குறியீட்டின் ஏற்ற இறக்கம், கிரிக்கெட் போட்டியில் இந்தியாவும் பாகிஸ்தானும் ஒவ்வோர் ஓவரிலும் எடுத்த ரன்கள் - இத்தகைய விவரங்களுக்கு உகந்தது.

வரைபடம் உருவாக்கும்போது, தரவுக்கு ஏற்ற வரைபட வகையை நாம்தான் முடிவுசெய்ய வேண்டும். வகையை முடிவு செய்துவிட்டால் வரைபடத்தை எளிதில் உருவாக்கி விடலாம். (நன்றி: தமிழ் மெய்நிகர் பல்கலைக்கழகம்)

அப்படியே தகவல் வரைகலை பற்றியும் காணலாம். தகவல் வரைகலை நாம் ஏற்கனவே கண்டது போல் தகவலையும் சொற்களையும் படங்களையும் கொண்டு நேர்த்தியான புதுமையான வரைகலையையும் சேர்த்து அதை யாவரும் உணரும் வண்ணம் உருவாக்கும் கலையாகும். எடுத்துக்காட்டாக, கொரொனா பெருந்தொற்றின் போது நமது அரசாங்கம் அனைவரும் அறிந்து கொள்ளும் வகையில் கைகளை எவ்வாறு சுத்தம் செய்ய வேண்டும் என்று படத்தொகுப்பின் மூலம் தெரிவித்தது அல்லவா? அதைக் குறிப்பிடலாம்.

தகவல் வரைகலை குறைந்தபட்சம் எட்டு வகைப்படும்.

பட்டியல் தகவல் வரைகலை List infographics.

புள்ளியியல் தகவல் வரைகலை Statistical infographics.

வழிமுறை தகவல்வரைகலை How-to infographics.

காலவரிசை தகவல் வரைகலை Timeline infographics.

ஒப்பீடு தகவல் வரைகலை Comparison infographics.

வரைபடம் மற்றும் இடம் சார்ந்த தகவல் வரைகலை Map and location infographics.

பாய்வுப்பட தகவல் வரைகலை Flowchart infographics.

செயல் வழிமுறை தகவல் வரைகலை Process description infographics.

தரவு காட்சிப்படுத்தலும் தகவல் வரைகலையும் இவ்வளவு தான் என்று வரையறைப்படுத்த முடியாத அளவுக்கு நூதனமான பல அமைப்புகளைக் கொண்டு திகழ்கின்றது. தினமும் புதுமைகளைக் கொண்டு வந்து சேர்க்கின்றது. இதனால் வியாபார உலகிற்குக் கிடைக்கும் நன்மைகள் சொல்லிலடங்கா! அடுத்த பகுதியில் தரவுக்காட்சிப்படுத்தலுக்கும், தகவல் வரைகலைக்கும், முகப்பலகத்திற்கும் பயன்படுத்தப்படும் பல மென்பொருட்கள் பற்றி விரிவாகக் காணலாம்.

தரவுச் சுரங்கம் - 13

இந்தப் பகுதியில் பல கருத்தாழமிக்க தகவல் தொழில்நுட்பச் சொல்லாடல்களையும் ஒன்றாகக் கட்டி வைத்திருக்கும் சங்கிலியைப் பற்றிக் காண்போம். எடுத்துக்காட்டாக வியாபார நுண்ணறிவு (Business Intelligence), தரவுத்தள மேலாண்மை (Database Management), தகவல் தொழில்நுட்பம் (Information Technology), தரவுச்சுரங்கம் (Data Mining), தரவுக் கிட்டங்கி (Data Warehouse), நிகழ்தரவு பகுப்பாய்வு (Online Analytical Processing), செயற்கை நுண்ணறிவு (Artificial Intelligence), இயந்திரக் கற்றல் (Machine Learning), ஆழக் கற்றல் (Deep Learning) போன்ற பல நவீனக் கணினித் தரவுச் சொற்களைத் தற்போது காண முடிகின்றது.  இவை அனைத்தையும் ஒன்றிணைத்து ஒரு நவயுகத் துறையாக உருவெடுத்து வருவது தரவு அறிவியல் ஆகும். தகவல் அறிவியல் வேறு. தரவு அறிவியல் வேறு. இன்று நாம் காண இருப்பது தரவு அறிவியல்.

தரவு அறிவியல் என்றால் என்ன? விக்கிப்பீடியாவில் அறிவார்ந்த பெருமக்கள் என்ன சொல்கின்றார்கள் என்று பார்ப்போம்.

தரவு அறிவியல் கணிதம், புள்ளியியல், கணினி அறிவியல், தரவுச் செயலாக்கம் போன்ற பல்வேறு துறைகளிலிருந்து கோட்பாடுகளையும், தொழில்நுட்பங்களையும் பயன்படுத்துகிறது. தரவு அறிவியலின் ஒரு முக்கியமான பிரிவு பெருந் தரவு ஆகும்.

உழவு, சந்தைப்படுத்தலை மேம்படுத்தல், மோசடிகளைக் கண்டுபிடித்தல் போன்ற சிக்கல்களை ஆராய, தரவுத் தயார்ப்படுத்துதல், புள்ளியியல், இயந்திரக் கற்றல் போன்ற துறைகளைத் தரவு அறிவியல் பயன்படுத்துகிறது.

தரவு விஞ்ஞானிகள் தங்களின் திறனைப் பயன்படுத்தி தரவு மூலத்தை கண்டுபிடித்து விளக்கவும், வன்பொருள், மென்பொருள் மற்றும் அலைவரிசை தடைகள் இருந்தபோதிலும் அதிக அளவிலான தரவுகளை நிர்வகிக்கவும், தரவுகளுக்கான ஆதாரங்களை இணைக்கவும், தரவுகளின் நிலைத்தன்மையை உறுதிப்படுத்தவும், தரவுகளை புரிந்து கொள்வதற்கு உதவியாக காட்சிப்படங்களை உருவாக்கவும், தரவுகளைப் பயன்படுத்தி கணித மாதிரிகளை கட்டமைக்கவும் மற்றும் தரவுகளைப்பற்றிய கண்டுபிடிப்புகளை வெளிப்படுத்தவும் செய்கிறார்கள்.

என்ன அருமையான விளக்கம் பாருங்கள்? மேற்கண்ட பத்திகளைத் திரும்பத் திரும்ப இருமுறை வாசித்துப் பார்த்தாலே தரவு அறிவியல் பற்றி உணர்ந்து கொள்ளலாம்.

இன்றைய தகவல் தொழில்நுட்ப யுகத்தின் புதிய துறையாகவும் அதிக வேலைவாய்ப்பைத் தரக் கூடிய துறையாகவும் இந்தத் தரவு அறிவியல் துறையைக் காண முடிகின்றது. இந்தியர்கள் அதிலும் குறிப்பாக கணிப்பொறியாளர்கள் தங்கள் வாயால் உச்சரிக்கும் ஒரு மந்திரமாக இந்தச் சொல் இருப்பதைக் காணலாம்.

இதில் ஒரு கணிப்பொறியாளர் தம்மை ஒரு தரவு விஞ்ஞானியாக மேம்படுத்திக் கொள்வதைக் காணலாம். விஞ்ஞானிகள் என்பவர்கள் உலகில் ஆல்பர்ட் ஐன்ஸ்டீன் போல ஐசக் நியூட்டனைப் போல அபூர்வமாகப் பிறப்படுத்துத் தங்கள் கண்டுபிடிப்புகளைக் கொண்டு சாதனைகளையும் புதுவிதக் கருவிகளையும், இயற்கையின் விசித்திரமான புதிர்களுக்கான பதில்களையும் கண்டுபிடிப்பவர்களாகத் தான் இதுவரை நாம் உணர்ந்திருக்கின்றோம்.

இன்றோ யார் வேண்டுமானாலும் தரவு விஞ்ஞானி ஆக முடிகின்ற ஒரு வசதியையும் வாய்ப்பையும் இந்தக் கணினித் துறை உருவாக்கிக் கொடுத்திருக்கின்றது என்றால் அது மிகையாகாது.

மேலே குறிப்பிட்டபடி, கணிதம், புள்ளியியல், கணிப்பொறியியல், தரவு மேலாண்மை குறித்த அறிவு ஆகியவற்றை வளர்த்துக் கொண்டால் நீங்கள் நானும் கூட தரவு விஞ்ஞானிகளாக ஆகி விட முடியும்!

இன்றைய உலகம் காண்கின்ற மற்றும் காணப் போகின்ற பல்வேறு பிரச்னைகளுக்கும் கணினியைப் பயன்படுத்தி தீர்வு காணும் ஒரு துறை தரவு அறிவியல் துறை.

இதனை இதனால் இவன்முடிக்கும் என்றாய்ந்து அதனை அவன்கண் விடல். என்னும் திருக்குறளுக்கு ஏற்ப விண்மீண்களின் எண்ணிக்கையை ஒத்திருக்கும் பெருந்தரவை ஆராய்ந்து அதிலிருந்து காலப் புதிர்களை விடுவிக்கும் அறிவைப் பெறுவதற்குக் கணினியை எவ்வாறு பயன்படுத்துவது என்பதை இப்போது மனிதன் நன்றாகவே கற்றுக் கொண்டு விட்டான். தரவு அறிவியலில் இன்று பலரும் கற்றுத் தேர்ந்து கணினியின் கையில் சுக்கானைக் கொடுத்து பெருந்தரவுக் கடலில் கப்பல் ஓட்ட வைக்கின்றார்கள்.

தரவு விஞ்ஞானிகள் “தரவுகளை புரிந்து கொள்வதற்கு உதவியாக காட்சிப்படங்களை (Visualizations) உருவாக்கவும், தரவுகளைப் பயன்படுத்தி கணித மாதிரிகளை (Mathematical Models) கட்டமைக்கவும் மற்றும் தரவுகளைப்பற்றிய கண்டுபிடிப்புகளை வெளிப்படுத்தவும் செய்கிறார்கள்.” மேலே தடிப்பான எழுத்துகளில் கூறப்பட்டிருப்பதில் நம் கவனத்தைச் செலுத்துவோம்!

தரவுச் சுரங்கம் - 12

தரவுச் சுரங்கமும் (Data Mining), நிகழ்தரவு பகுப்பாய்வு முறையும் (Online Analytical Processing) ஒன்றுக்கொன்று தொடர்புடையவை மட்டுமல்ல. ஒன்றையொன்று சார்ந்தும் இருப்பவையாகும். இரண்டுமே வியாபார நுண்ணறிவைப் பெறுதற்கு முக்கியப் பங்கு வகிக்கின்றன.

தரவுச்சுரங்கத்தின் முக்கியப் பயன்கள் அல்லது நோக்கங்கள்:

  1. தரவிலிருக்கும் பாங்குகள் அல்லது திரும்பத் திரும்ப வரும் வார்ப்புகளைக் கண்டறிதல். (Hidden Patterns)
  2. பெருந்தரவினைப் பகுப்பாய்வு செய்தல்
  3. எதிர்காலத்தில் என்ன நிகழக் கூடும் என்று கணித்தல்
  4. தரவு சார்ந்த முடிவெடுத்தல்

தரவுச் சுரங்கத்தின் உறுப்புகள்:

  1. தரவு குறித்த அறிவுத்தளம் (knowledge base)
  2. தரவுச் சுரங்கப் பொறியமைப்பு
  3. தரவிலிருக்கும் வார்ப்பு/மாதிரி/பாங்கு கண்டறியும் உறுப்பு
  4. பயனர் இடைமுகம் (User Interface)

தரவுச் சுரங்கத்தின் படிநிலைகளாவன:

  1. வியாபாரம் குறித்த புரிதல் (business understanding)
  2. தரவு குறித்த புரிதல் (data understanding)
  3. தரவு தயார்படுத்தல் (data preparation)
  4. மாதிரி உருவாக்கம் (pattern designing)
  5. அளவிடுதல்/சீரமைத்தல்/சரிபார்த்தல் (evaluation)
  6. பயன்பாட்டுக்கு விடுதல் (deployment)

தரவுச் சுரங்கத்தில் பயன்படுத்தும் உத்திகள்:

  1. பகுத்தல் (Classification)
  2. தொகுத்தல் (Clustering)
  3. கணித்தல் (Regression)
  4. விளிம்பு கண்டறிதல் (Outliers)

நிகழ்தரவு பகுப்பாய்வு முறையின் பயன்கள்:

  1. தரவில் பல்பரிமாணம் உணர்தல் மற்றும் பகுப்பாய்வு செய்தல்
  2. நடந்து முடிந்த/நடக்கின்ற நடவடிக்கைகளை ஆராய்தல்
  3. குறிப்பிட்ட கால அளவில் தரவு சார்ந்த முடிவெடுத்தல்

நிகழ்தரவு பகுப்பாய்வு முறையில் கனதரவில் பயன்படுத்தும் செயல்பாடுகள்:

  1. அச்சு அமைப்பு (Pivoting)
  2. பகடை/பாய்ச்சிகை (Dicing)
  3. துண்டாடுதல்/வெட்டுதல் (Slicing)
  4. துளையிடல் (Drilling Down)
  5. உருட்டுதல் (Rolling Up)

நிகழ்தரவு பகுப்பாய்வின் முக்கிய வகைகள்:

  1. பல்பரிமாணப் பகுப்பாய்வு (Multidimensional OLAP)
  2. உறவுமுறை பகுப்பாய்வு (Relational OLAP)
  3. கலப்பின பகுப்பாய்வு (Hybrid OLAP)

அப்பப்பா! வியாபாரத் தகவல்களை ஆராய்ந்து முடிவெடுப்பதற்குத் தான் எத்தனைகருவிகள்? எத்தனை வழிமுறைகள்? எத்தனை படிநிலைகள்? இப்பெருந்தரவுக் காலத்தில் வியாபார நுண்ணறிவினைப் பெறுவது அவ்வளவு எளிதா என்ன? இருந்தாலும் அடிப்படைக் கணிதமும், புள்ளியியலும் எனும் உளியையும் கடப்பாறையையும் கொண்டு தான் இந்தத் தரவுச் சுரங்கத்தைப் பலரும் வெட்டி உள்ளிருக்கும் விலைமதிக்க முடியாத செல்வங்களைப் பயன்படுத்திக் கொண்டிருக்கின்றனர். முடிந்த வரையில் இதில் முக்கியமானவற்றை அடுத்தடுத்த பகுதிகளில் நாம் காண்போம்.

தரவுச் சுரங்கம் - 11

சென்ற பகுதியில் ஒரு முக்கியமான சொற்றொடரைக் கண்டோம். அதுபற்றிய விளக்கமாகவே இந்தப் பகுதி அமைந்துள்ளது. தரவு பகுப்பாய்வில் மிகவும் பிரபலமானதும் அனைவரும் சரளமாகப் பயன்படுத்தப்படுவதும் இச்சொற்றொடரின் முக்கியத்துவத்தைப் பறைசாற்றும்.

ஆங்கிலத்தில் Online Analytical Processing என்று முழுமையாகவும் OLAP என்று சுருக்கமாகவும் அழைக்கப்படுகின்றது இச்சொற்றொடர். நிகழ்வுகளின் தரவை நடவடிக்கையின் அடிப்படையில் பார்க்காமல் அல்லது பார்த்து முடித்தவுடன் அதை மூட்டை கட்டி வைத்து விடாமல், அதைத் தரவுக் கிட்டங்கியில் தகுந்த முறையில் அடுக்கி வைத்துப் பின் அதைத் தொடர் பகுப்பாய்வுக்கு உட்படுத்துவதே இவ்வாறு அழைக்கப்படுகின்றது.

செய்தி எப்போது தரவாகின்றதோ அப்போதே அது மதிப்பு மிக்கதாகி விடுகின்றது என்று முன்பே கண்டோம். எப்போதைய தரவாக இருந்தாலும் அது எப்போதும் மதிப்பு மிக்கது தான். தினந்தோறும் நடவடிக்கைகள் நடைபெற்று முடிந்ததும் அதை உதாசீனப்படுத்தாமல் தொடர்ந்து பகுப்பாய்வு செய்வதன் மூலம் வியாபாரத்தில் பல அறிவார்ந்த முடிவுகள் எடுக்க முடியும் என்பது எந்த வித சந்தேகத்துக்கும் இடமின்றி நிரூபணமாகி இருக்கின்றது.

மாதந்தோறும் அல்லது குறிப்பிட்ட கால அடிப்படையில் வியாபார அறிக்கைகளைக் கண்காணித்து அதன்படி முடிவுகள் எடுக்கப்பட்டு வியாபாரம் நடைபெற்று வரும் காலம் மலையேறி வருகின்றது. குறிப்பிட்ட காலம் முடியும் வரை நாம் காத்திருக்க முடியாத அவசர அவசிய காலகட்டத்தில் இப்போது இருக்கின்றோம்.

ஒரு காரில் ஓட்டுநருக்கு வண்டி ஓட்டும் போதே முடிவெடுக்கத் தகுந்தவாறு  காரின் வேகம், உள் வெப்பநிலை, மின்கல மின்னளவு, எரிபொருள் அளவு என்று அனைத்தும் உடனுக்குடன் காட்டுகின்ற கட்டுப்பாட்டுப் பலகம் (Dashboard) இருக்கின்றது. அதே போல் தரவுலகிலும் நிகழ்நிலையில் பகுப்பாய்வு செய்து உடனுக்குடன் முடிவெடுக்கத் தகுந்தவாறு இயங்குவதால் இந்த நிகழ்தரவு பகுப்பாய்வு முறையின் முக்கிய கருவியும் அதே பெயருடனே கணினி உலகிலும் அவ்வாறே அழைக்கப்படுகின்றது .

உண்மையில் இந்த நிகழ்தரவு பகுப்பாய்வு முறையில் அப்படி என்ன தான் நடக்கின்றது என்று கேள்வி கேட்போம். இங்கு காலங்காலமாக சேர்ந்து கொண்டே இருக்கும் பெருந்தரவு அல்லது தற்போது நடைபெற்றுக் கொண்டிருக்கும் நிகழ்தரவு இவற்றைப் பல்பரிமாண நோக்கில் ஆய்வு செய்தல் நடக்கின்றது என்பதே விடையாகக் கிடைக்கின்றது.

நாம் முதல் பகுதியில் கண்ட தரவைப் பல பரிமாணங்களில் காண முயற்சி செய்யும் கன தரவு (Data Cube) முறையும் இந்த ஆய்வில் தான் பிறக்கின்றது. ஆக, இந்த நிகழ்தரவு பகுப்பாய்வு முறை என்பது பாற்கடலைக் கடைந்து எடுப்பதைப் போல பல புதுமைகளையும் அமுதங்களையும் நமக்கு வாரி வாரி வழங்கிக் கொண்டே இருக்கின்றது.

இதன் முக்கியப் பயன்பாடுகளாக, நிகழ்நிலை அறிக்கை உருவாக்கம், எதிர்காலக் கணிப்பு, திட்டமிடல், தர ஒப்பீடு, ஒருங்கிணைத்தல் என அடுக்கிக் கொண்டே செல்லலாம்.

            நமது இந்தத் தொடர்கட்டுரையின் நோக்கமே இந்த நிகழ்தரவு பகுப்பாய்வு முறை பற்றி விளக்குவதாகும். இதில் பயன்படும் கருவிகள், செயலாக்கும் திட்டம், தரவு மாதிரி கொண்டு எவ்வாறு கனதரவு உருவாக்கப்படுகின்றது, பலபரிமாணங்களைக் கண்ணுறுவது எவ்வாறு? தகவல் வரைகலையைக் கொண்டும், பல்வேறு தரவுக் காட்சிகளையும் கொண்டு எவ்வாறு கட்டுப்பாட்டுப் பலகம் உருவாக்கப்படுகின்றது என்றும் அறிந்து கொண்டு அதன் மூலம் அனைத்துத் தொழில்முனைவோரும் பயனடைய வேண்டும் என்பதைக் கருத்தில் கொண்டே நாம் இத்தொடர் கட்டுரையில் பயணிக்கின்றோம்.

            இனி அடுத்த பகுதியில் இந்த நிகழ்தரவு பகுப்பாய்வு முறையை உருவாக்கிப் பயனுள்ளதாக ஆக்கிக் கொள்வதற்கான படிநிலைகளை விரிவாகக் காண்போம்.

தரவுச் சுரங்கம் - 10

நெடுவரிசைத் தரவுத்தளம்: (Columnar Database)

            நெடுவரிசைகளில் (Columns) வேண்டிய தரவைச் சேமிப்பது என்பது ஏதோ புதிதாய் கண்டுபிடிக்கப்பட்டது அல்ல. நாம் நிரைகளிலேயே (Rows) தரவுகளைப் பார்ப்பது வழக்கமாக இருப்பதால் இது புதிதாகத் தோன்றுகின்றது. நமது தேவைக்குத் தகுந்தவாறு நிரைகளிலோ நிரல்களிலோ தரவுகளைச் சேமித்து வைப்பது நல்லது. அதிலும் தரவுக் கிட்டங்கிகளில் (Data Warehouses) சேமித்து வைத்துப் பின்னர் தரவுச்சுரங்கத்தில் (Data Mining) பயன்படுத்துவதற்கு இந்த வகை தரவுத்தளம் பொருத்தமானதாக இருப்பதால் இதைப் பயன்படுத்துகின்றனர்.

            இனி, ஒரு சிறு எடுத்துக்காட்டின் உதவியோடு இந்த நெடுவரிசைத்தளத்தினைப் பற்றி அறிந்து கொள்வோம். ஒரு விற்பனைத் தரவு அட்டவணையில் ஒரு லட்சம் வரிகளும், பதினைந்து நெடுவரிசைகளும் இருக்கின்றது என்று வைத்துக் கொள்வோம். இதில் பதிநான்காவது நெடுவரிசையில் விற்பனைத் தொகை இருப்பதாக வைத்துக் கொள்வோம். இப்போது ரூ. 10000/-க்கு அதிகமான விற்பனைத் தொகைகளைப் பட்டியலிட வேண்டியிருந்தால் நிரை தரவுத்தளத்தில் ஒரு லட்சம் வரிகளையும் பார்வையிட வேண்டும். ஒவ்வொரு வரியைப் பார்வையிடும் போதும் தேவையில்லாத மற்ற பதிநான்கு நெடுவரிசைகளையும் தாண்டித் தாண்டி வன்தட்டிலிருந்து தகவல்கள் எடுக்கப்படுவதால் மிகவும் நேரமெடுக்கும். அதுவே 1 லட்சம் விற்பனைத் தொகைகளும் ஒரே நெடுவரிசையாகச் சேமிக்கப்பட்டிருந்தால் மிகக் குறைந்த நேரத்திலேயே தேவையான பதிலை எடுத்துவிட முடியும்.

வ.எண்தேதிபெயர்சம்பளம்
101-09-2022முருகன்100000
201-09-2022குமரன்150000
301-09-2022தமிழ்ச்செல்வன்120000
401-09-2022கண்ணன்125000
501-09-2022தென்றல்120000
601-09-2022ரவி100000
701-09-2022சந்திரன்110000

மேற்கண்ட அட்டவணை நிரைவரிசைத் தரவாகும். இது நடவடிக்கைகளைப் பதிவிட வாடிக்கையாக அனைவரும் பயன்படுத்தும் முறை. இதை அப்படியே வன்தட்டில் நிரைவரிசையாகவே பதிவிடுவதாகக் கொண்டால் கீழ்க்கண்டவாறு வன்தட்டில் எழுதப்படும்.

101-09-2022முருகன்100000201-09-2022குமரன்1500003

இதையே நெடுவரிசைத் தரவுத்தளத்தில் கீழ்க்கண்டவாறு பதிவிடப்படும்.

வ.எண் தேதி 1 01-09-2022 2 01-09-2022 3 01-09-2022 4 01-09-2022 5 01-09-2022 6 01-09-2022 7 01-09-2022வ.எண் பெயர் 1 முருகன் 2 குமரன் 3 தமிழ்ச்செல்வன் 4 கண்ணன் 5 தென்றல் 6 ரவி 7 சந்திரன்வ.எண் சம்பளம் 1 100000 2 150000 3 120000 4 125000 5 120000 6 100000 7 110000 

இதை வன்தட்டில் பதியும் போது கீழ்க்கண்டவாறு பதிந்தால் போதும்.

01-09-2022:1,2,3,4,5,6,7

முருகன்:1;குமரன்:2;தமிழ்ச்செல்வன்:3;கண்ணன்:4;தென்றல்:5;ரவி:6; சந்திரன்:7

100000:1,6;15000:2;120000:3,5;125000:4;110000:7

01-09-2022 என்ற தேதி ஒரே ஒருமுறை மட்டும் பதியப்படுவதையும், வரிசை எண் மட்டுமே திரும்ப வருவதையும் கவனியுங்கள். இதில் ஒவ்வொரு நெடுவரிசைக்கும் சுட்டுகையும் (Index) உருவாக்கிவிட்டால் இன்னும் வேகமாகத் தரவுகளை மீட்டெடுக்க முடியும். இந்த முறையில் ஒரு தகவல் ஒருமுறை மட்டுமே சேமிக்கப்பட்டு வன்தட்டின் பயன்பாட்டு அளவும் கணிசமாகக் குறைகின்றது.

லட்சம் வரிகளில் சேமிப்பதை 15 நெடுவரிசைகளில் சேமிப்பது உகந்தது தானே? மேலும், தரவுகளைப் பகுப்பாய்வு செய்யும் போது நாம் எப்போதும் முழு வரியையும் தேர்ந்தெடுப்பதே இல்லை. (எ.கா. 120000க்கு மேல் சம்பளம் வாங்குபவர்களின் பெயர் மட்டுமே தேவைப்படுமே ஒழிய முழு முகவரி, அவர் வேலைக்கு வந்த நாட்கள், விடுமுறை எடுத்த நாட்கள் போன்ற தகவல்கள் தேவையில்லை தானே? )

ஆனால் அதுவே மாதாந்திரச் சம்பள அறிக்கை எடுக்கும் போது முழு முகவரியும் மேலே குறிப்பிட்ட அனைத்து தகவல்களுமே தேவைப்படக்கூடும். எனவே நடவடிக்கைகளைச் சேமித்து வைத்து முழு நடவடிக்கைகளின் தகவல்களும் தேவைப்படும் நிகழ்நிலை நடவடிக்கைச் செயலாக்கத்திற்கு (Online Transaction Processing – OLTP) நிரைவரிசை முறை சிறப்பானதாகும்.

நெடுவரிசைத் தரவுத்தளத்தில் மீட்டெடுக்கும் நேரம் மிகக் குறைவானதாக இருந்தாலும், புதியதாக ஒரு வரியை உள்ளீடு செய்து சேமிப்பது அதிக நேரமெடுக்கும். எனவே தான் ஒரே நேரத்தில் அதிக நடவடிக்கைகளைப் பதிவதற்கு இந்த தரவுத்தளம் உகந்ததல்ல. நடவடிக்கைகள் முடிந்த பின்னர் அத்தகவல்களைப் பகுப்பாய்வு செய்வதற்கான நோக்கத்துடன் (Online Analytical Processing - OLAP) அடுக்கி வைக்கப்படும் தரவுக்கிட்டங்கிகளில் முக்கியமாக இந்த நெடுவரிசைத் தரவுத்தளங்கள் பயன்படுத்தப்படுகின்றன.

தற்போதைய மைக்ரோசாப்ட் ஆஃபீஸ் 365 பதிப்பில் தரவு பகுப்பாய்வுக்கு இந்த வகை தரவுத்தளம் பயன்படுத்துவதால், எக்செல் மென்பொருளின் 1048576 வரிகள் என்ற குறைபாடில்லாமல் எத்தனை கோடி வரிகள் கொண்ட தரவாக இருந்தாலும் மிகச் சிறப்பாக பகுப்பாய்வு செய்ய முடிகின்றது.

தரவுச் சுரங்கம் - 9

இதுவரை நாம் கண்டது அனைத்தும் தரவுத்தளம் குறித்த அடிப்படை ஆகும். இவையெல்லாம் நாற்பது ஆண்டுகளுக்கும் மேலாக நடைமுறையில் இருக்கின்றன! இந்தப் பகுதியில் தற்போதைய தரவுத்தளப் புதுமைகளைக் கண்டு பின் நமது தரவுச்சுரங்கப் பயணத்தைத் தொடரலாம்.

  • பொருள் சார் தரவுத்தளம்: (Object Oriented Database)

1980 களில் பொருள் சார்ந்த நிரலாக்கம் (Object Oriented Programming -OOP) பிரபலமடைந்தது. இதனால் தரவுத்தளங்களில் சேமித்திருக்கும் தரவுகளைக் கையாளும் முறையும் சற்று மாறியது. மென்பொறியாளர்களும் வடிவமைப்பாளர்களும் தரவுத்தளங்களில் உள்ள தரவுகளை ஒரு பொருளாக அணுக முற்பட்டனர்.  உதாரணமாக ஒரு நபரை பொருளாகவும், அவரைப்பற்றிய தகவல்களின் அந்த பொருளின் பண்புகளாகவும் பார்க்கப்படுகிறது. தரவுகளை வெறும் அட்டவணையாகவும் அதிலுள்ள வரிசையாகவும் பாவிக்காமல், ஒவ்வொரு வரிசையையும் ஒரு பொருளாகவும், அதிலுள்ள அனைத்துத் தகவல்களும் அதன் பண்புகளாகவும் பாவிக்கப்படுகிறது. இதனால் தரவுகள் அட்டவணைக்கும் அதிலுள்ள நெடுவரிசைக்கும் சொந்தமானது என்று பார்க்காமல், அவை அணைத்தும் அதனதன் பொருளிற்கு சொந்தமாகப் பார்க்கப்படுகிறது.

இதனால் சில சிக்கல்கள் ஏற்படுகிறது. இந்த சிக்கல் பொருள் - தொடர்பு பொருத்தமின்மை என்று அழைக்கப்படுகிறது. பொருள் தரவுத்தளங்கள் மற்றும் பொருள்-தொடர்புசால் தரவுத்தளங்கள் ஆகியவை இந்த சிக்கலை தீர்க்க அதன் வினவு மொழிகளை மாற்றி அமைத்தனர். இந்த சிக்கலைத் தீர்பதற்கு இன்னொரு முயற்சியே பொருள்-தொடர்பு மேப்பிங் ஆகும். (நன்றி விக்கிபீடியா)

  • கட்டமைப்பு மட்டுமல்லா வினவு மொழி: (NoSQL)

ஏற்கனவே நாம் இது வரை கண்ட உறவுமுறை தரவுத்தள மேலாண்மையில் எளிமைக்கு மிகப் பெரிய பங்கு வகிப்பது எளிய கட்டமைப்புள்ள வினவு மொழி ஆகும். (Structured Query Language – SQL). நம்மிடையே இருக்கும் பல தரவுகள் கட்டமைப்புள்ள தரவுகள் தான் என்றாலும், கட்டமைப்பில்லா மற்றும் பகுதி கட்டமைவுள்ள தரவுகளையும் (எடுத்துக்காட்டு: மின்னஞ்சல்) நிர்வகிப்பதற்கு 2000களில் உருவான தொழில்நுட்பம் இதுவாகும். மையத் தரவுத்தளங்களிலிருந்து விடுபட்டு இணையத்தில் தரவுகளைச் சேமித்து வைக்க வேண்டிய கட்டாயத்துக்கு நாம் தள்ளப்பட்டுள்ளோம். இதற்குப் பெருந்தரவு ஒரு முக்கியமான காரணியாகும். மேகக்கணிமையும், பகிர்ந்தமை தரவுத்தளங்களும் கோலோச்சும் இந்தக் காலகட்டத்தில் கட்டமைப்பு உள்ள தரவுமொழி சரியானது அல்ல. எனவே பழையன கழிதலும் புதியன புகுதலுமாக கட்டமைப்பு மட்டுமல்லா வினவு மொழி தற்போது நடைமுறையில் உள்ளது. (Not only SQL).

எடுத்துக்காட்டாக நீங்கள் ஒரு வலைப்பூ உருவாக்கி நிர்வகிக்கின்றீர்கள் என்று வைத்துக் கொள்வோம். அதில் நீங்கள் இட்ட ஒரு இடுகைக்குப் பலரும் பதிலளித்துள்ளனர் என்று வைத்துக் கொண்டால், இவையனைத்தையும் உறவுமுறைத் தரவுத்தளத்தின் அடிப்படையில் பல தரவுப்பட்டியல்களில் பிரித்துச் சேமிப்பது என்பதும், அதைத் தேவையான போது திரும்பப் பெறும் போது பல பட்டியல்களில் இருந்து மீண்டும் எடுப்பது என்பதும் வேலைமெனக்கெட்ட வேலையாகும். ஏனெனில் ஒவ்வொரு தரவுப்பட்டியலும் வெவ்வேறு வழங்கிகளில் இருக்கக் கூடும்! இதனால் நமது இணையதளம் மிகவும் மெதுவாக இயங்க ஆரம்பித்து விடும்.

ஆகவே, ஒரு இணையப்பக்கத்துக்குத் தேவையான அனைத்துத் தரவுகளும் ஒரே ஆவணமாகச் சேமிக்கப்படுவது சிறப்பாக இருக்கும். இதில் பலவகைகள் இருந்தாலும்,  சாவி-மதிப்பு கிட்டங்கிகள் (Key-Value Stores) மற்றும் கோப்பு சார் தரவுத்தளம் ஆகியவை மிகவும் குறிப்பிடத் தக்கவை ஆகும். இவற்றில் முக்கியமாக XML மற்றும் JSON வடிவத்தில் தரவுகள் சேமிக்கப்படுகின்றன. இதனாலேயே வருமான வரித் தாக்கல் செய்வதும், சரக்கு மற்றும் விற்பனை வரி தாக்கல் செய்வதும் தற்போது இந்த வடிவங்களில் தாக்கல் செய்யப்படுகின்றது.

  • நெடுவரிசைத் தரவுத்தளம்: (Columnar Database)

நடவடிக்கைகளைப் பதிந்து வைக்கச் சிறந்தது உறவுமுறை தரவுத்தளம் என்றால் அதே நடவடிக்கைகளைப் பகுத்தாய்வு செய்யச் சிறந்தது இந்த நெடுவரிசைத் தரவுத்தளம் ஆகும். நமது இத்தொடரின் அடிப்படையே இவ்வகை தரவுத்தளம் எனலாம். ஏனெனில் பெருந்தரவைப் பகுத்தாய்வு செய்வதற்கு உறவுமுறை தரவுத்தளம் அவ்வளவு உகந்ததல்ல. காரணம், உறவுமுறை தரவுத்தளம், தரவுகளை நிரையாக படுக்கை வசமாக வன்தட்டில் சேமித்து வைக்கின்றது. நாம் பகுத்தாய்வு செய்யும் போது படுக்கை வசமான தகவல்கள் தேவைப்படுவது இல்லை. மாறாக, நெடுவரிசயில் தான் தேவைப்படுகின்றது. எடுத்துக்காட்டாக 25000 ரூபாய்க்கு மேல் சம்பளம் வாங்குபவர்களின் எண்ணிக்கை அல்லது கூட்டுத்தொகை என்ற கேள்வி எழும் போது, சம்பளம் என்னும் நெடுவரிசை மட்டுமே போதுமானது அல்லவா? ஒரு லட்சம் வரிகளிலும் இந்தச் சம்பளம் என்னும் நெடுவரிசை மட்டுமே காண்பதற்கு நிரைவரிசைத் தரவுத்தளம் மிகவும் தடுமாறும். ஆனால் நெடுவரிசை தரவுத்தளம் மிக வேகமாக இயங்கும்.

எனவே தரவைப் பகுப்பாய்வு செய்ய இந்த நெடுவரிசை தரவுத்தளம் மிகவும் உதவிகரமாக இருக்கின்றது. தரவுச்சுரங்கத்தில் தோண்டி விலைமதிப்பில்லா ஞானத்தைப் பெறுவதற்கு நாம் இன்னும் இது பற்றி அடுத்த பகுதியில் அதிகம் அறிந்து கொள்வோம்.

தரவுச் சுரங்கம் - 8

தரவுத்தள இயல்பாக்கம் பற்றிய விளக்கத்தினை சென்ற பகுதியில் கண்டோம். தரவுத்தள இயல்பாக்கம் மூலம் தரவொழுங்கு உறுதி செய்யப்படுகின்றது. மேலும் தரவுகளை அறிவியல்பூர்வமாக மிகக் குறைந்த நினைவகச் சேமிப்பை மட்டுமே பயன்படுத்தி சேமிக்கவும், மீண்டும் தரவு தேவைப்படும் போது விரைவாக மீட்டெடுக்கவும் இத்தரவுத்தள இயல்பாக்கம் உதவுகின்றது. ஏற்கனவே குறிப்பிட்டது போல் முதல் மூன்று வகை தரவுத்தள இயல்பாக்கம் குறித்தும் இப்போது எடுத்துக்காட்டுடன் காண்போம்.

  1. முதல் இயல்புப் படிவம் – First Normal Form

இப்படிவத்தின் விதிப்படி, தரவுத்தளப்பட்டியலின் ஒரு அறையில் ஒன்றுக்கும் மேற்பட்ட நிரல்களுக்குண்டான தகவல்கள் இருக்குமானால் அவற்றை மற்றொரு தரவுப் பட்டியலில் சேமிக்க முற்படவேண்டும். அதாவது ஒரே மாதிரியான தகவல் ஒன்றுக்கு மேற்பட்ட நிரல்களில் சேமிக்க வேண்டியிருந்தாலோ அல்லது ஒரே அறையில் ஒன்றுக்கு மேற்பட்ட தகவல்களிருந்தாலோ அவற்றைத் தனியாகப் பிரித்து இன்னொரு பட்டியலில் சேமிக்கவேண்டும். இவ்விரு பட்டியல்களையும் இணைப்பது முதன்மை மற்றும் அந்நியத் திறவியாக இருக்கும்.

இப்போது ஒரு எடுத்துக்காட்டைக் காண்போம்:

வரிசை எண்பெயர்அலைபேசிஎண்
1குமார்9123456789, 9234567890
2ரவி9421541251
3வேலவன்

என்றொரு பட்டியல் இருப்பதாய்க் கொள்வோம். மேற்கண்ட பட்டியலில் குமாருக்கு மட்டும் இரண்டு அலைபேசி எண்கள் இருக்கின்றன. வேலவனுக்கு அலைபேசி எண் இல்லை. தரவுத்தள மேலாண்மையில் மிக முக்கியமானதாக் கருதப்படும் ககாட் அவர்களின் 13 விதிகளில் ஒன்று வெற்றிடத்தை அறிவியல்பூர்வமாக நிர்வகிக்க வேண்டும் என்பதாகும். கூடுமானவரை வெற்றறையைத் தவிர்க்க வேண்டும்.

முதல் இயல்புப் படிவத்தின் விதிப்படி ஒரு அறையில் ஒரு தகவல் தான் இருக்க வேண்டும். இரண்டு அலைபேசி எண்களை வைப்பது சரியல்ல. எனவே மேற்கண்ட பட்டியலை இரண்டாகப் பிரித்து கீழ்க்கண்டவாறு அமைப்பது முதல் படிவ இயல்பாக்கம் என்றழைக்கப்படுகின்றது.

வரிசை எண்பெயர்
1குமார்
2ரவி
3வேலவன்
வரிசை எண்அலைபேசி எண்
19123456789
19234567890
29421541251

இப்போது வெற்றிடமே இல்லை என்பதையும், ஒரு அறையில் ஒரு தகவல் மட்டும் இருப்பதையும் காணலாம். வரிசை எண் முதல் அட்டவணையில் முதன்மைத் திறவியாகவும், இரண்டாம் அட்டவணையில் அந்நியத் திறவியாகவும் செயல்படுகின்றது.

கீழ்க்கண்ட பட்டியலிலும் முதல் படிவ இயல்பாக்கம் செய்ய இயலும்.

எடுத்துக்காட்டாக நமது கடையில் மொத்தம் மூன்று பொருட்கள் இருப்பதாகவும் அதற்கான விற்பனைப் பட்டியலில் மேற்கண்ட தகவல்களிருப்பதாகவும் கொண்டால் அதை ஒரே பட்டியலில் சேமிக்கும் போது எத்தனை வெற்றிடங்கள் காணக்கிடைக்கின்றன என்று பாருங்கள்? அனைவரும் மூன்று பொருட்களும் வாங்க முடியாது தானே? இதுவே நூற்றுக்கு மேற்பட்ட பொருட்கள் கொண்டிருக்கும் ஒரு கடையென்றால் அதன் நிலை என்ன? அதுவே முதல் படிவ இயல்பாக்கம் செய்யும் போது எளிதாகின்றது.

கீழ்க்கண்ட இரு பட்டியல்களைப் பாருங்கள். எங்கும் வெற்றிடம் இல்லை. எத்தனை பொருட்கள் இருந்தாலும் கவலையில்லை என்பது புரியும்.

மேற்கண்ட பட்டியல்களிலும் எண் முதன்மை மற்றும் அந்நியத் திறவியாகப் பயன்படுகின்றது.

  • இரண்டாம் இயல்புப் படிவம் (Second Normal Form)

இப்படிவத்தின் படி நிரைகளில் திரும்ப வரும் வாய்ப்பிருக்கும் தகவல்களைத் தனியாகப் பிரித்து அவைகளை தனிப்பட்டியலில் சேமிக்கச் செய்ய வேண்டும். முதல் படிவத்தில் நிரல்களில் திரும்ப வரும் தகவல்களைப் பிரித்தோம். இதில் நிரைகள்/வரிகளில் மீண்டும் வரும் தகவல்களைத் தனியே பிரிக்கின்றோம். இதன் மூலம் ஒரு உருபொருளின் எந்த ஒரு தகவலும் ஒட்டு மொத்தத் தரவுத் தளத்தில் ஒரே ஒரு இடத்தில் மட்டுமே சேமிக்கப்படும். திறவிகள் மட்டுமே மீண்டும் வரும். எடுத்துக்காட்டாக மேலே குறிப்பிட்ட வாடிக்கையாளர்களில் குமார் திரும்பவும் வருகின்றார். அரிசி, கோதுமை, சர்க்கரை என்ற பொருட்களும் திரும்பவும் வருகின்றன. மேலும் வாடிக்கையாளரின் தகவல் வாடிக்கையாளர் உருபொருளுக்கு உடையது. நாள், எண் ஆகியவை பட்டியின் உருபொருளுக்கு உடையது. அரிசி, கோதுமை போன்றவை மற்றுமொரு உருபொருளாகும். எனவே அவற்றைக் கீழ்க்கண்டவாறு பிரிக்க வேண்டும். இதன் மூலம், எந்த ஒரு உருபொருளின் தகவலும் மீண்டும் வரவில்லை என்பதைக் காணவும்.

எடுத்துக்காட்டில் மஞ்சள் நிறத்திலிருப்பவை முதன்மைத் திறவிகள். பச்சை நிறத்திலிருப்பவை அந்நியத் திறவிகள்.

இதனால் கிடைக்கும் மற்றுமொரு நன்மை, பொருளே வாங்காமல் வாடிக்கையாளர் தகவலை மட்டும் சேமிக்க முடியும், பொருளை விற்பனைப் பட்டியலில் சேர்க்காமலே நான்காவதாக ஒரு பொருளைச் சேமித்து வைக்க முடியும்.

  • மூன்றாம் இயல்புப் படிவம் (Third Normal Form)

மேற்கண்ட இரண்டு இயல்பாக்கங்களிலேயே தரவுகள் ஓரளவுக்கு நேர்த்தியாகச் சேமிக்கப்படும் என்றாலும், நமது அறிக்கைகளின் நேர்த்திக்காகவும் மேலும் தகவல்களை அறிவியல்பூர்வமாகச் சேமித்து வைக்கவும் இந்தப் படிவம் உதவிகரமாக இருக்கின்றது. இப்படிவத்தின் படி, முதன்மைத்திறவி குறிக்கும் உருபொருளை முதன்மையாகவும் முழுமையாகவும் கொண்டிராத தகவல்களை மற்றுமொரு பட்டியலுக்குக் கொண்டு செல்ல வேண்டும்.

எடுத்துக்காட்டாக கீழ்க்கண்ட வாடிக்கையாளர் பட்டியலைப் பாருங்கள்.

இதில் வாடிக்கையாளரின் ஊர் அவருக்கு மட்டுமே உரியதில்லை தானே? அவரது பெயருக்கு அவர் உரிமை கொண்டாடலாம். ஆனால் ஊருக்கே அவர் உரிமை  கொண்டாட முடியாது அல்லவா? ஒரே ஊரில் பலரும் இருக்கலாம் தானே? எனவே அதையும் கீழ்க்கண்டவாறு மற்றுமொரு பட்டியலாகப் பிரிப்பதையே மூன்றாம் இயல்புப் படிவம் என்கின்றோம்.

இவ்வாறு மூன்று இயல்புப் படிவங்கள் கொண்டு தரவுகளைத் தரம் பிரித்து வைத்தால் மிக எளிதாகச் சேமிக்கவும், மீட்டெடுக்கவும் வசதியாக இருக்கும். ஏற்கனவே குறிப்பிட்டது போல் இன்னும் சில மேம்பட்ட அபூர்வமான இயல்பாக்கங்கள் இருக்கின்றன. நமது தொடரின் ஓட்டத்தைக் கருத்தில் கொண்டு அவற்றை விளக்குவதை விடுத்து அடுத்ததாக இப்போது வலையுலக தரவுத்தளங்கள் சிலவற்றையும் அவற்றின் தகவல் தொழில்நுட்பத்தையும் காணலாம்.

தரவுச் சுரங்கம் - 7

            உருபொருட்களின் பலவித பண்புகளே சீராக அடுக்கி வைக்கப்பட்டவுடன் தரவாக மாறுகின்றது என்று கண்டோம். அவ்வுருபொருட்களினிடையே ஏற்படும் உறவுமுறைகள் அவற்றின் எண்ணிக்கையின் அடிப்படையில் ஒன்றுடன் ஒன்று, ஒன்றுடன் பல என்று அமைந்ததையும் கண்டோம். ஏன் அவ்வாறு அமைய வேண்டும் அல்லது அமைக்கப்பட வேண்டும் என்று ஆராய்ந்தால் மேலும் சில உறவுமுறைகள் புலப்படுகின்றன. அவை அவ்வுருபொருட்களின் குணங்கள், எது முன்னால் தோன்றியது, எது மீண்டும் பயன்படுத்தப்படுவது, எது முக்கியமானது என்ற அடிப்படையில் உருவாகின்றன.

            அவை பெரும்பாலும் கீழ்க்கண்ட உறவுமுறைகளைக் கொண்டுள்ளன:

  1. முதன்மை – நடவடிக்கை தரவு (Master – Transaction Data)
  2. பெற்றோர் – குழந்தை உறவு (Parent – Child Relationship)

இவ்விரண்டும் கிட்டத்தட்ட ஒரே பொருளைக் குறிப்பதாக இருந்தாலும் தனித்தனியான குணத்தினைக் கொண்டே விளங்குகின்றன.

முதன்மைத் தரவு எனும் போது அது ஒரு உருபொருளின் நிரந்தரமான தன்மையைக் குறிக்கின்றது. எத்தனை ஆண்டுகள் ஆனாலும் அவற்றின் பயன்பாடு மாறுவதில்லை (Relatively permanent). எடுத்துக்காட்டாக ஒரு வாடிக்கையாளரின் பெயர்/அலைபேசி எண்/முகவரி ஆகிய தரவுகள் அடிக்கடி மாற்றப்படுவதில்லை.

நடவடிக்கைத் தரவோ அந்த நடவடிக்கை நடப்பில் இருக்கும் வரை மட்டுமே முக்கியத்துவம் பெறுகின்றது. நடவடிக்கை முடிந்ததும் அது கண்டுகொள்ளப்படுவதில்லை (temporary usage). எடுத்துக்காட்டாக, காலாண்டுத் தேர்வு முடிந்து மாணவர்கள் எடுக்கும் மதிப்பெண்கள் தரவு அவர்கள் அரையாண்டுத் தேர்வு எழுதியவுடன் முக்கியத்தன்மை இழந்து விடுகின்றது. முழு ஆண்டுத் தேர்வு முடிந்து அடுத்த வகுப்புக்குச் சென்று விட்டால் முந்தைய ஆண்டின் அத்தனை நடவடிக்கைத் தரவுகளும் சில சமயங்களில் தேவையில்லாததாக் கூட மாறி குப்பைத் தொட்டிக்கும் செல்வதுண்டு!

ஆக, ஒரு உருபொருளின் மாறாத தரவை முதன்மைத் தரவு என்றும், அன்றாட செயல்பாடுகளைச் சேமித்து வைத்தலை நடவடிக்கைத் தரவு என்றும் குறிப்பிடுகின்றோம். சொல்லப்போனால் இரண்டு தரவுகளுமே நிரந்தரமாகத் தரவுக் கிட்டங்கியில் (Data Warehouse) சேமிக்கப்படுகின்றன. நடவடிக்கைகளின் கூட்டுத் தொகையானது குறிப்பிட்ட கால இடைவெளியில் முதன்மைத் தரவில் புதுப்பிக்கப்பட்டு சமீபத்திய ஆரம்ப இருப்பாக மாறி விடுகின்றது.

இனி, பெற்றோர் - குழந்தை உறவுமுறை தரவுகளுக்கிடையே ஏன் வருகின்றது என்பதையும் காண்போம். இங்கே எது அடிப்படை என்பதைக் காட்டுவதற்காகவும், எதன் பின்னே எது வருகின்றது என்று காட்டுவதற்காகவும் இந்த உறவு முறை குறிப்பிடப்படுகின்றது. குழந்தை இல்லாமல் பெற்றோர் இருக்கலாம் ஆனால் பெற்றோர் இல்லாமல் குழந்தை இருக்க முடியாது அல்லவா? அடிப்படையான உருபொருளை பெற்றோர் என்றும், அதன் இருப்பின் மூலமே உறுதி செய்யப்பட்டு அடுத்து வரும் உருபொரு(ட்க)ளை குழந்தை(கள்) என்றும் குறிப்பிடலாம். எடுத்துகாட்டாக, புத்தகம் என்று ஒன்று இருந்தால் அதன் ஆசிரியர் என்று ஒருவர் இருக்க வேண்டுமல்லவா? ஒரே ஆசிரியர் பல புத்தகங்கள் எழுதக் கூடும் அல்லவா? எனவே தான் ஒன்றுடன் – பல (One to Many) என்ற உறவுமுறை உருவாகின்றது. இந்த பெற்றோர் – குழந்தை உறவின் மூலம் ஒட்டு மொத்தத்  தரவொழுங்கு (Data Integrity) பராமரிக்கப்படுகின்றது.

நமது அன்றாட வாழ்க்கை முறையில் அநாதைகள் இருக்கலாம். ஆனால் தரவுத்தள மேலாண்மைகள் அநாதைகளே இல்லாதவாறு தரவுத்தள மேலாண்மை மென்பொருள் கவனித்துக் கொள்வதையே தரவொழுங்கு என்று அழைக்கின்றோம்.

தரவுத்தள மேலாண்மை குழூஉக்குறியில் சொல்வதாக இருந்தால் முதன்மைத் திறவி இன்றி அந்நியத் திறவி இருக்க இயலாது. (For maintaining the  referential integrity in the database, foreign key without primary key is not allowed.) உருபொருளைச் சுட்டும் எண் அல்லது தனிக்குறி பெற்றோர் அட்டவணையில் இருக்குமானால் அதை முதன்மைத் திறவி என்றும், அதே எண் அல்லது குறி குழந்தை அட்டவணை அல்லது வேறோர் அட்டவணையில் பெற்றோரைச் சுட்டுவதற்காக இருந்தால் அதை அந்நியத் திறவி என்றும் அழைக்கின்றோம்.

தரவுத்தள மேலாண்மையின் இந்த அடிப்படையைப் புரிந்து கொண்டால் எவ்வாறு குறைந்த நினைவகத்தில் அதிகத் தகவல்களை முறையாகவும், ஒழுங்காகவும் பதிந்து கொள்ளலாம் என்பதிலிருந்து, எவ்வாறு அவற்றை விரைவாகச் சேமித்து வைக்கவும், மீண்டும் கையாளவும் சாத்தியமாகின்றது என்பதையும் புரிந்து கொள்ளலாம். 

இவ்வாறு உருபொருட்களை முதன்மை/பெற்றோர் மற்றும் நடவடிக்கை/குழந்தை என்று தரம்பிரிப்பதை தரவுத்தள இயல்பாக்கம் (Database Normalization) என்று அழைக்கலாம். இவ்வாறான இயல்பாக்கத்தினை அடிப்படையிலிருந்து படிப்படியாக கடினமான இயல்பாக்க நிலையை எட்ட வைக்கின்றார்கள். அதை முதல்நிலை, இரண்டாம் நிலை, மூன்றாம் நிலை, பாய்ஸ் காட் நிலை, நான்காம் நிலை, ஐந்தாம் நிலை மற்றும் ஆறாம் நிலை (1NF, 2NF, 3NF, BCNF, 4NF, 5NF, 6NF – NF: Normal Form) வரை எடுத்துச் செல்லப்படுகின்றது. இதில் ஐந்தாம் நிலை வரை தெளிவான தரவடிவமைப்பு இருக்கின்றது. அனைத்து நிலைகளைப் பற்றியும் இத்தொடரில் முழுதும் விளக்காவிட்டாலும் முதல் மூன்று நிலைகளை மட்டும் சிறிய எடுத்துக்காட்டைக் கொண்டு அடுத்த பகுதியில் விளக்கலாம்.