தரவுச் சுரங்கம் - 2

தரவு (Data) என்ற சொல்லின் வேர்ச்சொல்லைத் தேடிச் சென்றால் தரப்படுத்தப்படுவது என்று பொருள் தருகின்றது. அனைத்து செய்திகளையும் சேர்த்தால் அது தரவு என்று கருதப்படமாட்டாது. நாம் எந்தச் சூழலில் பயன்படுத்தவிருக்கின்றோமோ அந்தச் சூழலுக்குத் (Context) தகுந்த அனைத்து விவரங்களையும் சேர்த்தால் மட்டுமே அது தரவு என்று அழைக்கப்படும். (Data – Facts collected with a context) செய்தித்தாளில் அனைத்து செய்திகளும் கலந்து காணப்படுகின்றது. நாம் ஏதேனும் ஒரு சூழலை எடுத்துக் கொண்டு அதற்குத் தொடர்புடைய செய்திகளை மட்டுமே தேர்ந்தெடுக்கும் போது அது தரவு என்றழைக்கப்படும்.

எடுத்துக்காட்டாக உலகக்கோப்பை கால்பந்து எங்கெல்லாம் நடந்தது. எந்த ஆண்டில் நடந்தது. எந்த நாட்டின் அணி வென்றது என்று தேடி எடுத்தால் அது தரவு ஆகும். ஒரு ஆண்டில் ஒரு நிறுவனத்தின் அனைத்து பண வரவு செலவுகளையும் தொகுத்தால் அது தரவு ஆகும்.

எனவே தரவைச் சேகரிக்கும் போது தரவு பயன்படுத்தப்போகும் சூழல் மற்றும் தரவுக்குத் தேவையான விவரங்கள் ஆகிய இரண்டு முக்கியமான கருத்துகளைக் கவனத்தில் கொள்ள வேண்டும்.

                  தரவை அதன் மூலம், அமைப்பு, வடிவம், பண்பு என்று பலவகைப்படுத்தலாம்.

மூலம் (Source)

உட்தரவு:  (Internal Data) தரவு சேகரிப்பவராலேயே உருவாக்கப்படும் தரவு. எடுத்துக்காட்டு ஒரு நிறுவனத்தின் அனைத்து பண வரவு செலவுகளும் அந்த நிறுவனத்தைப் பொருத்தவரை உட்தரவு ஆகும்.

வெளித்தரவு: (External Data) தரவை நாம் சேகரிக்காமல் வெளியிலிருந்து கிடைக்கும் தரவு வெளித்தரவு ஆகும். எடுத்துக்காட்டு: பங்குச் சந்தை நிலவரம், தங்கத்தின் விலை நிலவரம்.

அமைப்பு (Structure)

கட்டமை தரவு: (Structured Data) நிரல்கள் – நெடுவரிசை (Columns) மற்றும் நிரைகள் – கிடைவரிசை (Rows) எனத் தகுந்த தலைப்புகளைக் (Headers) HHHhhaகொண்டு முறைப்படுத்தப்பட்ட பட்டியல்களாக (Tables) அடுக்கி வைக்கப்பட்ட தரவை கட்டமை தரவு என்று அழைக்கின்றோம். எடுத்துக்காட்டு: மாணவர்களின் மதிப்பெண் பட்டியல், விலைப்பட்டியல், வருகைப்பதிவேடு.

பகுதி கட்டமை தரவு: (Semi structured Data) மொத்தத் தரவில் பகுதி கட்டமைவுடனும் பகுதி கட்டமைவில்லாமலும் கலந்து இருக்கும் தரவு வகை பகுதி கட்டமை தரவு என்றழைக்கப்படுகின்றது. எடுத்துக்காட்டு: மின்னஞ்சல், XML கோப்பு, JSON கோப்பு ஆகியவற்றைக் குறிப்பிடலாம். மின்னஞ்சல் அனுப்புநர், பெறுநர், தலைப்பு ஆகியவை கட்டமைவுடன் இருந்தாலும் உள்ளிருக்கும் செய்தி கட்டமைவில்லாமல் இருக்கின்றது.

கட்டமைவில்லாத் தரவு: (Unstructured Data) நமக்குத் தேவையான செய்திகளைக் கொண்டிருந்தாலும், எந்த வித ஒழுங்கமைவும் இல்லாமல் கிடைக்கும் தரவு இவ்வாறு அழைக்கப்படுகின்றது. எடுத்துக்காட்டு: படங்கள், ஒலி, அசைபடங்கள் ஆகியவற்றைக் குறிப்பிடலாம்.

வடிவம்: (Form)

எழுத்து: (Text) அனைத்து வகையான தரவையும் எழுத்து என்ற வடிவத்தில் சுருக்கி விடலாம்! அதிலும் கணினியில் எந்த வகை எழுத்தையும் இரும எண்களாக (Binary digits – bits/Bytes) மாற்றி 0 மற்றும் 1 என்றே குறிப்பிடமுடியும்.

எண்: (Numeric) எழுத்து கொண்டு அனைத்து தரவையும் குறிப்பிடலாம் என்றாலும் எண்கள் எழுத்துக்கும் முன்பே தோன்றியவையாதலாலும், அதன் பயன் இன்றியமையாதிருப்பதாலும் எழுத்துக்குள் அடங்கினாலும் எண்களின் பெருமை அளவிடற்கரியது.

எனவே வள்ளுவரும்,

                  “எண்ணென்ப ஏனை எழுத்தென்ப இவ்விரண்டும்

                  கண்ணென்ப வாழும் உயிர்க்கு”, என்கின்றார்,

ஔவையும் “எண்ணும் எழுத்தும் கண்ணெனத் தகும்” என்று குறிப்பிடுகின்றாள்.

எண்ணத்தில் விளைந்ததால் அதை எண் என்கின்றோம்! உலகத்திலிருக்கும் எந்தப் பொருளையும் நாம் எண்ணாலேயே அளக்க விழைகின்றோம். ஒரு பொருளை மற்றொரு பொருளோடு ஒப்பிட்டுப் பார்க்கவும் நமக்கு எண்கள் தேவைப்படுகின்றன. “கண்ணளக்காததையா கையளக்கப் போகின்றது?” என்றொரு பழமொழி கூட உண்டு.

இந்த எண்களும் மூன்று வகைப்படும்.

பெயரெண்: (Nominal Numbers) : எந்த ஒரு கணக்கீடுக்கும் உட்படுத்தாமல் ஒரு பொருளையோ அல்லது மனிதரையோ மற்றவர்களிடமிருந்து வேறுபடுத்திப் பார்ப்பதற்கு எண்களைப் பயன்படுத்தினால் அவற்றைப் பெயரெண் எனலாம். எடுத்துக்காட்டு: அலைபேசி எண்கள், ஆதார் எண் ஆகியவை.

வரிசையெண்: (Ordinal Numbers – I, II, III,…) ஒன்றன்பின் ஒன்றாக வரிசைக்கிரமமாக அடுக்கி வைத்து அவற்றின் வரிசையைக் (Order) குறிப்பிடும் எண்கள் வரிசையெண்கள் என்று அழைக்கப்படுகின்றன. எடுத்துக்காட்டாக, முதல் மாணவன், இரண்டாம் மாணவன் என்று படிவரிசையில் அடுக்குவதைக் குறிப்பிடலாம்.

செவ்வெண்: (Cardinal Numbers – 1,2,3,…) ஒன்று, இரண்டு, மூன்று என்று எண்ணக் கூடிய அனைத்தையும் இவ்வாறு குறிப்பிடலாம். உன்னிடம் எத்தனை பலாச்சுளைகள் என்று கேட்டால் நம்மால் எண்ணிச் சொல்ல முடிகின்றது அல்லவா? இந்த எண்களே முதலில் தோன்றியமையால் இவற்றை முதலெண் என்றும் அழைப்பதுண்டு. இவ்வுலகில் நாம் காணும் அனைத்தையும் இவ்வாறே எண்ணப்பட்டு செய்திகள் சேகரிக்கப்படுகின்றன.

இடவெளித்தரவு: (Spatial Data) இடங்களைக் குறிப்பிடப் பயன்படுத்தப்படும் தரவை இவ்வாறு அழைக்கின்றார்கள். அவை படக்காட்சிகள், செயற்கைக்கோள் படங்கள் என்று எவ்வாறாக வேண்டுமானாலும் இருக்கலாம். இவற்றையும் திசைச்சாரி (Vector) மற்றும் படப்புள்ளிகளின் தொகுப்பான வரிக்கோலம் (Raster) என்று பிரிக்கலாம்.

அருவத்தரவு: (Abstract Data)  எந்த உருவமும் இன்றி நமது கருத்தில் மட்டும் உலா வரும் தரவை அருவத்தரவு எனலாம்! பொருள் நோக்கு நிரலகத்தில் (Object Oriented Programming) இனக்குழு (Class) உருவாக்கத்தில் அருவப்படுத்தல் (Abstraction) என்பதுண்டு. இதைக் கணித்தமிழுக்கு அருந்தொண்டாற்றி கணிப்பொறியியல் கலைச்சொல் திரட்டு உருவாக்கிய மு. சிவலிங்கம் ஐயா (http://www.sivalingam.in) குறிப்பிடுவது போல் புறாவைக் காண முடியும். மயிலைக் காண முடியும். கழுகைக் காண முடியும். எங்காவது பறவையைக் காண முடியுமா? பறவை என்பது கருத்தியலில் மட்டுமே முடியும். எங்குமே எவருமே பறவை என்ற ஒன்றைக் காண முடியாது அல்லவா? ஆக, தேவையானவற்றைப் பொருத்திப் பார்க்கும் வகையில் நாம் உருவாக்கும் தரவமைப்பை அருவத்தரவு என்றழைப்பார்கள். அதையும் பட்டியல் (List), வரிசை (Queue) மற்றும் அடுக்கு (Stack) என்று வகைப்படுத்தலாம்.

உயர்தரவு: (Meta Data) தரவைப் பற்றிய தரவு ஒன்று இருக்குமானால் அதுதான் உயர்தரவு என்று அழைக்கப்படுகின்றது. ஆம். தரவின் அமைப்பு, வகை, உறுப்புகள், இடை உறவு (Relationships), முதன்மைத் திறவி (Primary Key), அயல்திறவி (Foreign Key), வரிசையாக்கத் திறவி (Sort Key), சுட்டிகைத் திறவி (Index Key) ஆகியவற்றை உயர்தரவு என்றழைக்கின்றார்கள். ஒரு புகைப்படம் என்பதை தரவு என்றால் அதை எடுத்தவர், என்று எடுக்கப்பட்டது, எந்தப் புகைப்படக்கருவி கொண்டு எடுக்கப்பட்டது ஆகியவை உயர்தரவு ஆகும்.

பண்பு:

                  தரவின் பண்பின் அடிப்படையில் தரவை இரண்டு வகைகளாகப் பிரிக்கலாம்.

                  தரவகைத் தரவு: (Qualitative Data) எண்களால் குறிப்பிடாமல், தோராயமாகவும், குத்துமதிப்பாகவும் குறிப்பிடப்படுவதாகவும், பண்புகளைக் குறிப்பிடுவதாகவும் இருக்கும் தரவு தரவகைத் தரவு எனப்படும். எண்களால் குறிப்பிடாமல் இருப்பதால் இவற்றைக் குழுவகைத் தரவு (Category/Group Data) என்றும் அழைப்பர். எடுத்துக்காட்டாக இலையின் நிறம் பச்சை (எந்த அளவு பச்சை?!)

                  எண்ணளவுத் தரவு: (Quantitative Data) எண்களால் குறிப்பிடக்கூடிய தரவு இவ்வாறு அழைக்கப்படுகின்றது. அவற்றைப் பற்றி ஏற்கனவே மேலே கண்டோம்.

தரவின் பல வகைகளைப் பற்றித் தெரிந்து கொண்டோம். இன்னும் தரவு எடுக்கும் பல்வேறு அவதாரங்களையும் அடுத்ததாகக் காண்போம்.


Author: ரத்தினகிரி

ரத்தினகிரி சுப்பையா

-பட்டயக் கணக்காளர் - ஆசிரியர் - தரவு பகுப்பாய்வு ஆர்வலர்