தரவுச் சுரங்கம் - 6

உறவுமுறை தகவல் தரவுத்தள மேலாண்மையில் மட்டுமின்றிப் பொதுவாகவே தரவு மேலாண்மையில் தரவுகளின் இடையே இருக்கும் உறவைப் பற்றியே முந்தைய பகுதியிலிருந்து தொடர்ந்து பார்த்துக் கொண்டிருக்கின்றோம். ஒவ்வொரு உருபொருளும் அதனதன் பண்புகளைத் தன்னகத்தே கொண்டு மற்றொரு உருபொருளுடன் இருக்கும் தொடர்பை எவ்வாறு ஏற்படுத்திக் கொள்கின்றது என்பதில் மொத்தம் நான்கு வகையான உறவுமுறைகள் இருக்கின்றன. அவற்றுள் இரண்டு அடிப்படையான உறவுமுறைகள் ஆகும். மற்ற இரண்டு உறவுமுறைகள் மேற்கண்ட அடிப்படை உறவுமுறைகளைக் கொண்டே அமைகின்றன.

உருபொருட்களுக்கிடையேயான உறவு அவற்றின் எண்ணிக்கையைப் பொருத்தே அமைகின்றது. ஒரு உருபொருளுடன் பல உருபொருட்கள் ஒரே நேரத்தில் இணைந்திருக்க வேண்டியிருந்தால் அதனை ஒன்றுடன் – பல உறவுமுறை (One to Many Relationship) என்று அழைக்கின்றோம். எடுத்துக்காட்டாக, ஒரே நுழைவுச்சீட்டில் பலர் உள்ளே நுழைவதையும், ஒரு குறிப்பிட்ட எண் கொண்ட ரயிலில் (எடுத்துகாட்டாக 12661 – பொதிகை விரைவு வண்டி) பல பெட்டிகள் இருப்பதையும் குறிப்பிடலாம்.

ஒரு உருபொருளுடன் ஒரே ஒரு உருபொருள் மட்டுமே இணைந்திருக்க முடியுமாயின் அதை ஒன்றுடன் – ஒன்று உறவுமுறை (One to One) என்று அழைக்கின்றோம். எடுத்துக்காட்டாக, ஒரு நாற்காலி உருபொருளில் ஒரு மனிதர் மட்டுமே அமரலாம் என்பதையும், ஒரு பேருந்தை ஒரு ஓட்டுநர் மட்டுமே ஓட்டலாம் என்பதையும் குறிப்பிடலாம்.

ஆக, ஒரு பேருந்தில் ஒரு நடத்துநரும், ஒரு ஓட்டுநரும் இருப்பது ஒன்றுடன் ஒன்று எனவும், அதில் பல பயணிகள் ஒரே நேரத்தில் பயணிப்பது ஒன்றுடன் பல எனவும் கணினித் தரவில் குறிப்பிடப்படும். அதே போல் பல பேருந்துகள் ஒரு வழித்தடத்தில் செல்லுமானால் ஒன்றுடன் பல என்று குறிப்பிடப்படும். ஆக ஒட்டுமொத்த தரவுகளையும் இது போன்று உருபொருட்களாகவும், அவற்றின் பண்புகளாகவும் பிரித்துப் பின்னர் உருபொருட்களுக்கிடையேயான உறவுமுறைகளைக் கொண்டு சேர்த்து ஒரு ஒட்டுமொத்தமான தரவுத்தளமாகக் காண்பது தான் தரவுத்தளமேலாண்மையின் அடிப்படையாகும்.

மேற்கண்ட இரு உறவுமுறைகள் தவிர பலவற்றுடன் – ஒன்று (Many to one) , பலவற்றுடன் – பல (Many to Many) ஆகிய இரண்டு உறவுமுறைகளும் உண்டு என்றாலும், அவை மேற்கண்ட அடிப்படை உறவுமுறைகளின் சேர்க்கை அல்லது மாறுபட்ட பார்வையே ஆகும். எடுத்துக்காட்டாக, பல மாணவர்கள், பல வகுப்புகளில் சேர்ந்திருக்கின்றார்கள் என்று கூறினாலும், ஒவ்வொரு மாணவரும் பல வகுப்புகளில் சேர்ந்திருக்கின்றார்கள் என்றும், ஒரு வகுப்பில் பல மாணவர்கள் இருக்கின்றார்கள் என்றும் கொள்ளப்பட்டு, இரண்டு ஒன்றுடன் – பல உறவுமுறைகளாகப் பிரிக்கலாம்.

மேற்கண்ட படத்தில் காட்டியிருப்பதைப் போல் இரண்டு ஒன்றுடன் - பல உறவுமுறைகள் இணையும் போது பலவற்றுடன் – பல எனும் உறவுமுறையாக உண்டாகின்றது.

இதே போல் ஒன்றுடன் – பல உறவுமுறையை இடமிருந்து வலமாகக் காணாமல்  வலமிருந்து இடமாகப் பார்த்தால் அது பலவற்றுடன் – ஒன்று ஆகிய உறவுமுறை ஆகின்றது. எடுத்துக்காட்டாக நம்முடைய கடையில் இன்று வாங்கிய வாடிக்கையாளரின் பட்டியலைத் தயார் செய்ய முனைந்தால், ஒவ்வொரு வாடிக்கையாளரின் பெயரும், அவர் பல முறை நம் கடைக்கு இன்று வந்தாலும், ஒருமுறை மட்டுமே பட்டியலில் இடம் பெறும் அல்லவா? இது பலவற்றுடன் – ஒன்று எனும் உறவுமுறையாகும். உறவுமுறை ஒன்று தான் என்றாலும் கேட்கும் கேள்வியின் காரணமாக உறவுமுறையானது மாறுபட்ட கோணத்திலிருந்து காணப்படுகின்றது.

இவ்வாறு உருபொருட்களிடையே காணப்படும் நான்கு வகையான உறவுமுறைகளையும் வகைப்படுத்திய நாம் அடுத்ததாக அவற்றின் குணங்களின் அடிப்படையில் எவ்வாறு பிரிக்கப்படுகின்றது என்பதைக் காணலாம்.

தரவுச் சுரங்கம் - 5

            தேவைக்குத் தகுந்தவாறு ஒன்றுக்கொன்று தொடர்புடைய உண்மைச் செய்திகளின் தரப்படுத்தப்பட்ட தொகுப்பே தரவு என்று முதல் பகுதியிலேயே கண்டோம். ஒன்றுக்கொன்று என்று போகின்ற போக்கில் கூறிவிட்டாலும், எந்த ஒன்றுடன் மற்றொன்று தொடர்புடையது? அது எது குறித்தது? எனும் கேள்வி எழாமலில்லை!

தரவுத் தொழில்நுட்பத்தில் இன்றளவும் கோலோச்சிக் கொண்டிருக்கும் உறவுநிலைத் தரவுத் தள மேலாண்மை (RDBMS) மட்டுமின்றி அதற்கு முந்தைய காலந் தொட்டே செய்திகளை எதன் அடிப்படையில் ஒன்றிணைத்து அல்லது கட்டமைக்க வேண்டும் என்று அறிந்திருந்தனர் கணினி வல்லுநர்கள். அந்த அடிப்படையான அமைப்பின் பெயர் தான் உருபொருளும் உறவுநிலையும்.

            உருபொருள்: (Entity) தனித்துவமானதாவும் மற்றவைகளிடமிருந்து வேறுபடுத்திக் காட்டுமளவுக்கு பண்புகள்/தன்மைகள் கொண்டதாகவும்  தனது இருப்பை உணர்த்துவதாகவும் இருக்கும் பொருளையே உருபொருள் என்று அழைக்கின்றோம். எடுத்துக்காட்டாக ஒரு பேனாவிலிருந்து இந்தப் பேரண்டம் வரை எதையெல்லாம் தனித்துவமாகக் கண்டு உணர முடிகின்றதோ அதையெல்லாம் உருபொருள் என்று அழைக்கின்றோம். பேனாவுடன் சேர்ந்திருக்கும் போது பேனா என்று அறியப்பட்டாலும், அதிலிருந்து கழற்றி விட்டால் பேனாவின் மூடி கூட ஒரு தனிப்பட்ட உருபொருள் என்று ஆகிவிடக் கூடும். தரவுகளைப் பொருத்தவரை உயிருள்ள, உயிரற்ற என்ற பாகுபாடுகள் கிடையாது. எனவே உயிருள்ள நீங்களும், நானும் கூட தரவு மேலாண்மையில் உருபொருள் என்றே அழைக்கப்படுவோம்!

            பண்புகள்: (Attributes) மேற்கண்ட உருபொருட்களுக்கே உரித்தான பண்புண்மைகளை உருபொருளின் பண்புகள் என்று அழைக்கின்றோம். இப்பண்புகள் தான் நாம் உருபொருளுடன் கோந்து போல் இணைத்து சேர்த்துக் கட்டி வைக்கும் உருபொருளைப் பற்றிய செய்திகள் என்று உணர்ந்து கொண்டிருப்பீர்கள் என்று நினைக்கின்றேன். ஆங்கிலத்தில் சொல்வதானால், (Everything uniquely identifiable is called entity. Every entity has its own attributes. These attributes are nothing but the facts about the entity itself.)

            ஆக, ஒவ்வொரு உருபொருளும் அதனதன் பண்புகளைச் சுற்றிலும் வைத்துக் கொண்டு தாமே நடுநாயகமாக விளங்குகின்றது.

            இவ்வாறு உருபொருட்களையும் அவற்றின் பண்புகளையும் கொண்டு தரவு மென்பொருள் நிர்வாகிகள் மற்றும் படைப்பாளிகள் யாவருக்கும் புரியும் வண்ணம் ஒரு வரைபடத்தைத் தயாரிக்கின்றார்கள். அதற்கு உருபொருள் உறவுநிலை வரைபடம் (உ.உ.வரைபடம்) (Entity Relationship Diagram – Shortly ER Diagram) என்று பெயர்.

            சில அடிப்படை வடிவங்களை மட்டுமே பயன்படுத்தி இந்த உ.உ. வரைபடங்கள் தயாரிக்கப்படுகின்றன.

செவ்வகம் – உருபொருள்

நீள்வட்டம் – பண்புகள்

வைரம் – உறவு   

            கீழ்க்காணும் உருபொருள் வரைபடத்தைப் பார்த்தவுடன் இது ஒரு மாணவரின் தரவுப் பட்டியலில் இருக்கும் அவரது தனித்தன்மையான பண்புகள் என்று புரிகின்றது அல்லவா?

            எந்த ஒரு நிறுவனத்தின் தரவுகளையும் நாம் பகுப்பாய்வு செய்ய முற்படும் போது அந்த நிறுவனத்தின் ஒட்டு மொத்த உருபொருள் உறவுநிலை வரைபடத்தைக் கண்டுணர்தல் அவசியமாகும். அவ்வாறு ஒரு வரைபடம் இதுவரை இல்லையாயின் நாமே உருவாக்குதல் நலம் பயக்கும்.

            நாம் அடுத்துக் காண்பது ஒரு மருத்துவமனையின் மாதிரி உ.உ. வரைபடம் ஆகும். (நன்றி: https://practice.geeksforgeeks.org/problems/er-diagram-of-hospital-management-system) இதன் மூலம் எவ்வாறு மருத்துவர், நோயாளி, செவிலியர், அறைகள், மருந்து, மருத்துவம் பார்த்த சீட்டுகள், பட்டிகள், வேலையாட்கள், ஆவணங்கள் என்று மருத்துவமனை தொடர்பான அனைத்து உருபொருட்களும், அவற்றின் பண்புகளும், எவ்வாறு ஒரு உருபொருள் மற்றொரு உருபொருளுடன் உறவு கொள்கின்றது என்றும் அதன் மூலம் எவ்வாறு அனைத்து உருபொருட்களும் ஒட்டு மொத்த நிறுவனத்தில் இணைந்து செயலாற்றுகின்றன என்றும் உணர்ந்து கொள்ள முடியும்.

தரவுச் சுரங்கம் - 4

கணினி உலகின் வாயிலாக விஸ்வரூபம் எடுத்து நிற்கும் தரவின் பல பரிமாண அவதாரங்களைக் கண்ட நாம் இப்போது தரவின் பரிணாம வளர்ச்சியையும் காண்போம்.

கல்வெட்டிலும், பட்டயங்களிலும், ஓலைச்சுவடிகளிலும் இருந்த தகவல்கள் இயேசு கிறிஸ்து பிறப்புக்கு 200 ஆண்டுகளுக்கு முன்பு காகிதம் கண்டுபிடிக்கப்பட்டவுடன் காகிதத்திற்கு மாறியது. அப்போதிருந்து கி.பி. 1725ம் ஆண்டில் தறி இயந்திரங்களில் அழகான ஆடை வடிவமைப்பைச் சேமித்து வைக்கும் துளை அட்டைகள் வரும் வரை காகிதத்தின் கைகளே ஓங்கியிருந்தன. அதன் பின் 1837ல் கணினி உலகின் தந்தை சார்லஸ் பாப்பேஜ்  1837ல் முதல் கணினியைக் கண்டறியும் போது துளை அட்டைகளே அதிகம் பயன்படுத்தப்பட்டன. 1980 வரையிலும் துளை அட்டைகளின் பயன்பாடு இருந்தது என்பது ஆச்சரியமான தகவல். 1960களில் காந்தத் தட்டுகள் பயன்பாடு ஆரம்பித்தது. காந்தத் தட்டுகளில் வன் தட்டு மென்தட்டு  என்று பலவகைகள் பல அளவுகளில் வர ஆரம்பித்தன. 20MB அளவிலான வன்தட்டுகளில் அனைத்து மென்பொருட்களையும் உள்ளடக்கி, பத்தாண்டுகளுக்கான தகவல்களை ஏற்றிய பின்னும் பாதி இடம் மீதி இருந்தது நினைவில் இருக்கின்றது. பின்னர் லேசர் ஒளி அலைகளின் மூலம் எழுதி வைக்கப்படும் முறையில் சிடி, டிவிடி, ப்ளூரே என்று பலவித தொழில்நுட்பங்கள் தகவலை எழுதி வைப்பதற்குப் பயன்பட்டன. பிளாஷ் எனப்படும் அதிவிரைவு நினைவகம் வந்த பின்னர் தற்போது SSD, NAND ஆகிய தொழில்நுட்பங்களைக் கொண்டு அதில் பதியப்பட்டு வருகின்றது.

மெய்நிகர் மற்றும் மேகக் கணிமை (Virtual and Cloud Computing) வந்த பின் இப்போது நமது தகவல் எங்கே பதியப்படுகின்றது எந்த வன்பொருளில் பதியப்படுகின்றது என்பதே தெரியாவிட்டாலும் கூட நம்மால் தகவலைப் பதிந்து கொண்டு எப்போது வேண்டுமானாலும் எடுத்துக் கொள்ள முடிகின்றது.

எத்தகைய தரவாக இருந்தாலும் அது (Binary Digit-Bit) இரும இலக்க எண்ணாக மாற்றப்பட்டு ஏதேனும் ஒரு கோப்பின் பெயரிலேயே கணினியில் சேமிக்கப்படுகின்றது என்பதை நாம் அறிவோம்.

இருப்பினும் மென்பொருளில் தரவுகளை மேலாண்மை செய்யப்படும் வரலாறையும் சற்று சுருக்கமாகக் காண்போம். கணினி கண்டறியப்பட்டு தொழில்முறை பயன்பாட்டுக்கு வந்த புதிதில் தரவு எடுப்பார் கைப்பிள்ளையென கணினி மொழி மற்றும் இயக்கக மென்பொருளின் அடிமையாகவே இருந்தது எனலாம்.

எடுத்துக்காட்டாக கோபால் எனும் மொழி பற்றி கேள்விப்பட்டிருப்பீர்கள். கோபால் மொழியில் எழுதப்பட்ட மென்பொருளைக் கொண்டு உருவாக்கப்பட்ட தரவுகளை கோபால் மொழி கொண்டு மட்டுமே வாசிக்க முடியும். மற்ற மொழிகளைக் கொண்டு அதை வாசிக்க முடியாது. அதே போல் டாஸ் இயங்குதளத்தில் ஒரு மென்பொருள் இருக்குமானால் அதில் இருக்கும் தரவை ஒரு யுனிக்ஸ் இயங்குதளத்தில் இருக்கும் மற்றொரு மென்பொருள் கொண்டு காண முடியாது. ஒரு கருவியிலிருந்து மற்றொரு கருவிக்கு தகவல்களை மாற்றம் செய்வதும் வலைப்பின்னல் இல்லாத காலங்களில் சாத்தியமில்லாமல் இருந்தது.

எனவே முதலில் தனிக் கோப்புகளில் மட்டுமே தரவுகள் சேமிக்கப்பட்டு வந்தன. அவற்றைத் தட்டை கோப்பு முறை (Flat File System) என்றே அழைத்து வந்தனர். அதன்பின்னர் தகவல்களுக்கிடையே இருக்கும் உறவுமுறைகளைக் குறித்து வைக்க ஏதுவாக அடுக்கு முறை தரவு மேலாண்மை (Hierarchial Database Management) சிலகாலம் இருந்தது. அதன்பின்னர் இன்னும் சிலகாலம் வலைமுறை தரவு மேலாண்மையும் பயன்பாட்டில் இருந்தது. இந்தச் சூழ்நிலையில் தான் 1970களில் தரவின் அடிமைச் சங்கிலியைத் தகர்த்தெறிந்து அதன் சுதந்திரத்திற்கு வழிவகுத்த எட்கர் காட் (Edgar F. Codd) உறவுநிலைத் தரவுத் தளமேலாண்மை முறையைக் கண்டறிந்து அறிமுகப்படுத்தினார்.

அவரது வழிகாட்டுதல்களான மிகவும் பெயர்பெற்ற காட் 12 (Codd's 12 rules) விதிகளுக்குட்பட்டு ரேய்மண்ட் பாய்ஸ் (Raymond F. Boyce) உருவாக்கிய SQL எனும் தரவுத்தள வினவல் மொழி தினந்தோறும் மாறிக் கொண்டிருக்கும் கணினி உலகில் ஐம்பதாண்டுகளுக்குப் பின்னர் இன்றளவும் நடைமுறையில் இருக்கின்றது என்றால் அதன் முக்கியத்துவத்தை நாம் உணர்ந்து கொள்ளலாம்.

வியாபாரக் கணக்குகளைக் குறித்து வைப்பதற்கும் முறைசார் தரவுகளைக் குறித்து வைப்பதற்கும் இந்த உறவுநிலைத் தரவுத்தள மேலாண்மை முறை மிகவும் கனகச்சிதமாகப் பொருந்துவதால் என்ன தான் பொருள் நோக்கு தரவுத்தள மேலாண்மை (Object Oriented Database) மற்றும் மட்டற்ற மட்டுமல்லா SQL (NoSQL) என்று பலவித தொழில்நுட்பங்கள் வந்தாலும் இன்னும் இந்த உறவுநிலைத்தரவுத் தள மேலாண்மையின் இடத்தைப் பிடிக்க யாரும் வரவில்லை என்றே சொல்லலாம்!

இன்றைய பெருந்தரவு காலத்திலும் மேகக்கணிமைத் தொழில்நுட்பத்திலும் கூட இந்தத் தரவு மேலாண்மையின் தாக்கத்தை நம்மால் காணமுடியும். தரவுத் தொழில்நுட்பத்தின் வரலாற்றைச் சுருக்கமாகக் கண்டோம். இனி தரவுத்தள மேலாண்மையின் அடிப்படையை அடுத்த பகுதியில்  சற்று விளக்கமாகக் காண்போம்.

தரவுச் சுரங்கம் - 3

ஒன்றுக்கொன்று தொடர்புடைய செய்திகளின் அல்லது நிகழ்வுகளின் தொகுப்பு மட்டுமே தரவு என்று முடித்து விடமுடியாது. தரவின் பல்பரிமாணங்களைத் தொடர்ந்து காண்போம்.

வணிகம் தொடர்பான நடவடிக்கைகள் என்றாலும் சரி, ஒரு தனிமனிதரின் சமர்த்துக் கடிகாரத்தில் சேர்த்து வைக்கப்படும் அவரது உடற்பயிற்சிக்கான தரவு என்றாலும் சரி ஏதோ ஒரு பட்டியலில் பின்னாளில் தேவைப்படும் என்று குறித்து வைக்கப்படுகின்றது. அவ்வாறு குறித்து வைக்கப்படும் செய்திகள் மூன்று வகைப்படும்.

  1. நடவடிக்கைகள் (Transactional Facts)

தினந்தோறும் நடந்து வரும் செயல்பாடுகளைக் கண்ணுற்று அவற்றில் தேவையானவை யாதென்று அறிந்து அவற்றைத் தொடர்ந்து குறித்து வைத்து வருவது நடவடிக்கைகள் ஆகும். பெரும்பாலும் அவை யார்? என்ன? எங்கே? எப்போது எவ்வளவு? (Who, What, Where, When, How much or How many) ஆகிய ஐந்து கேள்விகளுக்கான பதில்களாகத் தான் இருக்கும்.

வணிக நிறுவனங்களின் குறிப்பேடுகளை இந்த வகை தரவுக்கு எடுத்துக்காட்டாகக் குறிப்பிடலாம். இக்குறிப்பேடுகள் பின்னர் தேவைக்கேற்ப பேரேடுகளில் பதியப்பட்டு பின்னர் அவற்றின் மொத்தம் மற்றும் மீதம் ஆகியவை கணக்கிடப்பட்டு அறிக்கைகளாக உருப்பெற்றுப் பின்னர் நாம் வணிகம் சார்ந்து எதிர்காலத்தில் முடிவெடுக்க வசதியாகப் பின்பற்றப்படுகின்றன.

கணினி யுகம் வந்த பின்பு பெரும்பாலும் அனைத்து பெரும் மற்றும் நடுத்தர வணிக நிறுவனங்களின் மொத்த நடவடிக்கைக் குறிப்புகளும் கடந்த பதினைந்து ஆண்டுகளுக்கும் மேல் பலருக்கும் தெரியாமல் தேக்கி வைக்கப்பட்டு இருக்கின்றன. அவற்றில் எத்தனை மாணிக்கங்களும் வைரங்களும் பதுங்கி இருக்கின்றனவோ!?

  • நேரப் படப்பதிகை: (Periodic Snapshots)

நடவடிக்கைகள் அனைத்தையும் குறிப்பெடுத்து வைத்து விட்டோமே? இன்னும் அப்படி என்ன சேர்த்து வைக்க இருக்கின்றது என்று நினைத்து விடவேண்டாம். சிறந்த முறையில் ஒரு வணிக நிறுவனம் நடத்துவதற்கு இவை மட்டுமே அனைத்து தகவல்களையும் தந்து விட முடியாது. அந்த நிகழ்வுகளால் ஏற்பட்ட விளைவுகளை அவ்வப்போது படம் பிடிப்பது போல் குறித்து வைத்திருப்பதும் தேவையாகின்றது.

எடுத்துக்காட்டாக ஒரு ஐந்து நட்சத்திர தங்கும் விடுதியில் தினந் தோறும் எத்தனை அறைகள் நிரம்பி இருக்கின்றன எத்தனை அறைகள் காலியாக இருந்தன என்ற விபரம் தொடர்ந்து பதியப்பட்டு வருவதைக் குறிப்பிடலாம். தினந்தோறும் உங்கள் பையில் பணம் எவ்வளவு இருந்தது என்று தொடர்ந்து கவனித்து வந்தாலே உங்கள் பணப்புழக்கம் பற்றி அறிந்து கொள்ள முடியும்.

கூகுள் வரைபடத்தில் 2000ம் ஆண்டு  ஒரு நிலப்பரப்பு எவ்வாறு இருந்தது என்றும் 2020ம் ஆண்டு அதே நிலப்பரப்பு எவ்வாறு இருந்தது என்றும் குறித்து வைத்திருந்தால் அதனால் அந்தப் பகுதியில் என்னென்ன மாற்றங்கள் நிகழ்ந்திருக்கின்றது என்று அனுமானிக்க முடியும். அதுமட்டுமின்றி இன்னும் இருபது ஆண்டுகள் கழித்து எவ்வாறு இருக்கும் என்றும் கண்டறிய முடியும் அல்லவா?

  • கூட்டுப் படப்பதிகை (Cumulative/Accumulating Snapshots)

ஒரே நிகழ்வு அல்லது நடவடிக்கையின் சங்கிலித் தொடரைக் காலக்கிரமத்துடன் அவற்றின் முந்தைய குறிப்புகளுடனே சேர்த்து வைத்து வருவதை கூட்டுப்பதிவு எனலாம். இவை நடவடிக்கைப் பதிவுகளாக ஒருபுறம் இருந்தாலும் நமது வசதிக்காகவும், மேற்கொண்டு நடவடிக்கை மேற்கொள்ள ஏதுவாகவும் ஒரே இடத்தில் சேர்த்துப் பதிந்து கொள்ளலாம்.

எடுத்துக்காட்டாக, அமேசான் நிறுவனத்தின் தகவல் முறையைக் கண்ணுறலாம். ஒருவர் இந்தப் பொருள் பிடிக்கின்றது என்று குறித்து வைத்துக் கொண்டால், அவருக்கு அதை அவ்வப்போது ஞாபகப்படுத்தி அதை வாங்கும் வரை தொடர்ந்து பின்னர் அவர் வாங்க முடிவெடுத்து அவரிடம் பணத்தை வாங்கி சரக்கைக் கொண்டு போய் சேர்ப்பது என்று அனைத்தும் நடவடிக்கைகள் தான் என்றாலும் ஏதோ ஒரு முடிச்சில் அனைத்தும் ஒன்றாகச் சேர்த்து வைத்துப் பார்த்தால் மட்டுமே சிறந்த முடிவுகள் எடுக்க முடியும்.

அவ்வளவு பெரிய நிறுவனத்தில் தினம் நடைபெறும் கோடிக்கணக்கான நடவடிக்கைகளை இவ்வாறு தொகுப்பது என்று மனிதர்களால் ஆகாது என்றாலும் கணினிகளால் அது முடிகின்றது.

அடுத்ததாக மேகக் கணிமையில் தரவு எவ்வாறு சேமிக்கப்படுகின்றது என்பதையும் பெருந்தரவு குறித்தும் காணலாம்.

தரவுச் சுரங்கம் - 2

தரவு (Data) என்ற சொல்லின் வேர்ச்சொல்லைத் தேடிச் சென்றால் தரப்படுத்தப்படுவது என்று பொருள் தருகின்றது. அனைத்து செய்திகளையும் சேர்த்தால் அது தரவு என்று கருதப்படமாட்டாது. நாம் எந்தச் சூழலில் பயன்படுத்தவிருக்கின்றோமோ அந்தச் சூழலுக்குத் (Context) தகுந்த அனைத்து விவரங்களையும் சேர்த்தால் மட்டுமே அது தரவு என்று அழைக்கப்படும். (Data – Facts collected with a context) செய்தித்தாளில் அனைத்து செய்திகளும் கலந்து காணப்படுகின்றது. நாம் ஏதேனும் ஒரு சூழலை எடுத்துக் கொண்டு அதற்குத் தொடர்புடைய செய்திகளை மட்டுமே தேர்ந்தெடுக்கும் போது அது தரவு என்றழைக்கப்படும்.

எடுத்துக்காட்டாக உலகக்கோப்பை கால்பந்து எங்கெல்லாம் நடந்தது. எந்த ஆண்டில் நடந்தது. எந்த நாட்டின் அணி வென்றது என்று தேடி எடுத்தால் அது தரவு ஆகும். ஒரு ஆண்டில் ஒரு நிறுவனத்தின் அனைத்து பண வரவு செலவுகளையும் தொகுத்தால் அது தரவு ஆகும்.

எனவே தரவைச் சேகரிக்கும் போது தரவு பயன்படுத்தப்போகும் சூழல் மற்றும் தரவுக்குத் தேவையான விவரங்கள் ஆகிய இரண்டு முக்கியமான கருத்துகளைக் கவனத்தில் கொள்ள வேண்டும்.

                  தரவை அதன் மூலம், அமைப்பு, வடிவம், பண்பு என்று பலவகைப்படுத்தலாம்.

மூலம் (Source)

உட்தரவு:  (Internal Data) தரவு சேகரிப்பவராலேயே உருவாக்கப்படும் தரவு. எடுத்துக்காட்டு ஒரு நிறுவனத்தின் அனைத்து பண வரவு செலவுகளும் அந்த நிறுவனத்தைப் பொருத்தவரை உட்தரவு ஆகும்.

வெளித்தரவு: (External Data) தரவை நாம் சேகரிக்காமல் வெளியிலிருந்து கிடைக்கும் தரவு வெளித்தரவு ஆகும். எடுத்துக்காட்டு: பங்குச் சந்தை நிலவரம், தங்கத்தின் விலை நிலவரம்.

அமைப்பு (Structure)

கட்டமை தரவு: (Structured Data) நிரல்கள் – நெடுவரிசை (Columns) மற்றும் நிரைகள் – கிடைவரிசை (Rows) எனத் தகுந்த தலைப்புகளைக் (Headers) HHHhhaகொண்டு முறைப்படுத்தப்பட்ட பட்டியல்களாக (Tables) அடுக்கி வைக்கப்பட்ட தரவை கட்டமை தரவு என்று அழைக்கின்றோம். எடுத்துக்காட்டு: மாணவர்களின் மதிப்பெண் பட்டியல், விலைப்பட்டியல், வருகைப்பதிவேடு.

பகுதி கட்டமை தரவு: (Semi structured Data) மொத்தத் தரவில் பகுதி கட்டமைவுடனும் பகுதி கட்டமைவில்லாமலும் கலந்து இருக்கும் தரவு வகை பகுதி கட்டமை தரவு என்றழைக்கப்படுகின்றது. எடுத்துக்காட்டு: மின்னஞ்சல், XML கோப்பு, JSON கோப்பு ஆகியவற்றைக் குறிப்பிடலாம். மின்னஞ்சல் அனுப்புநர், பெறுநர், தலைப்பு ஆகியவை கட்டமைவுடன் இருந்தாலும் உள்ளிருக்கும் செய்தி கட்டமைவில்லாமல் இருக்கின்றது.

கட்டமைவில்லாத் தரவு: (Unstructured Data) நமக்குத் தேவையான செய்திகளைக் கொண்டிருந்தாலும், எந்த வித ஒழுங்கமைவும் இல்லாமல் கிடைக்கும் தரவு இவ்வாறு அழைக்கப்படுகின்றது. எடுத்துக்காட்டு: படங்கள், ஒலி, அசைபடங்கள் ஆகியவற்றைக் குறிப்பிடலாம்.

வடிவம்: (Form)

எழுத்து: (Text) அனைத்து வகையான தரவையும் எழுத்து என்ற வடிவத்தில் சுருக்கி விடலாம்! அதிலும் கணினியில் எந்த வகை எழுத்தையும் இரும எண்களாக (Binary digits – bits/Bytes) மாற்றி 0 மற்றும் 1 என்றே குறிப்பிடமுடியும்.

எண்: (Numeric) எழுத்து கொண்டு அனைத்து தரவையும் குறிப்பிடலாம் என்றாலும் எண்கள் எழுத்துக்கும் முன்பே தோன்றியவையாதலாலும், அதன் பயன் இன்றியமையாதிருப்பதாலும் எழுத்துக்குள் அடங்கினாலும் எண்களின் பெருமை அளவிடற்கரியது.

எனவே வள்ளுவரும்,

                  “எண்ணென்ப ஏனை எழுத்தென்ப இவ்விரண்டும்

                  கண்ணென்ப வாழும் உயிர்க்கு”, என்கின்றார்,

ஔவையும் “எண்ணும் எழுத்தும் கண்ணெனத் தகும்” என்று குறிப்பிடுகின்றாள்.

எண்ணத்தில் விளைந்ததால் அதை எண் என்கின்றோம்! உலகத்திலிருக்கும் எந்தப் பொருளையும் நாம் எண்ணாலேயே அளக்க விழைகின்றோம். ஒரு பொருளை மற்றொரு பொருளோடு ஒப்பிட்டுப் பார்க்கவும் நமக்கு எண்கள் தேவைப்படுகின்றன. “கண்ணளக்காததையா கையளக்கப் போகின்றது?” என்றொரு பழமொழி கூட உண்டு.

இந்த எண்களும் மூன்று வகைப்படும்.

பெயரெண்: (Nominal Numbers) : எந்த ஒரு கணக்கீடுக்கும் உட்படுத்தாமல் ஒரு பொருளையோ அல்லது மனிதரையோ மற்றவர்களிடமிருந்து வேறுபடுத்திப் பார்ப்பதற்கு எண்களைப் பயன்படுத்தினால் அவற்றைப் பெயரெண் எனலாம். எடுத்துக்காட்டு: அலைபேசி எண்கள், ஆதார் எண் ஆகியவை.

வரிசையெண்: (Ordinal Numbers – I, II, III,…) ஒன்றன்பின் ஒன்றாக வரிசைக்கிரமமாக அடுக்கி வைத்து அவற்றின் வரிசையைக் (Order) குறிப்பிடும் எண்கள் வரிசையெண்கள் என்று அழைக்கப்படுகின்றன. எடுத்துக்காட்டாக, முதல் மாணவன், இரண்டாம் மாணவன் என்று படிவரிசையில் அடுக்குவதைக் குறிப்பிடலாம்.

செவ்வெண்: (Cardinal Numbers – 1,2,3,…) ஒன்று, இரண்டு, மூன்று என்று எண்ணக் கூடிய அனைத்தையும் இவ்வாறு குறிப்பிடலாம். உன்னிடம் எத்தனை பலாச்சுளைகள் என்று கேட்டால் நம்மால் எண்ணிச் சொல்ல முடிகின்றது அல்லவா? இந்த எண்களே முதலில் தோன்றியமையால் இவற்றை முதலெண் என்றும் அழைப்பதுண்டு. இவ்வுலகில் நாம் காணும் அனைத்தையும் இவ்வாறே எண்ணப்பட்டு செய்திகள் சேகரிக்கப்படுகின்றன.

இடவெளித்தரவு: (Spatial Data) இடங்களைக் குறிப்பிடப் பயன்படுத்தப்படும் தரவை இவ்வாறு அழைக்கின்றார்கள். அவை படக்காட்சிகள், செயற்கைக்கோள் படங்கள் என்று எவ்வாறாக வேண்டுமானாலும் இருக்கலாம். இவற்றையும் திசைச்சாரி (Vector) மற்றும் படப்புள்ளிகளின் தொகுப்பான வரிக்கோலம் (Raster) என்று பிரிக்கலாம்.

அருவத்தரவு: (Abstract Data)  எந்த உருவமும் இன்றி நமது கருத்தில் மட்டும் உலா வரும் தரவை அருவத்தரவு எனலாம்! பொருள் நோக்கு நிரலகத்தில் (Object Oriented Programming) இனக்குழு (Class) உருவாக்கத்தில் அருவப்படுத்தல் (Abstraction) என்பதுண்டு. இதைக் கணித்தமிழுக்கு அருந்தொண்டாற்றி கணிப்பொறியியல் கலைச்சொல் திரட்டு உருவாக்கிய மு. சிவலிங்கம் ஐயா (http://www.sivalingam.in) குறிப்பிடுவது போல் புறாவைக் காண முடியும். மயிலைக் காண முடியும். கழுகைக் காண முடியும். எங்காவது பறவையைக் காண முடியுமா? பறவை என்பது கருத்தியலில் மட்டுமே முடியும். எங்குமே எவருமே பறவை என்ற ஒன்றைக் காண முடியாது அல்லவா? ஆக, தேவையானவற்றைப் பொருத்திப் பார்க்கும் வகையில் நாம் உருவாக்கும் தரவமைப்பை அருவத்தரவு என்றழைப்பார்கள். அதையும் பட்டியல் (List), வரிசை (Queue) மற்றும் அடுக்கு (Stack) என்று வகைப்படுத்தலாம்.

உயர்தரவு: (Meta Data) தரவைப் பற்றிய தரவு ஒன்று இருக்குமானால் அதுதான் உயர்தரவு என்று அழைக்கப்படுகின்றது. ஆம். தரவின் அமைப்பு, வகை, உறுப்புகள், இடை உறவு (Relationships), முதன்மைத் திறவி (Primary Key), அயல்திறவி (Foreign Key), வரிசையாக்கத் திறவி (Sort Key), சுட்டிகைத் திறவி (Index Key) ஆகியவற்றை உயர்தரவு என்றழைக்கின்றார்கள். ஒரு புகைப்படம் என்பதை தரவு என்றால் அதை எடுத்தவர், என்று எடுக்கப்பட்டது, எந்தப் புகைப்படக்கருவி கொண்டு எடுக்கப்பட்டது ஆகியவை உயர்தரவு ஆகும்.

பண்பு:

                  தரவின் பண்பின் அடிப்படையில் தரவை இரண்டு வகைகளாகப் பிரிக்கலாம்.

                  தரவகைத் தரவு: (Qualitative Data) எண்களால் குறிப்பிடாமல், தோராயமாகவும், குத்துமதிப்பாகவும் குறிப்பிடப்படுவதாகவும், பண்புகளைக் குறிப்பிடுவதாகவும் இருக்கும் தரவு தரவகைத் தரவு எனப்படும். எண்களால் குறிப்பிடாமல் இருப்பதால் இவற்றைக் குழுவகைத் தரவு (Category/Group Data) என்றும் அழைப்பர். எடுத்துக்காட்டாக இலையின் நிறம் பச்சை (எந்த அளவு பச்சை?!)

                  எண்ணளவுத் தரவு: (Quantitative Data) எண்களால் குறிப்பிடக்கூடிய தரவு இவ்வாறு அழைக்கப்படுகின்றது. அவற்றைப் பற்றி ஏற்கனவே மேலே கண்டோம்.

தரவின் பல வகைகளைப் பற்றித் தெரிந்து கொண்டோம். இன்னும் தரவு எடுக்கும் பல்வேறு அவதாரங்களையும் அடுத்ததாகக் காண்போம்.

தரவுச் சுரங்கம் - 1

“சேமமுற வேண்டுமெனில் தெருவெல்லாம்

                தமிழ் முழக்கம் செழிக்கச் செய்வீர்!”

“பிறநாட்டு நல்லறிஞர் சாத்திரங்கள்

                தமிழ் மொழியிற் பெயர்த்தல் வேண்டும்”

எனும் பாரதியின் கனவு மெய்ப்பட வேண்டும்.

                முட்டையிலிருந்து கோழி வந்ததா அல்லது கோழியிலிருந்து முட்டை வந்ததா எனும் கேள்வியை நாம் கேள்விப்பட்டிருப்போம். இதே போன்ற ஒரு கேள்வி எனக்குள்ளும் எழுவதுண்டு! நாம் கற்றதால் பகிர்கின்றோமா அல்லது பகிர்வதால் கற்கின்றோமா? மேற்கண்ட கேள்வியின் பதிலைத் தேடும் போது, உண்மையில் இரண்டுமே நடக்கின்றது என்பதே நான் உணர்ந்தது. எனவே கற்றதைப் பகிரவும், பகிர்ந்து கொண்டு கற்கவும் முயற்சிக்கும் ஒரு தொடராக இதை எழுத முனைகின்றேன். அறிவார்ந்த சமூகத்தின் ஆதரவும், வழிகாட்டுதலும் எப்போதும் போல வழங்க வேண்டுமாய்க் கேட்டுக் கொள்கின்றேன்.

                மனிதன் குகையில் வாழ்ந்த காலத்தே தகவல் தொழில்நுட்பம் பிறந்தாலும், மனிதன் கணினியைக் கண்டுபிடித்ததன் பின்னர் அசுர வளர்ச்சியுற்று இருக்கின்றது என்பதை அனைவரும் அனுபவபூர்வமாக உணர்கின்றோம். இணையம் செயல்பாட்டுக்கு வந்து இணையம் 1.0, 2.0, 3.0, 4.0 என்று புதிய பதிப்புகள் அரங்கேறும் போதெல்லாம் தகவல் தொழில்நுட்பமும் தாவித்தாவிச் சிகரத்தை எட்டியிருக்கின்றது. எனினும் மனிதனின் ஐம்புலன்களில் இரு அவயங்களை மட்டுமே பயன்படுத்த முடிந்துள்ளது! அதிலும் முழுமை பெற்றிருக்கின்றோமா என்றால் இல்லை என்றே பதில் வருகின்றது. இன்னும் தகவல் தொழில்நுட்பம் வளர வேண்டிய எல்லை வானத்தை முட்டி நிற்கின்றது. இருப்பினும் இதற்கே நமக்கு மூச்சு முட்டி நிற்கின்றது.

                அதிலும் கடந்த பத்தாண்டுகளில் இத்துறை பெற்றிருக்கும் வளர்ச்சி பல்வேறு துறைகளையும் உலுப்பி எடுத்து வருகின்றது என்றால் அது மிகையாகாது. “எழுமின்! விழிமின்!” என்பது எதற்குப் பொருந்துமோ இல்லையோ இன்றைய தொழில் முனைவோர் அனைவருக்கும் இது பொருந்தும். இன்று எவரும் கணினித் தொழில்நுட்பம் நமது தொழிலை என்ன செய்து விடப் போகின்றது என்று வாளாயிருந்துவிட முடியாது. எத்தொழில் புரிவோரும் தமது தொழில் முன்னால் E என்னும் ஆங்கில எழுத்தினைச் சேர்த்துக் கொள்வதைக் கண்ணுறுகின்றோம். அந்த அளவிற்கு ஒவ்வொருவரின் தொழிலும் தகவல் தொழில்நுட்பம் கோலோச்சியிருக்கின்றது.

                தரவுச்சுரங்கம் எனும் இத்தொடரின் மூலம் “தரவு” பற்றி அடியேன் கற்றுணர்ந்ததைப் பகிர்ந்து கொள்ள விழைகின்றேன். முதலில் தரவு என்றால் என்ன என்று பார்க்கலாம். தரவு பற்றிப் பார்க்க வேண்டுமாயின் நாம் தரவின் படிநிலைகளை உணர்ந்திருக்க வேண்டும்.

                நடப்பு (Transaction) + பதித்தல் (Recording) -> உண்மை (Fact)

                உண்மை (Fact) + தொகுத்தல் (Collection) -> தரவு (Data)

                தரவு (Data) + பதப்படுத்தல் (Processing) -> தகவல் (Information)

                தகவல் (Information) + ஆய்வு (Analyzing) -> அறிவு (Knowledge)

                அறிவு (Knowledge) + அனுபவம் (Experience) -> ஞானம் (Wisdom)

                செய்தி அல்லது உண்மை எனும் படிநிலையினின்று ஞானம் எனும் படிநிலைக்கு மனிதர்களை மட்டுமின்றி தகவல் தொழில்நுட்பத்தையும் கணினியையும் கொண்டு போய்ச் சேர்க்க வேண்டும் என்பதே இன்றைய தகவல் தொழில்நுட்ப உலகின் தேவையாய் இருக்கின்றது.

                இன்றைய தொழில்முனைவோரின் தலைக்கு மேல் நான்கு கத்திகள் தொங்கிக் கொண்டு இருக்கின்றன. அதை ஆங்கிலத்தில் VUCA என்று அழைக்கின்றார்கள். நிலையின்மை, நிச்சயமின்மை, சிக்கல், குழப்பம் (Volatility, Uncertainty, Complexity, Ambiguity) ஆகியவை தான் அந்த நான்கு கத்திகள், இந்த நான்கு கத்திகளினின்று நம்மைப் பாதுகாத்துக் கொள்ள நாம் மூன்று விதமான உத்திகளையும், கவசங்களையும், ஆயுதங்களையும் கையாள வேண்டியிருக்கின்றது.

                EEE, DDD, AAA என்று ஆங்கிலத்தில் இப்போது குறிப்பின்றார்கள்!

                EEE- உத்தி – சிக்கனம், திறமை, பயன்பாடு (Economy, Efficiency, Effectiveness) – நமது தொழிலைச் சிக்கனமாகவும், திறமையாகவும், மற்றவர்களுக்குப் பயனுள்ளதாகவும் ஆக்கிக் கொள்ள வேண்டியது இன்றைய தொழில் முனைவோருக்கு இன்றியமையாததாகின்றது.

                DDD - கவசம் – தரவு சார்ந்த முடிவெடுத்தல் (Data Driven Decision making)

                AAA - ஆயுதங்கள் – பகுப்பாய்வு, செயற்கை நுண்ணறிவு, தானியக்கம் (Analytics, Artificial Intelligence, Automation) ஆகியவை நாம் அறிந்துணர்ந்து பயன்படுத்தி முன்னேறிச் சென்று வெல்ல ஆயுதங்களாகப் பயன்படுகின்றன.