தரவுச் சுரங்கம் - 25

சேகரி, உருமாற்று, ஏற்று (ETL) கருவிகள்

தரவுச் சுரங்கம் தொடரின் இந்த 25ஆம் அத்தியாயத்தில், தரவுக் கிட்டங்கியின் உயிர்நாடியான 'சேகரி - உருமாற்று - ஏற்று' (Extract, Transform, Load - ETL) செயல்பாடு மற்றும் அதற்கான கருவிகள் குறித்து விரிவாகக் காண்போம்.

தரவுகள் தன்மையிலும் வடிவத்திலும் பலதரப்பட்டவை என்பதை முந்தைய அத்தியாயங்களில் விரிவாகக் கண்டோம். அவ்வாறு பல மூலங்களிலிருந்து வரும் தரவுகளைத் தரவுக் கிட்டங்கியில் ஒருங்கிணைத்து, பகுப்பாய்வுக்கு ஏற்ற வகையில் சீராக அமைப்பதே இதன் முக்கிய நோக்கமாகும். இந்தப் பன்முகப் பணிகளைச் செய்யப் பயன்படும் மென்பொருட்களையே, அவற்றின் செயல்பாடுகளின் அடிப்படையில் 'சேகரி, உருமாற்று, ஏற்று கருவிகள்' (ETL Tools) என்று பொதுவாக அழைக்கிறோம். ETL செயல்முறையின் ஒவ்வொரு படிநிலையையும் இனி வரும் பகுதிகளில் விரிவாக அலசுவோம். அதில் முதலாவதாக, 'சேகரித்தல்' (Extract) படியில் உள்ள சவால்களைக் காண்போம்.

சேகரித்தல் (Extract)

ஒவ்வொரு நிறுவனமும் தத்தமது தேவைகளுக்கேற்ப வெவ்வேறு தொழில்நுட்பங்கள், மென்பொருட்கள், மற்றும் மொழிகளைப் பயன்படுத்தி, பல்வேறு வடிவங்களில் தரவுகளைச் சேமித்து வைக்கின்றன. இவ்வாறாகப் பலதரப்பட்ட மூலங்களிலிருந்து (heterogeneous sources) தரவுகளைப் பிழையின்றிப் பெறுவதுதான் 'சேகரித்தல்' என்பதன் முதல் சவால்.

ஆனால், இன்றைய ETL கருவிகள் எந்த மூலத்தில் தரவுகள் இருந்தாலும், அவற்றை எளிதாகப் பெறும் வகையில் சக்திவாய்ந்தவையாக வடிவமைக்கப்பட்டுள்ளன. பயனர்கள் எளிதில் பயன்படுத்தும் வண்ணம் இவற்றின் இடைமுகங்கள் உள்ளன. தரவுகள் சேகரிக்கப்படும் சில பொதுவான மூலங்களையும், அதற்கான இணைப்பு வகைகளையும் கீழே காணலாம்.

முக்கியத் தரவு மூல வகைகள்: 1. கோப்பு வடிவங்கள் (File Formats): o நிலையான அகல நிரல் கோப்புகள் (Fixed-width Text Files) o பிரிப்பான்களால் வரையறுக்கப்பட்ட கோப்புகள் (Delimited Files - CSV, TSV) o XML (eXtensible Markup Language) கோப்புகள் o JSON (JavaScript Object Notation) கோப்புகள் 2. PDF கோப்புகள் 3. படங்கள் (Image Files) 4. இணையதளங்கள் (Websites - HTML Parsing) 5. உறவுமுறைத் தரவுத்தளங்களுக்கான சிறப்பு இணைப்பிகள் (Native Connectors for RDBMS - Oracle, SQL Server, etc.) 6. திறந்த தரவுத்தள இணைப்பு (Open Database Connectivity – ODBC) 7. மேகக்கணிமைத் தரவுத்தள இணைப்புகள் (Cloud Database Connectors - AWS, Azure, Google Cloud)

மேற்கண்டவை பரவலாகப் பயன்படுத்தப்படும் இணைப்புகள் ஆகும். இவை தவிர, எண்ணற்ற பிற மூலங்களிலிருந்தும் தரவுகளை உள்ளே கொண்டுவர ETL கருவிகள் உதவுகின்றன. பிரபலமான ETL கருவிகள் மற்றும் மொழிகள்: சந்தையில் பல சக்திவாய்ந்த கருவிகளும், நிரலாக்க மொழிகளும் உள்ளன. அவற்றில் சில பிரபலமானவை: 1. மைக்ரோசாஃப்ட் எக்செல் (Power Query) 2. பைத்தான் (குறிப்பாக Pandas, SQLAlchemy நூலகங்கள்) 3. R மொழி 4. Microsoft SQL Server Integration Services (SSIS) 5. Informatica PowerCenter 6. Tableau Prep Builder 7. KNIME 8. Fivetran 9. Airbyte 10. Docparser / Nanonets (ஆவணங்களிலிருந்து தரவைப் பிரிக்க)

இவ்வாறு, பல்வேறு ஓடைகளும் நதிகளும் கடலில் சங்கமிப்பதைப் போல, பலதரப்பட்ட மூலங்களிலிருந்து வரும் தரவுகள் அனைத்தும் ஓரிடத்தில் ஒருங்கிணைக்கப்படுகின்றன. இந்த ஒருங்கிணைந்த அமைப்பானது, வெறும் தரவுக் கிட்டங்கியாக (Data Warehouse) மட்டுமல்லாமல், ஒரு 'தரவு ஏரியாகவும்' (Data Lake) செயல்படுவதால், இக்காலக்கட்டத்தில் இதை 'தரவு ஏரி மாளிகை' (Data Lakehouse) என்ற புதிய பெயரிலும் அழைக்கின்றனர்.

அடுத்த அத்தியாயத்தில், இவ்வாறு சேகரிக்கப்பட்ட தரவுகள் எப்படியெல்லாம் 'உருமாற்றம்' (Transform) செய்யப்படுகின்றன என்பது குறித்து விரிவாகக் காண்போம்.

தரவுச் சுரங்கம் - 24

enter image description here ஒரு நிறுவனத்தின் தரவுச் சுரங்கத்தின் முக்கியமான அங்கங்கள் எவை என்று காண்போம்.

தரவு மூலங்கள் (Data Sources): தரவுக்கிட்டங்கிகளின் முக்கிய நோக்கமும் அவற்றின் செயல்பாடும் தரவை எழுதுவதற்கு அல்ல என்றும் அதன் மூலங்களிலிருந்து நமது தேவைக்குத் தக்கவாறு வடிவமைத்து ஏற்றுவது என்றும் முன்பே கண்டிருக்கின்றோம். அத்தகைய தரவு மூலங்கள் பல வகையினதாக இருக்கலாம். மையத் தரவுத் தள வழங்கி, நாம் அன்றாடம் புழங்கும் மின்விரிதாட்கள், வரிவடிவக் கோப்புகள் மற்றும் நிறுவனத்தின் வெளியிலிருந்து வரும் பல்வேறு மூலங்களாக இருக்கலாம். எனவே தரவுமூலங்கள் ஒரு தரவுக்கிட்டங்கியின் அடிப்படை அங்கமாகவும் முதன்மை அங்கமாகவும் அமைகின்றது. சேகரி, உருமாற்று, ஏற்று கருவிகள் (ETL Tools): அனைத்துத் தரவு மூலங்களிலிருந்தும் பெறப்படும் தரவுகளைச் சரிசெய்து ஒருங்கமையச் செய்யும் கருவிகள் தரவுக்கிட்டங்கியின் அடுத்த அங்கமாகும். இவை எந்த மென்பொருளாகவும் இருக்கலாம், கணினி மொழியாகவும் இருக்கலாம். இவற்றைப் பற்றி அடுத்தடுத்த பகுதிகளில் விரிவாகக் காணலாம்.

மேடைப் பரப்பு (Staging Area): இது மிகப்பெரிய தரவுக் கிட்டங்கிகளில் தற்காலிகத் தரவுச் சேமிப்பு மையமாகச் செயல்படுகின்றது. இது தரவு மூலங்களுக்கும் தரவுக் கிட்டங்கிக்கும் நடுவில் இருக்கும் நினைவகமாகும். தரவு மூலங்களையும் பாதிக்காமல், அதே நேரத்தில் தரவுக் கிட்டங்கியினையும் பாதிக்காமல் உருமாற்றம் நடக்கும் நினைவகம் இது.

மையத் தரவுத் தளம் (Central Database): மேலே குறிப்பிட்ட உருமாற்றம் நிகழ்ந்தவுடன் தரவேற்றம் இந்த மையத் தரவுத் தளத்தில் நிகழ்கின்றது. அதன் பின்னர், காலகாலத்திற்கும் பகுப்பாய்வு செய்வதற்கான தரவாக நிரந்தரமாக இங்கேயே சேமிக்கப்படுவதால் இதன் முக்கியத்துவத்தைச் சொல்லித் தெரியவேண்டியதில்லை. நாம் முன்பே குறிப்பிட்டவாறு தரவுக் கிட்டங்கியில் பெரும்பாலும் நெடுவரிசைத் தரவுத் தளங்களில் தரவு சேமிக்கப்படுகின்றது.

உயர்தரவு (Meta data): இந்த உயர்தரவினைப் பற்றி நாம் முந்தைய பகுதியில் விளக்கியிருக்கின்றோம். தரவைப் பற்றிய தரவு உயர்தரவு எனப்படுகின்றது. தரவுக் கிட்டங்கியில் என்னென்ன தரவு இருக்கின்றது என்பது குறித்த தரவு இதில் இருக்கின்றது. எனவே எந்த ஒரு பகுப்பாய்வுக் கருவியும் தரவைத் தேடுவது இங்கிருந்து தான் ஆரம்பமாகின்றது என்பதால் இதுவும் தரவுக் கிட்டங்கியின் ஒரு முக்கிய அங்கமாகும்.

தரவு அங்காடிகள் (Data Mart): ஒரு மையத் தரவுத் தள அமைப்பிலிருந்து ஒரு நிறுவனத்தின் பல்வேறு துறையினரும் தமக்குத் தேவையான தரவை மட்டும் தேவையான போது எடுத்துக் கொள்ளும் வகையில் வடிவமைப்பவை தரவு அங்காடிகள் ஆகும். இத் தரவு அங்காடிகள் அந்தத் துறையினர் (எடுத்துக்காட்டு: நிதி) மட்டுமே காணும் வகையில் வடிவமைக்கப்படுகின்றன. அணுகல் கருவிகள் (Query, OLAP Tools): தரவுக் கிட்டங்கியில் சேமிக்கப்பட்ட தரவை அணுகுவதற்கான கருவிகள் அடுத்த அங்கம் வகிக்கின்றன. மனிதருக்குள் பல மொழிகள் இருப்பது போல் தரவு அணுகல் மொழிகள் பலவிதம். எடுத்துக்காட்டாக, SQL, DAX, Python Pandas, R போன்ற மொழிகள் மிகவும் பிரசித்தமானவை. இம்மொழியில் எழுதப்பட்ட அணுகல் கருவிகள், அதற்குண்டான மென்பொருட்கள், தரவுக்கிட்டங்கியில் முக்கிய அங்கம் வகிக்கின்றன. தரவுகளைப் பல பரிமாணங்களில் காண உதவும் கருவிகளான நிகழ்நிலை பகுப்பாய்வுக் கருவிகளும் மிக முக்கிய அங்கம் வகிக்கின்றன. தரவில் பொதிந்திருக்கும் பாங்குகளைக் கண்டறியும் தரவுச் சுரங்கக் கருவிகளும் மிக முக்கியமாகக் குறிப்பிடத்தக்கவை.

தரவு ஆளுமை மற்றும் பாதுகாப்பு: ஏற்கனவே நாம் பலமுறை இதைக் கண்டிருக்கின்றோம். ஒரு தரவுக்கிட்டங்கி என்பது ஒரு நிறுவனத்தின் ஒட்டு மொத்தத் தகவல்பரப்பையும் கொண்டிருக்கின்ற ஒரு இடமாதலால், தரவு பாதுகாப்பு முக்கியமான கவசமாக இருக்கின்றது. சரியான நபர் மட்டுமே சரியான தகவலைப் பெறுகின்றார்களா என்பதை வலியுறுத்துதல் அடுத்ததாக மிக முக்கியமானதாகும்.

இவை அனைத்தையும் தரவுக் கிட்டங்கியின் முக்கிய அங்கங்களாகக் கருதுகின்றோம்.

கழுகுமலை - மிதிவண்டிப் பயணம்

கழுகுமலை - மிதிவண்டிப் பயணம்

03-04-2022 ஞாயிற்றுக் கிழமை. அதிகாலை 5 மணி. கைபேசியில் எழுப்புமணி அலறத் தொடங்கியது. சோம்பலுடன் அதை அணைத்து விட்டு நிம்மதியாக மீண்டும் படுத்து உறங்குவது அல்லது எழுந்து குளித்து மிதிவண்டியில் கிளம்புவது ஆகிய இரு வாய்ப்புகள் எனக்கு இருந்தன. ஒரு விநாடியின் பாதிக்குப் பாதி நேரத்திற்குள் எடுத்த முடிவின்படி எழுந்து குளித்துக் கிளம்பினேன். மிதிவண்டியை ஓட்ட ஆரம்பிக்கும் போது மணி 5.20. சிவகாசியின் கிழக்கே சாத்தூர் சாலை, வடக்கே விருதுநகர் சாலை, மேற்கே ஸ்ரீவில்லிபுத்தூர் சாலை, தெற்கே கழுகுமலை சாலை ஆகியவற்றுள் தெற்கு நோக்கிச் செல்லும் கழுகுமலைச் சாலை தான் காலை மிதிவண்டி ஓட்டுவதற்குச் சிறந்த சாலை என்பேன். சாலை நேர்த்தியாக இருக்கின்றது. அதிக வளைவுகளோ, ஏற்ற இறக்கங்களோ அற்றது. மக்கள் மற்றும் வாகன நடமாட்டமும் மற்ற சாலைகளைக் காட்டிலும் குறைவாகவே இருக்கும். முன்பு ஏற்கனவே சென்று வந்த சாலை என்பதால் சற்று வேகமாகவே சென்றது மிதிவண்டி. வீட்டில் ஏறி மிதிக்க ஆரம்பித்தது தான். மண்குண்டாம்பட்டி, வெம்பக்கோட்டை, துலுக்கன்குறிச்சி, நடுவப்பட்டி, குருவிகுளம் வழியாகச் சரியாக 37.84 கி.மீ. தூரம் பயணித்து கழுகுமலைக் கோவிலின் முன் வண்டியை நிறுத்தும் போது மணி காலை 7.50. சராசரியாக 15 கி.மீ. வேகத்திலேயே சென்றதாலும் அதிகாலை வெயில் இல்லாததாலும் மிகவும் சுகமான பயணமாகவே இருந்தது.

கதலி கமுகுசூழ் வயற்கு ளேயளி யிசையை முரலமா வறத்தில் மீறிய கழுகு மலைமகா நகர்க்குள் மேவிய ...... பெருமாளே.

கழுகுமலை - கதலி, கமுகு ஆகியன வளர்விக்கும் வயல்வெளியும், வண்டுகளின் ரீங்கார ஒலியும் சிறக்க, சிறந்த அறத்தில் மீறிய கழுகுமலை என்று அருணகிரிநாதர் கழுகுமலைத் திருப்புகழில் குறிப்பிடுகின்றார்.

குன்றுக்கும் மலைக்கும் இடைப்பட்ட உயரத்தில் அடிவாரத்தில் புகழ்பெற்ற முருகன் ஆலயமும், உச்சியில் சமணர்கள் படுகையும், வெட்டுவான் கோவிலும் என வரலாற்றுச் சிறப்பு மிக்க ஒரு தலம். அடிவாரத்தில் வண்டியை நிறுத்தி விட்டு முருகன் ஆலயத்தினுள் நுழைகின்றேன். அங்கே எளிய முறையில் கிராமத்துத் திருமணம் நடைபெற்றுக் கொண்டிருந்தது. அவரவர் வசதிக்கேற்ப கோடிகளிலும், லட்சங்களிலும் நடக்கும் நகரத்துத் திருமணங்கள் கந்தன் முன்னிலையில் நடக்கும் இவ்வெளிய திருமணத்திற்கு ஒப்பாமோ என்று நினைத்துக் கொண்டேன். தம்பதியரை மனதுக்குள் வாழ்த்திவிட்டு, அவர்கள் அனைவரும் சென்றதும் ஏகபோகமாய் நீயும் நானுமாய் என கந்தனும் நானும் மட்டுமே அக்கோவிலில் இருந்தோம். கழுகுமலை அடிவாரத்தில் குடைந்து உருவாக்கப்பட்டிருக்கும் ஆலயம் அனைவரும் தரிசிக்க வேண்டிய ஒரு ஆலயம். அகிலாண்டேஸ்வரி உடனுறை சிவபெருமானும் அருகிலேயே காட்சி அளிக்கின்றனர். சிறிது நேரம் அமர்ந்து பின்னர் வெளியே வந்தால் பெரிய குரங்குப் பட்டாளம் விளையாடிக் கொண்டிருந்தது. அவை அனைத்திற்கும் வாழைப்பழம் கொடுத்துக் கொண்டிருந்தார் ஒரு சகோதரி. குரங்குகளும் வரிசையாகச் சென்று அவரிடம் வாங்கிச் சாப்பிட்டது காண்பதற்கு இனிமையாக இருந்தது.

வெகுநாட்களாக கழுகுமலை மேலிருக்கும் வெட்டுவான் கோவிலுக்குச் செல்ல வேண்டும் என்ற ஆர்வம் காரணமாக காலை வெயில் ஏற ஆரம்பித்திருந்தாலும் அதைப் பொருட்படுத்தாமல் மலையின் மேற்குப்புறமிருந்த பூங்காவில் மிதிவண்டியை நிறுத்தி விட்டு அங்கிருந்து ஏறுவதற்கு அமைக்கப்பட்ட படிகளின் வழியாக ஏற ஆரம்பித்தேன். கலை மற்றும் சிற்ப ஆர்வலர்களுக்கு அள்ள அள்ளத் தெவிட்டாத அளவுக்கு ஆச்சரியங்களை உள்ளடக்கி எளிமையாக இருக்கின்றது வெட்டுவான் கோவிலும், சமணர் படுகையும், அய்யனார் கோவிலும்.

முன்பு ஏதோவொரு காலத்தில் மேலிருந்து கற்பாறைகள் உருண்டு வித்தியாசமான குகைகளை ஏற்படுத்தியிருக்கக் கூடும். கி.பி. எட்டாம் நூற்றாண்டில் சமணர்கள் படுகை உருவாக்கப்பட்டிருப்பதாக வரலாற்றுக் குறிப்புகள் தெரிவிக்கின்றன. மகாநிர்வாணமுற்ற சமண தீர்த்தங்காரர்கள் எட்டு வித சமயச் சின்னங்களுடன் காட்சியளிக்கின்றார்கள். அதிலும் தேவதுந்துபி முழங்க, தேவர்கள் கவரி வீச, மேல், நடு, கீழ் ஆகிய மூன்று உலகங்களையும் தனது ஞானத்தால் வென்றதால் முக்குடைகளையும் கொண்டிருப்பதாக அனைத்துச் சிற்பங்களும் வரிசையாகவும், நேர்த்தியாகவும் வடிவமைக்கப்பட்டுள்ளன. நன்னூல் சூத்திரத்தின் ஆசிரியரான பவணந்தியாரும், இளங்கோவடிகளும் ஞாபகத்துக்கு வந்து தமிழகம் சமண மதத்திலும் சிறந்து விளங்கியிருந்ததை நிரூபிப்பதாக கழுகுமலைச் சிற்பங்கள் உறுதி செய்கின்றன.

அடுத்ததாக வெட்டுவான் கோவில். அடேங்கப்பா! ஒரு பெரிய மலையை மேலிருந்து கீழே வரை சமுக்கமாக வெட்டி அதன் பின் நடுவிலிருக்கும் ஒரே பாறையைக் குடைந்து அதிலே கோவில் சமைப்பதென்றால் மனிதர்களால் ஆகக் கூடிய காரியமா? அதுவும் எந்த ஒரு இயந்திரமும் இல்லாத காலகட்டத்தில் சாத்தியமா என்னும் கேள்விக்கு விடையாக வெட்டுவான் கோவில் நிற்கின்றது. தென்னகத்து எல்லோரா என்று அழைக்கப்படும் வெட்டுவான் கோவில் சிற்பங்கள் நேரில் நிற்பது போன்ற தோற்றத்தினை உருவாக்குகின்றன. முழுமைப் பெறாமல் இருக்கும் போதே இவ்வளவு சிறப்பாக இருக்கின்றது என்றால் முழுமையான கோவிலாக இருந்தால் எப்படி இருக்குமோ தெரியவில்லை!

இதுவரை இவற்றையெல்லாம் முப்பரிமாணப் புகைப்படம் யாரும் எடுத்தார்களா என்று தெரியவில்லை. இதுவரை யாரும் எடுக்கவில்லையாயின், முதன்முதலாக இவற்றை முப்பரிமாணப் படம் எடுத்தது நானாகத் தானிருக்கும் என்பதால் நூற்றுக்கும் மேற்பட்ட படங்கள் எடுத்தேன்.

இவ்விரண்டு வரலாற்றுச் சிறப்பு மிக்க இடங்களைக் கண்டு பின்னர் மேலிருக்கும் அய்யனார் கோவிலிலும் வணங்கிக் கீழே இறங்கும் போது கதிரவன் தலைக்கு மேலே ஏறி 10 மணியாகி விட்டிருந்தது. திரும்பி வரும் போது வெயிலுக்கு இதமாக சோடா எலுமிச்சை, நன்னாரி சர்பத், இளநீர் என்று உடலுக்கும் தொண்டைக்கும் இதமான பானங்களை அருந்தி வீடு வந்து சேரும் போது மணி மதியம் 1!

இதுபோன்ற வரலாற்றுச் சிறப்பு மிக்க சின்னங்கள் மேநாட்டில் இருந்திருந்தால் எப்படி அரசால் பராமரிக்கப்பட்டிருக்கும் என்பதும், அகில உலகமும் அதைப் புகழ்ந்து மாபெரும் சுற்றுலாத் தலமாகவும் இருந்திருக்கும் என்பதும் நினைத்துப் பார்த்தால் சற்று வருத்தமே மேலிடுகின்றது.

படங்களைக் காண

தரவுச் சுரங்கம் - 23

தரவுச் சுரங்கம் – 23

தரவுக்கிட்டங்கி உருவாக்கலில் இருக்கும் வெவ்வேறு படிநிலைகளைக் காணவிருக்கின்றோம். பல இணைய தளங்களில் பல்வேறு பட்டியல்கள் தரப்பட்டிருந்தாலும், அவை அனைத்திலும் பல ஒற்றுமைகளைக் காணவியலும். எனவே முக்கியமான படிநிலைகளை இங்கே நாமும் பட்டியலிடுவோம்.

  1. திட்டமிடல் மற்றும் தேவையறிதல்: நமது நிறுவனத்தில் நாம் உருவாக்க இருக்கும் தரவுக்கிட்டங்கியின் நோக்கம் மிகவும்முக்கியமானதாகும். வியாபாரத்தில் நாம் கண்டறிய விரும்பும் நிதிநிலை அளவுமானிகள், குறிப்பிட்ட துறைகளின் பகுப்பாய்வுத் தேவைகள், வியாபாரத்தில் நாம் அன்றாடம் சந்திக்கும் சவால்கள் மற்றும் அவற்றைத் தீர்ப்பதற்கான தீர்வுகளுக்கான தரவு ஆகியவற்றை முதலில் தீர்க்கமாக முடிவு செய்தல் வேண்டும். வள்ளுவர் குறிப்பிடுவது போல், எண்ணித் துணிக கருமம். இதில் நாம் தவறவிட்டால் மொத்த தரவுக் கிட்டங்கியும் பயனில்லாது போய்விடும்!

  2. தரவு மூல மதிப்பீடு: நம்முடைய தரவுக்கிட்டங்கியின் தரம் அதன் தரவின் தரத்தைப் பொறுத்தது. ஆங்கிலத்தில் GIGO (Garbage In Garbage Out) என்று குறிப்பிடுவார்கள். தமிழில் எள் விதைத்த காட்டில் கொள் முளையாது என்று பழமொழி உள்ளது. தரவு மூலத்தை மதிப்பிடுகையில் நமது நிறுவனத்தில் உள்ளமைந்த அனைத்து தரவு மூலங்களையும் மதிப்பீடு செய்தல் அவசியமாகும். எடுத்துக்காட்டு ERP, CRM, SCM போன்றவை. மேலும் வெளித்தரவு மூலங்கள் குறித்தும் ஆராய்தல் நல்லது. எடுத்துக்காட்டு இணைய தளங்கள், வாடிக்கையாளர்கள், அரசு, வங்கிகள் மற்றும் வழங்குவோர் தரும் தரவுகளையும் கணக்கில் கொள்ளலாம். அதுபோல கட்டமை, பகுதி கட்டமை மற்றும் கட்டமைவில்லாத் தரவு என்றும் வகுத்து ஆராயவேண்டும். தரவின் தரம், அதன் கொள்ளளவு மற்றும் வெவ்வேறு தரவு மூலங்களுக்கிடையேயான தொடர்புகள், ஒன்றையொன்று சார்ந்திருக்கும் தன்மை ஆகியவைகளையும் ஆராயவேண்டும்.

  3. கிட்டங்கி வடிவமைப்பு: ஒரு கட்டிட வரைபடத்தைப் போன்று நுணுக்கமான அனைத்துத் தேவையான தகவல்களையும் ஒன்று சேர வடிவமைப்பது அடுத்த நிலையாகும். கருத்து, முறைமை தரமாதிரிகளை உருவாக்குவதன் மூலம், பல பிரச்னைகளை கிட்டங்கி உருவாக்குவதற்கு முன்பே களைந்து விடலாம். எவ்வாறு தரவு தரவுக்கிட்டங்கியில் நிர்வகிக்கவும் சேமிக்கவும் படப் போகின்றது என்று தரவு மாதிரி வடிவமைப்பு செய்தல் வேண்டும். முன்பே குறிப்பிட்டது போல் பரிமாணங்கள், அளவைகள் ஆகியவற்றைத் தேர்ந்தெடுக்க வேண்டும். நமக்கு நட்சத்திர வடிவமைப்பா, பனித்துகளா அல்லது உடுமண்டல வடிவமைப்பா என்பதை இங்கே முடிவு செய்யலாம். அதே போல் தரவு நமது நிறுவனக் கணினியில் இருக்குமா அல்லது மேகக் கணிமையா என்பதையும் முடிவு செய்யலாம். சரியாக வடிவமைக்கப்பட்ட தரவுமாதிரி தரவு சேமிப்பு, மீட்டெடுப்பு மற்றும் பகுப்பாய்வுத் தேவைகளை மிகக் கச்சிதமாகச் செய்ய வல்லதாக இருக்கும்.

  4. தொழில்நுட்பம் மற்றும் கருவிகள் தேர்வு: தரவுக் கிட்டங்கி திறம்படச் செயல்புரியத் தகுந்த தொழில்நுட்பம் மற்றும் கருவிகளைத் தேர்வு செய்தல் அடுத்த படிநிலையாகும். சந்தையில் பல விதமான கருவிகள் புழக்கத்தில் உள்ளன. அவைபற்றி விரிவாக ஏற்கனவே பட்டியலிட்டிருக்கின்றோம்.

  5. தரவு ஒருங்கமைவு மற்றும் சேகரி, உருமாற்று, ஏற்று: தரவு ஒருங்கமைவு மற்றும் சேகரி, உருமாற்று, ஏற்று (Extract, Transform, Load ETL) எனும் மிகவும் பிரபலமான படிநிலையை வடிவமைத்தல் அடுத்த படிநிலையாகும். இதைப் பற்றி மற்றுமொரு சமயம் விரிவாகக் காணுமளவுக்கு முக்கியாமானதாகும்!

  6. தரவுத் தர உறுதி செய்தல் மற்றும் சரிபார்த்தல்: தரவுத் தரத்தினைப் பராமரித்தல் ஒட்டுமொத்த தரவுக்கிட்டங்கியின் தரத்தினையும் மேம்படுத்தும். இந்தப் படிநிலையில் தரவின் துல்லியம், நிலைத்தன்மை மற்றும் நம்பகத்தன்மை உறுதி செய்யப்படுகின்றது. நமது நிறுவனத்தின் விதிகளுக்குட்பட்டு தரவு இருக்கின்றதா என்பதில் ஆரம்பித்து, அனைத்து தரவு நிபந்தனைகளுக்கும் உட்பட்டு தரவு கிடைக்கின்றதா என்று சரிபார்த்தல் அவசியமாகும்.

  7. தரவுக் கிட்டங்கி உருவாக்கம் மற்றும் சோதனை: இந்தப் படிநிலையில் தான் நாம் மேலே திட்டமிட்ட அனைத்தையும் ஒவ்வொன்றாக நிறைவேற்றப் படுகின்றது. பலவிதமான மிகவும் கடினமான சோதனைகளுக்கு தரவுக்கிட்டங்கியினை உட்படுத்துவதன் மூலம் எவ்வித தரவு கொள்ளளவையும் தாங்கி தேவைக்குத் தகுந்த வாறு செயல்படுகின்றதா என்று கண்டறிய வேண்டும். ஏனெனில் தரவுக் கிட்டங்கி ஏதோ ஓராண்டுத் தகவலை மட்டும் வைத்து செயல்படுவதில்லை, ஒட்டுமொத்த நிறுவனத்தகவல்களையும் ஆதி முதல் அந்தம் வரை கொண்டு செயல்படப் போகின்றது!

  8. செயல்படுத்தல் மற்றும் பயனர் பயிற்சி: மேலே உருவாக்கிய கிட்டங்கியைச் செயல்படுத்தத் துவங்குவதும் அதைப் பயன்படுத்தப் போகும் பயனர்களுக்குத் தேவையான பயிற்சியை அளிப்பதும் இங்கு நடக்கும். ஏனெனில் பயனர்கள் தகுந்த தொழில்நுட்பம் அறியாதவர்களாக இருக்கக் கூடும். தரவுக் கிட்டங்கியின் வெற்றி அதைப் பயன்படுத்துபவர்களின் கையில் தான் உள்ளது.

  9. தரவு ஒருங்கமைவு மற்றும் சேகரி, உருமாற்று, ஏற்று: தரவுக் கிட்டங்கியை வடிவமைத்து அதைச் செயல்படுத்திய பின்பு அதை முறையே பராமரிக்கவும், கண்காணிக்கவும், சிறந்த முறைகளைக் கண்டறிந்து அதை நிறைவாக்குவதும் முக்கியமாகும். மேலே கண்ட படிநிலைகள் யாவும் ஒரே ஒருமுறை செய்யப்படுவதல்ல. சுழற்சி முறையில் தேவைக்குத் தகுந்தவாறு அவ்வப்போது செய்ய வேண்டியது ஆகும் என்பதைச் சொல்லித் தெரியவேண்டியதில்லை! இனி அடுத்த பாகத்தில் தரவுக் கிட்டங்கியின் பல்வேறு அங்கங்களைக் குறித்துக் காணலாம்.