தரவுச் சுரங்கம் - 25

சேகரி, உருமாற்று, ஏற்று (ETL) கருவிகள்

தரவுச் சுரங்கம் தொடரின் இந்த 25ஆம் அத்தியாயத்தில், தரவுக் கிட்டங்கியின் உயிர்நாடியான 'சேகரி - உருமாற்று - ஏற்று' (Extract, Transform, Load - ETL) செயல்பாடு மற்றும் அதற்கான கருவிகள் குறித்து விரிவாகக் காண்போம்.

தரவுகள் தன்மையிலும் வடிவத்திலும் பலதரப்பட்டவை என்பதை முந்தைய அத்தியாயங்களில் விரிவாகக் கண்டோம். அவ்வாறு பல மூலங்களிலிருந்து வரும் தரவுகளைத் தரவுக் கிட்டங்கியில் ஒருங்கிணைத்து, பகுப்பாய்வுக்கு ஏற்ற வகையில் சீராக அமைப்பதே இதன் முக்கிய நோக்கமாகும். இந்தப் பன்முகப் பணிகளைச் செய்யப் பயன்படும் மென்பொருட்களையே, அவற்றின் செயல்பாடுகளின் அடிப்படையில் 'சேகரி, உருமாற்று, ஏற்று கருவிகள்' (ETL Tools) என்று பொதுவாக அழைக்கிறோம். ETL செயல்முறையின் ஒவ்வொரு படிநிலையையும் இனி வரும் பகுதிகளில் விரிவாக அலசுவோம். அதில் முதலாவதாக, 'சேகரித்தல்' (Extract) படியில் உள்ள சவால்களைக் காண்போம்.

சேகரித்தல் (Extract)

ஒவ்வொரு நிறுவனமும் தத்தமது தேவைகளுக்கேற்ப வெவ்வேறு தொழில்நுட்பங்கள், மென்பொருட்கள், மற்றும் மொழிகளைப் பயன்படுத்தி, பல்வேறு வடிவங்களில் தரவுகளைச் சேமித்து வைக்கின்றன. இவ்வாறாகப் பலதரப்பட்ட மூலங்களிலிருந்து (heterogeneous sources) தரவுகளைப் பிழையின்றிப் பெறுவதுதான் 'சேகரித்தல்' என்பதன் முதல் சவால்.

ஆனால், இன்றைய ETL கருவிகள் எந்த மூலத்தில் தரவுகள் இருந்தாலும், அவற்றை எளிதாகப் பெறும் வகையில் சக்திவாய்ந்தவையாக வடிவமைக்கப்பட்டுள்ளன. பயனர்கள் எளிதில் பயன்படுத்தும் வண்ணம் இவற்றின் இடைமுகங்கள் உள்ளன. தரவுகள் சேகரிக்கப்படும் சில பொதுவான மூலங்களையும், அதற்கான இணைப்பு வகைகளையும் கீழே காணலாம்.

முக்கியத் தரவு மூல வகைகள்: 1. கோப்பு வடிவங்கள் (File Formats): o நிலையான அகல நிரல் கோப்புகள் (Fixed-width Text Files) o பிரிப்பான்களால் வரையறுக்கப்பட்ட கோப்புகள் (Delimited Files - CSV, TSV) o XML (eXtensible Markup Language) கோப்புகள் o JSON (JavaScript Object Notation) கோப்புகள் 2. PDF கோப்புகள் 3. படங்கள் (Image Files) 4. இணையதளங்கள் (Websites - HTML Parsing) 5. உறவுமுறைத் தரவுத்தளங்களுக்கான சிறப்பு இணைப்பிகள் (Native Connectors for RDBMS - Oracle, SQL Server, etc.) 6. திறந்த தரவுத்தள இணைப்பு (Open Database Connectivity – ODBC) 7. மேகக்கணிமைத் தரவுத்தள இணைப்புகள் (Cloud Database Connectors - AWS, Azure, Google Cloud)

மேற்கண்டவை பரவலாகப் பயன்படுத்தப்படும் இணைப்புகள் ஆகும். இவை தவிர, எண்ணற்ற பிற மூலங்களிலிருந்தும் தரவுகளை உள்ளே கொண்டுவர ETL கருவிகள் உதவுகின்றன. பிரபலமான ETL கருவிகள் மற்றும் மொழிகள்: சந்தையில் பல சக்திவாய்ந்த கருவிகளும், நிரலாக்க மொழிகளும் உள்ளன. அவற்றில் சில பிரபலமானவை: 1. மைக்ரோசாஃப்ட் எக்செல் (Power Query) 2. பைத்தான் (குறிப்பாக Pandas, SQLAlchemy நூலகங்கள்) 3. R மொழி 4. Microsoft SQL Server Integration Services (SSIS) 5. Informatica PowerCenter 6. Tableau Prep Builder 7. KNIME 8. Fivetran 9. Airbyte 10. Docparser / Nanonets (ஆவணங்களிலிருந்து தரவைப் பிரிக்க)

இவ்வாறு, பல்வேறு ஓடைகளும் நதிகளும் கடலில் சங்கமிப்பதைப் போல, பலதரப்பட்ட மூலங்களிலிருந்து வரும் தரவுகள் அனைத்தும் ஓரிடத்தில் ஒருங்கிணைக்கப்படுகின்றன. இந்த ஒருங்கிணைந்த அமைப்பானது, வெறும் தரவுக் கிட்டங்கியாக (Data Warehouse) மட்டுமல்லாமல், ஒரு 'தரவு ஏரியாகவும்' (Data Lake) செயல்படுவதால், இக்காலக்கட்டத்தில் இதை 'தரவு ஏரி மாளிகை' (Data Lakehouse) என்ற புதிய பெயரிலும் அழைக்கின்றனர்.

அடுத்த அத்தியாயத்தில், இவ்வாறு சேகரிக்கப்பட்ட தரவுகள் எப்படியெல்லாம் 'உருமாற்றம்' (Transform) செய்யப்படுகின்றன என்பது குறித்து விரிவாகக் காண்போம்.

தரவுச் சுரங்கம் - 24

enter image description here ஒரு நிறுவனத்தின் தரவுச் சுரங்கத்தின் முக்கியமான அங்கங்கள் எவை என்று காண்போம்.

தரவு மூலங்கள் (Data Sources): தரவுக்கிட்டங்கிகளின் முக்கிய நோக்கமும் அவற்றின் செயல்பாடும் தரவை எழுதுவதற்கு அல்ல என்றும் அதன் மூலங்களிலிருந்து நமது தேவைக்குத் தக்கவாறு வடிவமைத்து ஏற்றுவது என்றும் முன்பே கண்டிருக்கின்றோம். அத்தகைய தரவு மூலங்கள் பல வகையினதாக இருக்கலாம். மையத் தரவுத் தள வழங்கி, நாம் அன்றாடம் புழங்கும் மின்விரிதாட்கள், வரிவடிவக் கோப்புகள் மற்றும் நிறுவனத்தின் வெளியிலிருந்து வரும் பல்வேறு மூலங்களாக இருக்கலாம். எனவே தரவுமூலங்கள் ஒரு தரவுக்கிட்டங்கியின் அடிப்படை அங்கமாகவும் முதன்மை அங்கமாகவும் அமைகின்றது. சேகரி, உருமாற்று, ஏற்று கருவிகள் (ETL Tools): அனைத்துத் தரவு மூலங்களிலிருந்தும் பெறப்படும் தரவுகளைச் சரிசெய்து ஒருங்கமையச் செய்யும் கருவிகள் தரவுக்கிட்டங்கியின் அடுத்த அங்கமாகும். இவை எந்த மென்பொருளாகவும் இருக்கலாம், கணினி மொழியாகவும் இருக்கலாம். இவற்றைப் பற்றி அடுத்தடுத்த பகுதிகளில் விரிவாகக் காணலாம்.

மேடைப் பரப்பு (Staging Area): இது மிகப்பெரிய தரவுக் கிட்டங்கிகளில் தற்காலிகத் தரவுச் சேமிப்பு மையமாகச் செயல்படுகின்றது. இது தரவு மூலங்களுக்கும் தரவுக் கிட்டங்கிக்கும் நடுவில் இருக்கும் நினைவகமாகும். தரவு மூலங்களையும் பாதிக்காமல், அதே நேரத்தில் தரவுக் கிட்டங்கியினையும் பாதிக்காமல் உருமாற்றம் நடக்கும் நினைவகம் இது.

மையத் தரவுத் தளம் (Central Database): மேலே குறிப்பிட்ட உருமாற்றம் நிகழ்ந்தவுடன் தரவேற்றம் இந்த மையத் தரவுத் தளத்தில் நிகழ்கின்றது. அதன் பின்னர், காலகாலத்திற்கும் பகுப்பாய்வு செய்வதற்கான தரவாக நிரந்தரமாக இங்கேயே சேமிக்கப்படுவதால் இதன் முக்கியத்துவத்தைச் சொல்லித் தெரியவேண்டியதில்லை. நாம் முன்பே குறிப்பிட்டவாறு தரவுக் கிட்டங்கியில் பெரும்பாலும் நெடுவரிசைத் தரவுத் தளங்களில் தரவு சேமிக்கப்படுகின்றது.

உயர்தரவு (Meta data): இந்த உயர்தரவினைப் பற்றி நாம் முந்தைய பகுதியில் விளக்கியிருக்கின்றோம். தரவைப் பற்றிய தரவு உயர்தரவு எனப்படுகின்றது. தரவுக் கிட்டங்கியில் என்னென்ன தரவு இருக்கின்றது என்பது குறித்த தரவு இதில் இருக்கின்றது. எனவே எந்த ஒரு பகுப்பாய்வுக் கருவியும் தரவைத் தேடுவது இங்கிருந்து தான் ஆரம்பமாகின்றது என்பதால் இதுவும் தரவுக் கிட்டங்கியின் ஒரு முக்கிய அங்கமாகும்.

தரவு அங்காடிகள் (Data Mart): ஒரு மையத் தரவுத் தள அமைப்பிலிருந்து ஒரு நிறுவனத்தின் பல்வேறு துறையினரும் தமக்குத் தேவையான தரவை மட்டும் தேவையான போது எடுத்துக் கொள்ளும் வகையில் வடிவமைப்பவை தரவு அங்காடிகள் ஆகும். இத் தரவு அங்காடிகள் அந்தத் துறையினர் (எடுத்துக்காட்டு: நிதி) மட்டுமே காணும் வகையில் வடிவமைக்கப்படுகின்றன. அணுகல் கருவிகள் (Query, OLAP Tools): தரவுக் கிட்டங்கியில் சேமிக்கப்பட்ட தரவை அணுகுவதற்கான கருவிகள் அடுத்த அங்கம் வகிக்கின்றன. மனிதருக்குள் பல மொழிகள் இருப்பது போல் தரவு அணுகல் மொழிகள் பலவிதம். எடுத்துக்காட்டாக, SQL, DAX, Python Pandas, R போன்ற மொழிகள் மிகவும் பிரசித்தமானவை. இம்மொழியில் எழுதப்பட்ட அணுகல் கருவிகள், அதற்குண்டான மென்பொருட்கள், தரவுக்கிட்டங்கியில் முக்கிய அங்கம் வகிக்கின்றன. தரவுகளைப் பல பரிமாணங்களில் காண உதவும் கருவிகளான நிகழ்நிலை பகுப்பாய்வுக் கருவிகளும் மிக முக்கிய அங்கம் வகிக்கின்றன. தரவில் பொதிந்திருக்கும் பாங்குகளைக் கண்டறியும் தரவுச் சுரங்கக் கருவிகளும் மிக முக்கியமாகக் குறிப்பிடத்தக்கவை.

தரவு ஆளுமை மற்றும் பாதுகாப்பு: ஏற்கனவே நாம் பலமுறை இதைக் கண்டிருக்கின்றோம். ஒரு தரவுக்கிட்டங்கி என்பது ஒரு நிறுவனத்தின் ஒட்டு மொத்தத் தகவல்பரப்பையும் கொண்டிருக்கின்ற ஒரு இடமாதலால், தரவு பாதுகாப்பு முக்கியமான கவசமாக இருக்கின்றது. சரியான நபர் மட்டுமே சரியான தகவலைப் பெறுகின்றார்களா என்பதை வலியுறுத்துதல் அடுத்ததாக மிக முக்கியமானதாகும்.

இவை அனைத்தையும் தரவுக் கிட்டங்கியின் முக்கிய அங்கங்களாகக் கருதுகின்றோம்.