சேகரி, உருமாற்று, ஏற்று (ETL) கருவிகள்
தரவுச் சுரங்கம் தொடரின் இந்த 25ஆம் அத்தியாயத்தில், தரவுக் கிட்டங்கியின் உயிர்நாடியான 'சேகரி - உருமாற்று - ஏற்று' (Extract, Transform, Load - ETL) செயல்பாடு மற்றும் அதற்கான கருவிகள் குறித்து விரிவாகக் காண்போம்.
தரவுகள் தன்மையிலும் வடிவத்திலும் பலதரப்பட்டவை என்பதை முந்தைய அத்தியாயங்களில் விரிவாகக் கண்டோம். அவ்வாறு பல மூலங்களிலிருந்து வரும் தரவுகளைத் தரவுக் கிட்டங்கியில் ஒருங்கிணைத்து, பகுப்பாய்வுக்கு ஏற்ற வகையில் சீராக அமைப்பதே இதன் முக்கிய நோக்கமாகும். இந்தப் பன்முகப் பணிகளைச் செய்யப் பயன்படும் மென்பொருட்களையே, அவற்றின் செயல்பாடுகளின் அடிப்படையில் 'சேகரி, உருமாற்று, ஏற்று கருவிகள்' (ETL Tools) என்று பொதுவாக அழைக்கிறோம். ETL செயல்முறையின் ஒவ்வொரு படிநிலையையும் இனி வரும் பகுதிகளில் விரிவாக அலசுவோம். அதில் முதலாவதாக, 'சேகரித்தல்' (Extract) படியில் உள்ள சவால்களைக் காண்போம்.
சேகரித்தல் (Extract)
ஒவ்வொரு நிறுவனமும் தத்தமது தேவைகளுக்கேற்ப வெவ்வேறு தொழில்நுட்பங்கள், மென்பொருட்கள், மற்றும் மொழிகளைப் பயன்படுத்தி, பல்வேறு வடிவங்களில் தரவுகளைச் சேமித்து வைக்கின்றன. இவ்வாறாகப் பலதரப்பட்ட மூலங்களிலிருந்து (heterogeneous sources) தரவுகளைப் பிழையின்றிப் பெறுவதுதான் 'சேகரித்தல்' என்பதன் முதல் சவால்.
ஆனால், இன்றைய ETL கருவிகள் எந்த மூலத்தில் தரவுகள் இருந்தாலும், அவற்றை எளிதாகப் பெறும் வகையில் சக்திவாய்ந்தவையாக வடிவமைக்கப்பட்டுள்ளன. பயனர்கள் எளிதில் பயன்படுத்தும் வண்ணம் இவற்றின் இடைமுகங்கள் உள்ளன. தரவுகள் சேகரிக்கப்படும் சில பொதுவான மூலங்களையும், அதற்கான இணைப்பு வகைகளையும் கீழே காணலாம்.
முக்கியத் தரவு மூல வகைகள்: 1. கோப்பு வடிவங்கள் (File Formats): o நிலையான அகல நிரல் கோப்புகள் (Fixed-width Text Files) o பிரிப்பான்களால் வரையறுக்கப்பட்ட கோப்புகள் (Delimited Files - CSV, TSV) o XML (eXtensible Markup Language) கோப்புகள் o JSON (JavaScript Object Notation) கோப்புகள் 2. PDF கோப்புகள் 3. படங்கள் (Image Files) 4. இணையதளங்கள் (Websites - HTML Parsing) 5. உறவுமுறைத் தரவுத்தளங்களுக்கான சிறப்பு இணைப்பிகள் (Native Connectors for RDBMS - Oracle, SQL Server, etc.) 6. திறந்த தரவுத்தள இணைப்பு (Open Database Connectivity – ODBC) 7. மேகக்கணிமைத் தரவுத்தள இணைப்புகள் (Cloud Database Connectors - AWS, Azure, Google Cloud)
மேற்கண்டவை பரவலாகப் பயன்படுத்தப்படும் இணைப்புகள் ஆகும். இவை தவிர, எண்ணற்ற பிற மூலங்களிலிருந்தும் தரவுகளை உள்ளே கொண்டுவர ETL கருவிகள் உதவுகின்றன. பிரபலமான ETL கருவிகள் மற்றும் மொழிகள்: சந்தையில் பல சக்திவாய்ந்த கருவிகளும், நிரலாக்க மொழிகளும் உள்ளன. அவற்றில் சில பிரபலமானவை: 1. மைக்ரோசாஃப்ட் எக்செல் (Power Query) 2. பைத்தான் (குறிப்பாக Pandas, SQLAlchemy நூலகங்கள்) 3. R மொழி 4. Microsoft SQL Server Integration Services (SSIS) 5. Informatica PowerCenter 6. Tableau Prep Builder 7. KNIME 8. Fivetran 9. Airbyte 10. Docparser / Nanonets (ஆவணங்களிலிருந்து தரவைப் பிரிக்க)
இவ்வாறு, பல்வேறு ஓடைகளும் நதிகளும் கடலில் சங்கமிப்பதைப் போல, பலதரப்பட்ட மூலங்களிலிருந்து வரும் தரவுகள் அனைத்தும் ஓரிடத்தில் ஒருங்கிணைக்கப்படுகின்றன. இந்த ஒருங்கிணைந்த அமைப்பானது, வெறும் தரவுக் கிட்டங்கியாக (Data Warehouse) மட்டுமல்லாமல், ஒரு 'தரவு ஏரியாகவும்' (Data Lake) செயல்படுவதால், இக்காலக்கட்டத்தில் இதை 'தரவு ஏரி மாளிகை' (Data Lakehouse) என்ற புதிய பெயரிலும் அழைக்கின்றனர்.
அடுத்த அத்தியாயத்தில், இவ்வாறு சேகரிக்கப்பட்ட தரவுகள் எப்படியெல்லாம் 'உருமாற்றம்' (Transform) செய்யப்படுகின்றன என்பது குறித்து விரிவாகக் காண்போம்.