தரவுச் சுரங்கம் - 25

சேகரி, உருமாற்று, ஏற்று (ETL) கருவிகள்

தரவுச் சுரங்கம் தொடரின் இந்த 25ஆம் அத்தியாயத்தில், தரவுக் கிட்டங்கியின் உயிர்நாடியான 'சேகரி - உருமாற்று - ஏற்று' (Extract, Transform, Load - ETL) செயல்பாடு மற்றும் அதற்கான கருவிகள் குறித்து விரிவாகக் காண்போம்.

தரவுகள் தன்மையிலும் வடிவத்திலும் பலதரப்பட்டவை என்பதை முந்தைய அத்தியாயங்களில் விரிவாகக் கண்டோம். அவ்வாறு பல மூலங்களிலிருந்து வரும் தரவுகளைத் தரவுக் கிட்டங்கியில் ஒருங்கிணைத்து, பகுப்பாய்வுக்கு ஏற்ற வகையில் சீராக அமைப்பதே இதன் முக்கிய நோக்கமாகும். இந்தப் பன்முகப் பணிகளைச் செய்யப் பயன்படும் மென்பொருட்களையே, அவற்றின் செயல்பாடுகளின் அடிப்படையில் 'சேகரி, உருமாற்று, ஏற்று கருவிகள்' (ETL Tools) என்று பொதுவாக அழைக்கிறோம். ETL செயல்முறையின் ஒவ்வொரு படிநிலையையும் இனி வரும் பகுதிகளில் விரிவாக அலசுவோம். அதில் முதலாவதாக, 'சேகரித்தல்' (Extract) படியில் உள்ள சவால்களைக் காண்போம்.

சேகரித்தல் (Extract)

ஒவ்வொரு நிறுவனமும் தத்தமது தேவைகளுக்கேற்ப வெவ்வேறு தொழில்நுட்பங்கள், மென்பொருட்கள், மற்றும் மொழிகளைப் பயன்படுத்தி, பல்வேறு வடிவங்களில் தரவுகளைச் சேமித்து வைக்கின்றன. இவ்வாறாகப் பலதரப்பட்ட மூலங்களிலிருந்து (heterogeneous sources) தரவுகளைப் பிழையின்றிப் பெறுவதுதான் 'சேகரித்தல்' என்பதன் முதல் சவால்.

ஆனால், இன்றைய ETL கருவிகள் எந்த மூலத்தில் தரவுகள் இருந்தாலும், அவற்றை எளிதாகப் பெறும் வகையில் சக்திவாய்ந்தவையாக வடிவமைக்கப்பட்டுள்ளன. பயனர்கள் எளிதில் பயன்படுத்தும் வண்ணம் இவற்றின் இடைமுகங்கள் உள்ளன. தரவுகள் சேகரிக்கப்படும் சில பொதுவான மூலங்களையும், அதற்கான இணைப்பு வகைகளையும் கீழே காணலாம்.

முக்கியத் தரவு மூல வகைகள்: 1. கோப்பு வடிவங்கள் (File Formats): o நிலையான அகல நிரல் கோப்புகள் (Fixed-width Text Files) o பிரிப்பான்களால் வரையறுக்கப்பட்ட கோப்புகள் (Delimited Files - CSV, TSV) o XML (eXtensible Markup Language) கோப்புகள் o JSON (JavaScript Object Notation) கோப்புகள் 2. PDF கோப்புகள் 3. படங்கள் (Image Files) 4. இணையதளங்கள் (Websites - HTML Parsing) 5. உறவுமுறைத் தரவுத்தளங்களுக்கான சிறப்பு இணைப்பிகள் (Native Connectors for RDBMS - Oracle, SQL Server, etc.) 6. திறந்த தரவுத்தள இணைப்பு (Open Database Connectivity – ODBC) 7. மேகக்கணிமைத் தரவுத்தள இணைப்புகள் (Cloud Database Connectors - AWS, Azure, Google Cloud)

மேற்கண்டவை பரவலாகப் பயன்படுத்தப்படும் இணைப்புகள் ஆகும். இவை தவிர, எண்ணற்ற பிற மூலங்களிலிருந்தும் தரவுகளை உள்ளே கொண்டுவர ETL கருவிகள் உதவுகின்றன. பிரபலமான ETL கருவிகள் மற்றும் மொழிகள்: சந்தையில் பல சக்திவாய்ந்த கருவிகளும், நிரலாக்க மொழிகளும் உள்ளன. அவற்றில் சில பிரபலமானவை: 1. மைக்ரோசாஃப்ட் எக்செல் (Power Query) 2. பைத்தான் (குறிப்பாக Pandas, SQLAlchemy நூலகங்கள்) 3. R மொழி 4. Microsoft SQL Server Integration Services (SSIS) 5. Informatica PowerCenter 6. Tableau Prep Builder 7. KNIME 8. Fivetran 9. Airbyte 10. Docparser / Nanonets (ஆவணங்களிலிருந்து தரவைப் பிரிக்க)

இவ்வாறு, பல்வேறு ஓடைகளும் நதிகளும் கடலில் சங்கமிப்பதைப் போல, பலதரப்பட்ட மூலங்களிலிருந்து வரும் தரவுகள் அனைத்தும் ஓரிடத்தில் ஒருங்கிணைக்கப்படுகின்றன. இந்த ஒருங்கிணைந்த அமைப்பானது, வெறும் தரவுக் கிட்டங்கியாக (Data Warehouse) மட்டுமல்லாமல், ஒரு 'தரவு ஏரியாகவும்' (Data Lake) செயல்படுவதால், இக்காலக்கட்டத்தில் இதை 'தரவு ஏரி மாளிகை' (Data Lakehouse) என்ற புதிய பெயரிலும் அழைக்கின்றனர்.

அடுத்த அத்தியாயத்தில், இவ்வாறு சேகரிக்கப்பட்ட தரவுகள் எப்படியெல்லாம் 'உருமாற்றம்' (Transform) செய்யப்படுகின்றன என்பது குறித்து விரிவாகக் காண்போம்.

தரவுச் சுரங்கம் - 24

enter image description here ஒரு நிறுவனத்தின் தரவுச் சுரங்கத்தின் முக்கியமான அங்கங்கள் எவை என்று காண்போம்.

தரவு மூலங்கள் (Data Sources): தரவுக்கிட்டங்கிகளின் முக்கிய நோக்கமும் அவற்றின் செயல்பாடும் தரவை எழுதுவதற்கு அல்ல என்றும் அதன் மூலங்களிலிருந்து நமது தேவைக்குத் தக்கவாறு வடிவமைத்து ஏற்றுவது என்றும் முன்பே கண்டிருக்கின்றோம். அத்தகைய தரவு மூலங்கள் பல வகையினதாக இருக்கலாம். மையத் தரவுத் தள வழங்கி, நாம் அன்றாடம் புழங்கும் மின்விரிதாட்கள், வரிவடிவக் கோப்புகள் மற்றும் நிறுவனத்தின் வெளியிலிருந்து வரும் பல்வேறு மூலங்களாக இருக்கலாம். எனவே தரவுமூலங்கள் ஒரு தரவுக்கிட்டங்கியின் அடிப்படை அங்கமாகவும் முதன்மை அங்கமாகவும் அமைகின்றது. சேகரி, உருமாற்று, ஏற்று கருவிகள் (ETL Tools): அனைத்துத் தரவு மூலங்களிலிருந்தும் பெறப்படும் தரவுகளைச் சரிசெய்து ஒருங்கமையச் செய்யும் கருவிகள் தரவுக்கிட்டங்கியின் அடுத்த அங்கமாகும். இவை எந்த மென்பொருளாகவும் இருக்கலாம், கணினி மொழியாகவும் இருக்கலாம். இவற்றைப் பற்றி அடுத்தடுத்த பகுதிகளில் விரிவாகக் காணலாம்.

மேடைப் பரப்பு (Staging Area): இது மிகப்பெரிய தரவுக் கிட்டங்கிகளில் தற்காலிகத் தரவுச் சேமிப்பு மையமாகச் செயல்படுகின்றது. இது தரவு மூலங்களுக்கும் தரவுக் கிட்டங்கிக்கும் நடுவில் இருக்கும் நினைவகமாகும். தரவு மூலங்களையும் பாதிக்காமல், அதே நேரத்தில் தரவுக் கிட்டங்கியினையும் பாதிக்காமல் உருமாற்றம் நடக்கும் நினைவகம் இது.

மையத் தரவுத் தளம் (Central Database): மேலே குறிப்பிட்ட உருமாற்றம் நிகழ்ந்தவுடன் தரவேற்றம் இந்த மையத் தரவுத் தளத்தில் நிகழ்கின்றது. அதன் பின்னர், காலகாலத்திற்கும் பகுப்பாய்வு செய்வதற்கான தரவாக நிரந்தரமாக இங்கேயே சேமிக்கப்படுவதால் இதன் முக்கியத்துவத்தைச் சொல்லித் தெரியவேண்டியதில்லை. நாம் முன்பே குறிப்பிட்டவாறு தரவுக் கிட்டங்கியில் பெரும்பாலும் நெடுவரிசைத் தரவுத் தளங்களில் தரவு சேமிக்கப்படுகின்றது.

உயர்தரவு (Meta data): இந்த உயர்தரவினைப் பற்றி நாம் முந்தைய பகுதியில் விளக்கியிருக்கின்றோம். தரவைப் பற்றிய தரவு உயர்தரவு எனப்படுகின்றது. தரவுக் கிட்டங்கியில் என்னென்ன தரவு இருக்கின்றது என்பது குறித்த தரவு இதில் இருக்கின்றது. எனவே எந்த ஒரு பகுப்பாய்வுக் கருவியும் தரவைத் தேடுவது இங்கிருந்து தான் ஆரம்பமாகின்றது என்பதால் இதுவும் தரவுக் கிட்டங்கியின் ஒரு முக்கிய அங்கமாகும்.

தரவு அங்காடிகள் (Data Mart): ஒரு மையத் தரவுத் தள அமைப்பிலிருந்து ஒரு நிறுவனத்தின் பல்வேறு துறையினரும் தமக்குத் தேவையான தரவை மட்டும் தேவையான போது எடுத்துக் கொள்ளும் வகையில் வடிவமைப்பவை தரவு அங்காடிகள் ஆகும். இத் தரவு அங்காடிகள் அந்தத் துறையினர் (எடுத்துக்காட்டு: நிதி) மட்டுமே காணும் வகையில் வடிவமைக்கப்படுகின்றன. அணுகல் கருவிகள் (Query, OLAP Tools): தரவுக் கிட்டங்கியில் சேமிக்கப்பட்ட தரவை அணுகுவதற்கான கருவிகள் அடுத்த அங்கம் வகிக்கின்றன. மனிதருக்குள் பல மொழிகள் இருப்பது போல் தரவு அணுகல் மொழிகள் பலவிதம். எடுத்துக்காட்டாக, SQL, DAX, Python Pandas, R போன்ற மொழிகள் மிகவும் பிரசித்தமானவை. இம்மொழியில் எழுதப்பட்ட அணுகல் கருவிகள், அதற்குண்டான மென்பொருட்கள், தரவுக்கிட்டங்கியில் முக்கிய அங்கம் வகிக்கின்றன. தரவுகளைப் பல பரிமாணங்களில் காண உதவும் கருவிகளான நிகழ்நிலை பகுப்பாய்வுக் கருவிகளும் மிக முக்கிய அங்கம் வகிக்கின்றன. தரவில் பொதிந்திருக்கும் பாங்குகளைக் கண்டறியும் தரவுச் சுரங்கக் கருவிகளும் மிக முக்கியமாகக் குறிப்பிடத்தக்கவை.

தரவு ஆளுமை மற்றும் பாதுகாப்பு: ஏற்கனவே நாம் பலமுறை இதைக் கண்டிருக்கின்றோம். ஒரு தரவுக்கிட்டங்கி என்பது ஒரு நிறுவனத்தின் ஒட்டு மொத்தத் தகவல்பரப்பையும் கொண்டிருக்கின்ற ஒரு இடமாதலால், தரவு பாதுகாப்பு முக்கியமான கவசமாக இருக்கின்றது. சரியான நபர் மட்டுமே சரியான தகவலைப் பெறுகின்றார்களா என்பதை வலியுறுத்துதல் அடுத்ததாக மிக முக்கியமானதாகும்.

இவை அனைத்தையும் தரவுக் கிட்டங்கியின் முக்கிய அங்கங்களாகக் கருதுகின்றோம்.

தரவுச் சுரங்கம் - 23

தரவுச் சுரங்கம் – 23

தரவுக்கிட்டங்கி உருவாக்கலில் இருக்கும் வெவ்வேறு படிநிலைகளைக் காணவிருக்கின்றோம். பல இணைய தளங்களில் பல்வேறு பட்டியல்கள் தரப்பட்டிருந்தாலும், அவை அனைத்திலும் பல ஒற்றுமைகளைக் காணவியலும். எனவே முக்கியமான படிநிலைகளை இங்கே நாமும் பட்டியலிடுவோம்.

  1. திட்டமிடல் மற்றும் தேவையறிதல்: நமது நிறுவனத்தில் நாம் உருவாக்க இருக்கும் தரவுக்கிட்டங்கியின் நோக்கம் மிகவும்முக்கியமானதாகும். வியாபாரத்தில் நாம் கண்டறிய விரும்பும் நிதிநிலை அளவுமானிகள், குறிப்பிட்ட துறைகளின் பகுப்பாய்வுத் தேவைகள், வியாபாரத்தில் நாம் அன்றாடம் சந்திக்கும் சவால்கள் மற்றும் அவற்றைத் தீர்ப்பதற்கான தீர்வுகளுக்கான தரவு ஆகியவற்றை முதலில் தீர்க்கமாக முடிவு செய்தல் வேண்டும். வள்ளுவர் குறிப்பிடுவது போல், எண்ணித் துணிக கருமம். இதில் நாம் தவறவிட்டால் மொத்த தரவுக் கிட்டங்கியும் பயனில்லாது போய்விடும்!

  2. தரவு மூல மதிப்பீடு: நம்முடைய தரவுக்கிட்டங்கியின் தரம் அதன் தரவின் தரத்தைப் பொறுத்தது. ஆங்கிலத்தில் GIGO (Garbage In Garbage Out) என்று குறிப்பிடுவார்கள். தமிழில் எள் விதைத்த காட்டில் கொள் முளையாது என்று பழமொழி உள்ளது. தரவு மூலத்தை மதிப்பிடுகையில் நமது நிறுவனத்தில் உள்ளமைந்த அனைத்து தரவு மூலங்களையும் மதிப்பீடு செய்தல் அவசியமாகும். எடுத்துக்காட்டு ERP, CRM, SCM போன்றவை. மேலும் வெளித்தரவு மூலங்கள் குறித்தும் ஆராய்தல் நல்லது. எடுத்துக்காட்டு இணைய தளங்கள், வாடிக்கையாளர்கள், அரசு, வங்கிகள் மற்றும் வழங்குவோர் தரும் தரவுகளையும் கணக்கில் கொள்ளலாம். அதுபோல கட்டமை, பகுதி கட்டமை மற்றும் கட்டமைவில்லாத் தரவு என்றும் வகுத்து ஆராயவேண்டும். தரவின் தரம், அதன் கொள்ளளவு மற்றும் வெவ்வேறு தரவு மூலங்களுக்கிடையேயான தொடர்புகள், ஒன்றையொன்று சார்ந்திருக்கும் தன்மை ஆகியவைகளையும் ஆராயவேண்டும்.

  3. கிட்டங்கி வடிவமைப்பு: ஒரு கட்டிட வரைபடத்தைப் போன்று நுணுக்கமான அனைத்துத் தேவையான தகவல்களையும் ஒன்று சேர வடிவமைப்பது அடுத்த நிலையாகும். கருத்து, முறைமை தரமாதிரிகளை உருவாக்குவதன் மூலம், பல பிரச்னைகளை கிட்டங்கி உருவாக்குவதற்கு முன்பே களைந்து விடலாம். எவ்வாறு தரவு தரவுக்கிட்டங்கியில் நிர்வகிக்கவும் சேமிக்கவும் படப் போகின்றது என்று தரவு மாதிரி வடிவமைப்பு செய்தல் வேண்டும். முன்பே குறிப்பிட்டது போல் பரிமாணங்கள், அளவைகள் ஆகியவற்றைத் தேர்ந்தெடுக்க வேண்டும். நமக்கு நட்சத்திர வடிவமைப்பா, பனித்துகளா அல்லது உடுமண்டல வடிவமைப்பா என்பதை இங்கே முடிவு செய்யலாம். அதே போல் தரவு நமது நிறுவனக் கணினியில் இருக்குமா அல்லது மேகக் கணிமையா என்பதையும் முடிவு செய்யலாம். சரியாக வடிவமைக்கப்பட்ட தரவுமாதிரி தரவு சேமிப்பு, மீட்டெடுப்பு மற்றும் பகுப்பாய்வுத் தேவைகளை மிகக் கச்சிதமாகச் செய்ய வல்லதாக இருக்கும்.

  4. தொழில்நுட்பம் மற்றும் கருவிகள் தேர்வு: தரவுக் கிட்டங்கி திறம்படச் செயல்புரியத் தகுந்த தொழில்நுட்பம் மற்றும் கருவிகளைத் தேர்வு செய்தல் அடுத்த படிநிலையாகும். சந்தையில் பல விதமான கருவிகள் புழக்கத்தில் உள்ளன. அவைபற்றி விரிவாக ஏற்கனவே பட்டியலிட்டிருக்கின்றோம்.

  5. தரவு ஒருங்கமைவு மற்றும் சேகரி, உருமாற்று, ஏற்று: தரவு ஒருங்கமைவு மற்றும் சேகரி, உருமாற்று, ஏற்று (Extract, Transform, Load ETL) எனும் மிகவும் பிரபலமான படிநிலையை வடிவமைத்தல் அடுத்த படிநிலையாகும். இதைப் பற்றி மற்றுமொரு சமயம் விரிவாகக் காணுமளவுக்கு முக்கியாமானதாகும்!

  6. தரவுத் தர உறுதி செய்தல் மற்றும் சரிபார்த்தல்: தரவுத் தரத்தினைப் பராமரித்தல் ஒட்டுமொத்த தரவுக்கிட்டங்கியின் தரத்தினையும் மேம்படுத்தும். இந்தப் படிநிலையில் தரவின் துல்லியம், நிலைத்தன்மை மற்றும் நம்பகத்தன்மை உறுதி செய்யப்படுகின்றது. நமது நிறுவனத்தின் விதிகளுக்குட்பட்டு தரவு இருக்கின்றதா என்பதில் ஆரம்பித்து, அனைத்து தரவு நிபந்தனைகளுக்கும் உட்பட்டு தரவு கிடைக்கின்றதா என்று சரிபார்த்தல் அவசியமாகும்.

  7. தரவுக் கிட்டங்கி உருவாக்கம் மற்றும் சோதனை: இந்தப் படிநிலையில் தான் நாம் மேலே திட்டமிட்ட அனைத்தையும் ஒவ்வொன்றாக நிறைவேற்றப் படுகின்றது. பலவிதமான மிகவும் கடினமான சோதனைகளுக்கு தரவுக்கிட்டங்கியினை உட்படுத்துவதன் மூலம் எவ்வித தரவு கொள்ளளவையும் தாங்கி தேவைக்குத் தகுந்த வாறு செயல்படுகின்றதா என்று கண்டறிய வேண்டும். ஏனெனில் தரவுக் கிட்டங்கி ஏதோ ஓராண்டுத் தகவலை மட்டும் வைத்து செயல்படுவதில்லை, ஒட்டுமொத்த நிறுவனத்தகவல்களையும் ஆதி முதல் அந்தம் வரை கொண்டு செயல்படப் போகின்றது!

  8. செயல்படுத்தல் மற்றும் பயனர் பயிற்சி: மேலே உருவாக்கிய கிட்டங்கியைச் செயல்படுத்தத் துவங்குவதும் அதைப் பயன்படுத்தப் போகும் பயனர்களுக்குத் தேவையான பயிற்சியை அளிப்பதும் இங்கு நடக்கும். ஏனெனில் பயனர்கள் தகுந்த தொழில்நுட்பம் அறியாதவர்களாக இருக்கக் கூடும். தரவுக் கிட்டங்கியின் வெற்றி அதைப் பயன்படுத்துபவர்களின் கையில் தான் உள்ளது.

  9. தரவு ஒருங்கமைவு மற்றும் சேகரி, உருமாற்று, ஏற்று: தரவுக் கிட்டங்கியை வடிவமைத்து அதைச் செயல்படுத்திய பின்பு அதை முறையே பராமரிக்கவும், கண்காணிக்கவும், சிறந்த முறைகளைக் கண்டறிந்து அதை நிறைவாக்குவதும் முக்கியமாகும். மேலே கண்ட படிநிலைகள் யாவும் ஒரே ஒருமுறை செய்யப்படுவதல்ல. சுழற்சி முறையில் தேவைக்குத் தகுந்தவாறு அவ்வப்போது செய்ய வேண்டியது ஆகும் என்பதைச் சொல்லித் தெரியவேண்டியதில்லை! இனி அடுத்த பாகத்தில் தரவுக் கிட்டங்கியின் பல்வேறு அங்கங்களைக் குறித்துக் காணலாம்.

தரவுச் சுரங்கம் - 22

தரவுச் சுரங்கத்தின் ஒரு முக்கியமான அங்கமான தரவுக் கிட்டங்கியைப் பற்றிச் சற்று விளக்கமாகக் காண்கின்றோம். முந்தைய பகுதிகளில் தரவுக் கிட்டங்கியின் நன்மை தீமைகளைப் பட்டியலிட்டோம். ஒரு நிறுவனத்தின் அனைத்து வரலாற்றுத் தரவுகளின் ஒட்டு மொத்த மூலமாக விளங்கி அதைப் பயன்படுத்தும் அனைவருக்கும் வழங்கத் தயாராக இருக்க வேண்டும் அல்லவா? எனவே அதை உருவாக்கும் முறைகள் பற்றி இந்தப் பகுதியில் காணலாம்.

தரவுக் கிட்டங்கிகளை இரண்டு முறைகளில் உருவாக்கலாம். பில் இன்மானின் (Bill Inmon) மேலிருந்து கீழ் அணுகுமுறை மற்றும் ரால்ஃப் கிம்பாலின் (Ralph Kimball) கீழிருந்து மேல் அணுகுமுறை ஆகிய இரண்டு முறைகளையும் ஒவ்வொன்றாகக் காண்போம்.

பில் இன்மானின் (Bill Inmon) மேலிருந்து கீழ் அணுகுமுறை:

Data Warehouse Designஇந்த அணுகுமுறையின் படி, தரவுகளின் மூல வழங்கியிலிருந்து தரவுக் கிட்டங்கியின் வடிவமைப்பு ஆரம்பமாகின்றது. பல்வேறு தரவு மூலங்களிலிருந்தும் பிரித்தெடுத்தல், உருமாற்றம், ஏற்றுதல் ஆகிய மூன்று படிநிலைகளுக்கு உட்படுத்தப்பட்டு ஒட்டு மொத்த நிறுவனத்திற்கான தரவுக் கிட்டங்கி முதலில் வடிவாக்கம் செய்யப்படுகின்றது. பின்னர் அதிலிருந்து மீண்டும் தேவையான தரவு அங்காடிகள் (Data Marts) தமக்குத் தேவையான வகையில் மீண்டும் மேலே கண்ட பிரித்தெடுத்தல், உருமாற்றம், ஏற்றுதல் ஆகிய படிநிலைகளுக்கு உட்படுத்தப்பட்டு  நட்சத்திர திட்டங்களாக தரவு மாதிரியைப் (Data Models) பெற்றுக் கொள்கின்றன. இங்கே கொடுக்கப்பட்டிருக்கும் படத்தைப் பார்த்தால் எளிதாகப் புரியும். இந்த அணுகுமுறையின் படி ஒட்டு மொத்த தரவுக் கிட்டங்கியை உருவாக்கிய பின்னர் தேவையான தரவு அங்காடிகள் தமக்குத் தேவையான தரவுகளைப் பெற முடிகின்றது.

Data Warehouse Designரால்ஃப் கிம்பாலின் கீழிருந்து மேல் அணுகுமுறை:

இந்த அணுகுமுறையின் படி முதலில் தேவைக்குத் தகுந்தவாறு தரவு அங்காடிகள் உருவாக்கப்படுகின்றன. அவ்வாறு உருவாக்கப்படும் போதே தரவு மாதிரிகளும், பரிமாணங்களும், தேவையான செய்திகளும் நிர்ணயிக்கப்படுகின்றன. அதன் பின்னர், அந்தச் செய்திகளும் பரிமாணங்களும் எந்தத் தரவு மூலங்களில் இருக்கின்றன என்று கண்டறியப்பட்டு பின்னர் பிரித்தெடுத்தல், உருமாற்றம், ஏற்றுதல் ஆகிய படிநிலைகளுக்கு உட்படுத்தப்பட்டு தரவு அங்காடிகளால் பெறப்படுகின்றன. இந்த முறையில் ஒட்டு மொத்த தரவுக் கிட்டங்கி மேலே இல்லாமல் கீழிருந்து சிறு சிறு அங்காடிகளின் தொகுப்பாக அமைவதைக் காணலாம். கீழிருந்து மேலான இந்த அணுகுமுறையில் தரவுக் கிட்டங்கியின் அமைப்பு நடுவில் இல்லாமல் கீழே இருக்கின்றது.

வழக்கம் போல் இந்த இரண்டு அணுகுமுறைகளிலும் நன்மை தீமைகளுண்டு. இரண்டில் எதைத் தேர்ந்தெடுப்பது என்ற கேள்விக்குப் பதிலாக, எந்த ஒரு நிறுவனம் பரிணாம வளர்ச்சியடைந்து முதிர்ச்சியடைந்து அதன் தரவுத் தேவைகளைப் பற்றி நன்கு அறிந்தும் தரவு அமைப்புகளைப் பூர்த்தியாகவும் வைத்திருக்கின்றதோ அவ்வகை நிறுவனத்திற்கு மேலிருந்து கீழ் அணுகுமுறை சிறப்பாக இருக்கும். (எ.கா. இரயில் போக்குவரத்து) அதே சமயத்தில் தற்போது பரிணாம வளர்ச்சி கண்டு வரும், அடிக்கடி மாறிக் கொண்டிருக்கும் தரவு அமைப்பைக் கொண்டிருக்கும் நிறுவனத்திற்கு கீழிருந்து மேலான அணுகுமுறை சிறப்பாக இருக்கும். (எ.கா. தொலைதொடர்பு மற்றும் கணினி) இவ்விரு அணுகுமுறைகளையும் ஒன்றிணைத்து கலப்பின அணுகுமுறைகளும் உருவாகின்றன. எனவே நமது நிறுவனத்திற்கு எது பொருத்தம் என்று உணர்ந்து அதைச் செயல்படுத்துவது நல்லது.

தரவுக் கிட்டங்கிகள் மற்றும் அங்காடிகளுக்கான சூழல் பின்வருவனவற்றை உள்ளடக்கியது. எனவே தரவுக் கிட்டங்கியை உருவாக்கும் போது கவனத்தில் கொள்ள வேண்டும்.

  • கிட்டங்கி அல்லது அங்காடிக்குத் தரவை வழங்கும் மூல அமைப்புகள்;
  • தரவு ஒருங்கிணைப்பு தொழில்நுட்பம் மற்றும் பயன்பாட்டிற்குத் தரவைத் தயாரிக்கத் தேவையான செயல்முறைகள்;
  • ஒரு நிறுவனத்தின் தரவுக் கிட்டங்கி அல்லது தரவு அங்காடிகளில் தரவைச் சேமிப்பதற்கான பல்வேறு கட்டமைப்புகள்;
  • பல்வேறு பயனர்களுக்கான பல்வேறு கருவிகள் மற்றும் பயன்பாடுகள்;
  • கிட்டங்கி அல்லது அங்காடி அதன் நோக்கங்களைப் பூர்த்திசெய்கிறதா என்பதை உறுதிப்படுத்த, மீதரவு (Meta Data), தரவுத் தரம் மற்றும் நிர்வாகச் செயல்முறைகள் இருக்க வேண்டும்.

மீதரவு எனப்படுவது தரவு பற்றிய தரவு ஆகும். மேனிலைத்தரவு என்றும் அழைக்கப்படுகின்றது. எடுத்துக்காட்டாக ஒரு புகைப்படம் என்பது தரவு ஆனால், அது எந்தப் புகைப்படக் கருவி கொண்டு எடுக்கப்பட்டது என்பது மீதரவு ஆகும். ஒரு தரவுப் பட்டியலின் நெடுவரிசைத் தலைப்புகளை மேனிலைத் தரவு எனலாம்.

அடுத்த பகுதியில் தரவுக் கிட்டங்கியின் படிநிலைகளைக் காணலாம்.

தரவுச் சுரங்கம் - 21

தரவுச் சுரங்கத்தில் ஒரு முக்கியமான பங்கு தரவுக்கிடங்குக்கு உண்டு. அதனைப் பராமரிப்பதில் இருக்கும் சிக்கல்களை முந்தைய பகுதியில் பார்த்தோம். இப்போது அந்தத் தடைகளைத் தாண்டி அதைச் சரியாகப் பயன்படுத்தினால் ஏற்படும் நன்மைகளைக் காண்போம். இந்த நன்மைகளைக் காணும் போது பல்லாண்டுகளாகக் கணினியைப் பயன்படுத்தி நிர்வகிக்கும் ஒவ்வொரு நிறுவனமும் தமக்கேற்ற தரவுக் கிடங்கைப் பராமரிப்பது அவசியம் என்பது புரியும்.

தரவுக் கிடங்கின் நன்மைகள்:

  1. தரவு சார்ந்த முடிவெடுத்தல் (Data Driven Decision Making): ஒரு தரவுக் கிடங்கு நிறுவனத்தின் அனைத்து தரவுகளுக்கும் ஒரே உண்மை மூலமாக செயல்படுகிறது, இது மேலாளர்கள் காண்பதற்கு ஏதுவாக வழக்கமான அறிக்கைகள் மற்றும் பார்வைகளை உருவாக்க உதவுகிறது. இது வணிகங்கள் தயாரிப்பு மேம்பாட்டிலிருந்து சந்தைப்படுத்தல் நுகர்வோரைச் சென்று சேர்வது வரை அனைத்திலும் சிறந்த முடிவுகளை எடுக்க உதவும்.
  • திறன் மேம்பாடு (Increased Efficiency): தரவு சேகரிப்பு, செயலாக்கம் மற்றும் பகுப்பாய்வு ஆகியவற்றில் ஈடுபட்டுள்ள பல பணிகளை ஒரு தரவுக் கிடங்கு தானியக்கப்படுத்த முடியும். இது ஊழியர்களின் நேரத்தை மிகவும் சேமித்து அவர்களது நேரத்தை மேலும் சமயோசிதமான பணிகளில் கவனம் செலுத்த அனுமதிக்கும்.
  • குறைந்த செலவு: ஒரு தரவு கிடங்கு நிறுவனங்களுக்கு பல்வேறு வழிகளில் செலவைக் குறைக்க உதவும். எடுத்துக்காட்டாக, நிறுவனங்கள் திறனற்ற தன்மைகளை அடையாளம் காண்பதற்கும் அவற்றை நீக்குவதற்கும், அவற்றின் விநியோக சங்கிலிகளை மேம்படுத்துவதற்கும் உதவும்.
  • வாடிக்கையாளர் சேவை மேம்பாடு: வாடிக்கையாளர்களின் தேவைகள் மற்றும் விருப்பங்களை நன்கு புரிந்துகொள்ள ஒரு தரவுக் கிடங்கு நிறுவனங்களுக்கு உதவும். இது மேம்படுத்தப்பட்ட வாடிக்கையாளர் சேவை மற்றும் வாடிக்கையாளர் திருப்திக்கு வழிவகுக்கும். மீண்டும் மீண்டும் நம்மை நோக்கியே வருபவர் தானே வாடிக்கையாளர்? ஒவ்வொரு வாடிக்கையாளரிடமிருந்தும் பல்லாண்டுகள் தொடர்பை உருவாக்கி மேம்படுத்தி சிறந்த சேவையளிப்பதன் மூலம் வாடிக்கையாளரையும் லாபத்தையும் தக்க வைத்துக் கொள்ளலாம்.
  • சந்தைச் சவால்கள் சமாளிப்பு: மிகுந்த சவால் மிக்க சந்தை கொண்ட இன்றைய உலகில், சிறந்த முடிவுகளை விரைவாக எடுக்க உதவுவதன் மூலம் தரவுக் கிடங்கு நிறுவனங்களுக்கு முன்னோக்கிச் செல்ல வழிகாட்டியாக விளங்கும்.
  • இடர் மேலாண்மை: இன்றைய உலகில் ஏமாற்றுபவர்களின் எண்ணிக்கை பல மடங்கு அதிகரித்து இருக்கின்றது. நமக்கான இக்கட்டு நிறுவனத்தின் உள்ளே, வெளியே என்று பல கோணங்களிலிருந்து ஏற்பட வாய்ப்பிருக்கின்றது. தரவுக் கிடங்கின் மூலம் ஒட்டு மொத்தத் தகவல்களையும் ஒரே இடத்தில் காண முடிவதால் பல கோணங்களிலும் பணியாளர்கள், வாடிக்கையாளர்கள், நமக்கு சரக்கு மற்றும் சேவையளிப்போரைக் கண்காணித்து அறிந்து கொள்ள முடியும். இதனால் மோசடிகளை மிக விரைவில் கண்டறிந்து களவையும் கழிவையும் குறைக்க இயலும்.
  • ஆராய்ச்சியில் சிக்கனம்: எப்போதும் புதிய கண்டுபிடிப்புகளையே நாடி நிற்கும் நிறுவனங்கள் (எடுத்துக்காட்டு மருத்துவம், வாகன உற்பத்தி) தங்கள் ஆராய்ச்சிக்குச் செலவிடும் தொகையைக் குறைக்க இந்தத் தரவுக் கிடங்கிகள் உதவி புரிகின்றன. பெருந்தரவைப் பயன்படுத்துவதன் மூலம் தேவையற்ற செலவுகளைக் குறைக்கலாம்.
  • தரவின் தரம்: தரவென்றாலே அது தரப்படுத்தப்பட்டது என்று முன்பே அறிவோம். இருந்தாலும் அதை இன்னும் துப்புரவு செய்தால் இன்னும் பொலிவாகத் திகழும் அல்லவா? ஒரு சாதாரண பொருள் சேமிப்பு அறைக்கும் ஒரு பெரிய அறிவியல் சார்ந்த கிட்டங்கிக்கும் இருக்கும் மலைக்கும் மடுவுக்குமான வித்தியாசத்தை நாம் உணர வேண்டும். சாதாரண அறையில் மூட்டை மூட்டையாக அடுக்கி வைக்க இயலும். ஆனால் ஒரு துறைமுகத்திலிருக்கும் ஆயிரக்கணக்கான கப்பல்களில் ஏற்றும் வகையில் பொருட்களை அடுக்கி வைக்க மூட்டைகள் காணாது அல்லவா? மிகப்பெரிய இரும்புக் கொள்கலன்களில் கொண்டு செல்வதைக் காண்கின்றோம். அதே போன்று தரவமைப்பிலும் செய்து தரப்படுத்துவதால் தரக்கிடங்குகளில் இருக்கும் தரவுகளின் தரம் உயர்ந்ததாக நம்பகமானதாக இருக்கின்றது.
  • மேம்பட்ட பாதுகாப்பு: தரவுக் கிடங்கில் இருக்கும் தரவு சேமித்துப் பின்னர் பயன்படுத்துவதற்கு மட்டுமே என்பதால் முதலில் “காண்பதற்கு மட்டும்” என்று கணினியில் சேமித்து யாரும்  மாற்ற முடியாதவாறு செய்கின்றோம். மேலும் அனைத்து தரவையும் ஒரே இடத்தில் குவித்து வைத்து தேவையானவர்களுக்கு தேவையான தரவுக்கு உண்டான அனுமதியை மட்டும் வழங்குவதால் பாதுகாப்பு எளிதாகின்றது.
  1. தற்போதைய மேக் கணிமைத் தொழில்நுட்பத்தில் சரியாக வடிவமைத்து விட்டால் மிகச் சிறிதான ஒரு கிடங்கிலிருந்து ஆரம்பித்து நிறுவனம் வளர வளர தரவுக் கிடங்கினையும் தேவைக்கேற்ப பெரிதாக்கிக் கொள்ள இயலும் என்பதால் குறைந்த செலவில் நிறைந்த பயனை அடைய முடியும்.

சற்றே கூர்ந்து கவனித்தால் எதையெல்லாம் குறையென்று சென்ற பகுதியில் குறிப்பிட்டோமோ அதையே நிறைகளாக இங்கே காண்கின்றோம். எனவே தரவுக் கிடங்கானது பூங்கொத்தாக மாறுவதும் குரங்கு கை பூமாலை ஆவதும் அதைத் திட்டமிட்டுப் பயன்படுத்துவோரின் கையில் உள்ளது என்தை அறிந்து கொள்ளலாம்!

தரவுச் சுரங்கம் - 20

ஓராண்டுத் தரவை மட்டும் ஆய்வு செய்யும் போது எந்தப் பெரிய குழப்பமும் நேர்வதில்லை. ஆனால், ஓராண்டுத் தரவை மட்டும் ஆய்வு செய்தால் ஒரு துணியின் தன்மையைப் பற்றி அறிந்து கொள்ள அதன் ஒரு நூலை மட்டும் எடுத்து அறிந்து கொள்ள முனைவது போலாகும். ஒரு துணியின் சீரான வடிவமைவும் பாங்கும் (Pattern), நிறங்களும் கோடுகளும் பற்றி அறிந்து கொள்ள வேண்டுமாயின் ஒரு நூலை மட்டும் வைத்து முடிவுக்கு வர முடியாது. ஓராயிரம் நூற்களை இணைத்துப் பார்த்தால் உடனே அறிந்து கொள்ள முடியும். இதே முறையில் தான் பெருந்தரவும்(Big data) இயங்குகின்றது. எனவே பல ஆண்டுகளாக இயங்கும் ஒரு நிறுவனம், அது துவங்கிய நாளில் இருந்து தன் வசம் இருக்கும் தரவைச் சரியாகப் பயன்படுத்திக் கொள்ள வேண்டும் என்பது தான் தரவுச்சுரங்கத்தின் அடிப்படையாகும்.

பிரபல நிகழ்நிலை அசைபட இணையத் தளமான யூடியூபில் எவ்வாறு அவரவர்களுக்கு இயைந்தவாறு அசைபடம் பரிந்துரைக்கப்படுகின்றது? கோடிக்கணக்கான மக்களின் விருப்பங்களையும் ஆராய்ந்து அவ்வாறு முடிவெடுக்க எத்தனை ஆய்வுகள் பின்னால் நடைபெற்றிருக்க வேண்டும்? இதற்கெல்லாம் தேவை ஒரு தரவுக்கிட்டங்கி (Data Warehose). அதில் தரமாக்கப்பட்ட தரவு (Standardized Data) சீராய் தேவைக்குத் தகுந்தவாறு அடுக்கி வைக்கப்பட்டிருக்க வேண்டும். அது கோடிக்கணக்கான வரிகளைக் கொண்டு பல கணினிகளின் நினைவகங்களிலும் விரவி வைக்கப்பட்டிருக்கலாம். எனவே தான் அதைப் பெருந்தரவு என்று அழைக்கின்றோம். அதற்குண்டான வன்பொருள் (Hardware), மென்பொருள் (Software), முறைமை (Logic) அனைத்தும் தினந்தோறும் வளர்ந்து கொண்டே இருப்பதைக் கண்கூடாகக் காண முடிகின்றது. சாமான்னியர்களும் இந்தப் பெருந்தரவிலிருந்து தரவைத் தேவைக்கேற்ப எடுத்துக் கொள்ள ஏதுவாக பயன்பாட்டு நிரல் இடைமுகங்கள் (API – Application Program Interface) அனைத்து பிரபலமான சமூக ஊடகங்களுக்கும் கிடைக்கின்றன. எடுத்துக்காட்டாக ஒரு நிறுவனத்தைப் பற்றி பேஸ்புக்கில் என்ன பேசுகின்றார்கள் என்பதை ஒரு சிறு பைத்தான் மொழி நூலகப் பொதியின் மூலம் நமது கணினிக்கு எளிதாக நிகழ்நிலையில் கொண்டு வரமுடியும்.

இவ்வாறு பெருந்தரவைத் தொகுக்கும் போது அல்லது உருவாக்கும் போது நமக்கு ஏற்படும் இடையூறுகளை இந்தப் பகுதியில் காண்போம்.

மெதுவாய் மாறும் பரிமாணங்கள்: (Slowly Changing Dimensions - SCD) தரவை ஆய்வு செய்வதற்கு அதை நான்கு அம்சங்களாகப் பிரித்து அதில் ஒன்று தான் பரிமாணம் என்று பார்த்தோம். அந்தப் பரிமாணம் தான் நிலையானது என்றும். தரவு ஒரு நடவடிக்கையின் செய்திகளைச் சேகரிப்பது என்றால், அதற்கு அர்த்தம் உண்டாக்குவது பரிமாணம் என்றும் பார்த்தோம். ஆனால், இப்பூவுலகில் எதுவும் நிரந்தரமன்று என்பதை நாம் உணர்வோம்! அது போல் பரிமாணங்கள் நிரந்தரமாக இருப்பதில்லை. எடுத்துக்காட்டாக இன்று சென்னையில் இருக்கும் நமது வாடிக்கையாளர், அடுத்த ஆண்டு மதுரையில் குடியேறிவிடலாம். அதனால் அவர் நமது வாடிக்கையாளராக இல்லாது போக மாட்டார். இப்போது அவர் தொடர்பான தரவை சென்னையில் சேர்ப்பதா, மதுரையில் சேர்ப்பதா எனும் குழப்பம் நேரிடுகின்றது அல்லவா? இதைத் தான் மெதுவாய் மாறும் பரிமாணங்கள் என்கின்றனர். இதைச் சரி செய்ய நிறைய வழிமுறைகள் உள்ளன. வகை 0 லிருந்து வகை 7 வரை புதியதாக பல முறைகள் இருக்கின்றன. அதைச் சரி செய்யவில்லை என்றால் நமது ஆய்வு முடிவுகள் சரியானதாக இருக்காது.

தரவு நகல்கள்: (Duplicate data) ஒரு நிறுவனத்தின் மேலாளர் ஒவ்வொருவரும் அவர்களுக்கேற்றவாறு தரவுக் கிட்டங்கியினை வடிவமைத்தோ அல்லது பயன்படுத்தவோ முயலும் போது இயல்பாகவே ஒரே தரவு பல நகல்கள் எடுக்கப்பட்டு நிறுவனத்தின் கணினியை ஆக்கிரமிப்பு செய்து கொள்கின்றது. அதுவும் ஏற்கனவே பெருந்தரவே ஒரு பிரச்னை தான். அதை நகல்கள் வேறு எடுத்தால்? சொல்லவே தேவையில்லை!

தேவையா இல்லையா?: (Redundant Data) ஒரு சமயத்தில் தேவை என்று நினைக்கும் ஒன்று இன்னொரு சமயத்தில் தேவையில்லாததாகத் தோன்றுவதைக் காண்கின்றோம். தேவையான தரவு என்று தேவையில்லாததைச் சேர்த்து வைத்தாலும் பிரச்னை தான். தேவையில்லாத தரவு என்று தேவையானதை ஒதுக்கி வைத்து விட்டாலும் பிரச்னை தான். எனவே தேவை அறிந்து தரவைத் தரமாக்கம் செய்தல் வேண்டும்.

செலவினம்: ஒரு தரவுக்கிட்டங்கியை உருவாக்கி அதை நிர்வகித்து அதிலிருந்து பலன் பெறுவது என்பது அதிகமான செலவாகும்.எந்த ஒரு முயற்சியிலும் பலன் அறிந்து, அந்தப் பலனானது செலவை விட அதிகமாக இருக்கின்றதா என்று அறிந்து முன்னெடுப்பது காலத்தின் கட்டாயமாகும்!

சிக்கல்: ஒரு பெரு நிறுவனத்தின் அத்தனை தரவையும் தரமாக்க முற்படுவது அத்தனை எளிதானதல்ல. பல சிக்கல்களை வழிவகுக்கும். அனைத்திற்கும் ஏற்றவாறு வளைந்து கொடுத்துக் கொண்டே இருந்தால் பிள்ளையார் பிடிக்கக் குரங்காகவும் மாறிவிடக்கூடும்.

நேரவிரையம்: ஏற்கனவே குறிப்பிட்டது தரவு பகுப்பாய்வு அதிக நேரம் எடுத்துக் கொள்ளும். அதற்கான பொறுமை மிகவும் முக்கியமாகும். அதே போன்று தான் தரவுக்கிட்டங்கியில் தரவை நேர்த்தியாக அடுக்கி வைப்பதற்கும் நேரமாகும்.

பொருந்தாத் தரவு: (Irrelevant Data) பல்லாண்டுத் தரவுகளைச் சேமித்து ஆய்வு செய்யும் போது மிகவும் பழமையான தரவு தேவைப்படாமலும் பொருந்தாலும் போகலாம். ‘பழையன கழிதலும் புதியன புகுதலும் வழுவல’ என்பது தரவுத் தரமாக்கத்துக்கும் பொருந்தும்!

பாதுகாப்பு: ஒரு நிறுவனத்தின் ஒட்டுமொத்தத் தரவும் ஓரிடத்தில் சேர்த்து வைப்பதென்றால் அதை எவ்வாறு பாதுகாக்க வேண்டும் என்னும் பிரச்னையும் உடனே வந்து விடுகின்றது. தேவையானவர்கள் மட்டுமே தேவையான தரவைப் பார்க்க முடியவேண்டும் என்பதும், தனியுரிமையைப் பேண வேண்டும் என்பதும் மிகப் பெரிய சவாலாக அமைகின்றது.

இவ்வாறு பல இடையூறுகள் வந்தாலும் தரவுக்கிடங்கின் நன்மைகளைக் கணக்கில் கொண்டால், தரவுக்கிடங்கின் மேன்மை நமக்குத் தெரியவரும். அதை அடுத்த பகுதியில் காண்போம்!

தரவுச் சுரங்கம் - 19

இத்தனை பாகங்களாக தரவுச்சுரங்கம் பற்றிய ஒரு நீண்ட அறிமுகத்தை வழங்கியிருக்கின்றோம். இனி சுரங்கம் தோண்டுவதற்கான பணியினை ஆரம்பிக்கலாம். ஒரு நிறுவனத்தில் தரவுகளின் பயன்பாடு கீழ்க்கண்ட இரண்டு வகைகளில் ஒன்றாக இருக்கின்றது.

  1. நிகழ்நிலை நடப்புச் செயல்முறை (Online Transaction Processing – OLTP)

நடவடிக்கைகள் நடந்தவுடன் நமக்குத் தேவைப்படும் அறிக்கைகளுக்காக இந்தச் செயல்முறை இருக்கின்றது. எடுத்துக்காட்டாக ஒரு வாடிக்கையாளர் சரக்கு வாங்கும் போது அவருக்குத் தருவதற்காக ஒரு பட்டி அல்லது ரசீது தரவேண்டியிருக்கின்றது. அதன் பின்னர் அதைக் கணக்குப் பதிவு செய்ய வேண்டியிருக்கின்றது. அன்றாடம் நமது நிறுவனம் செவ்வனே நடைபெறுவதற்காக இந்தச் செயல்முறை நடைமுறையில் இருக்கின்றது. இது உறவுமுறைத் தரவுத்தள மேலாண்மையைக் (Relational Database Management System) கொண்டு இயங்குகின்றது. உருபொருட்களை (Entities) மையப்படுத்தியும் அவற்றின் பண்புகளைச் (Attributes) சுற்றிலும் அமையுமாறு உள்ளது. இதற்கு நிரைகளை அடிப்படையாகக் கொண்டுஇயங்கும் உறவுமுறைத் தரவுத்தளம் (Row based Databases) பொருத்தமானதாக உள்ளது. அதாவது ஒரு ரசீதை நாம் அச்சிட வேண்டுமானால் நமக்கு வாடிக்கையாளரின் பெயர், முகவரி, வரிவிதிப்பு எண் என்று ஒட்டு மொத்தத் தரவும் தேவைப்படுகின்றது.

  • நிகழ்நிலை பகுப்பாய்வுச் செயல்முறை (Online Analytical Processing – OLAP)

நடவடிக்கைகள் நடந்து முடிந்தவுடன் எதிர்காலத் தேவைக்காக இரண்டாம் வகை தரவு வடிவமைப்பு அவசியமாகின்றது. ஏனெனில் பகுப்பாய்வு செய்வதற்கு நமக்கு ஒவ்வொரு வாடிக்கையாளரின் முகவரி, வரிவிதிப்பு எண் போன்ற துல்லியமான  தரவுகள் தேவைப்படாது. நடவடிக்கைகள் குறித்த செய்தித் தரவுகள் மட்டுமே தேவைப்படும். எனவே இங்கே செய்தியை (Facts) நடுவில் வைத்து உருபொருட்களைச் (Entities) சுற்றிலும் அமைக்கும் வழிமுறை தேவைப்படுகின்றது. இவ்வுருபொருட்களும் பின்னால் பரிமாணங்களில் (Dimensions) சிலவாக உருவெடுக்கும் விந்தையும் காணப் போகின்றோம்.

இரண்டு வகைகளுமே ஒரு நிறுவனம் செவ்வனே இயங்குவதற்குத் தேவை என்றாலும் அதே தரவையே அடிப்படையாகக் கொண்டு இரண்டுமே வடிவமைக்கப்படுகின்றது என்றாலும் அடிப்படையில் இவற்றுக்கிடையே மலைக்கும் மடுவுக்குமான  வேறுபாடுகளைக் காண முடிகின்றது. அவற்றை இங்கே பட்டியலிடுவோம்.

வ. எண்நிகழ்நிலை நடப்புச் செயல்முறை (OLTP)நிகழ்நிலை பகுப்பாய்வுச் செயல்முறை (OLAP)
1அன்றாட நடவடிக்கைகளுக்காகப் பயன்படுத்தப்படுகின்றது.எதிர்காலத் திட்டமிடலுக்கும் பகுப்பாய்வுக்கும் பயன்படுத்தப்படுகின்றது.
2அன்றாடத் தரவுகளை மட்டுமே பயன்படுத்துகின்றது.தேவைப்பட்டால் நிறுவனம் தொடங்கிய நாளில் இருந்து இன்று வரையான வரலாற்றுத் தரவுகளும் பயன்படுத்தப்படுகின்றது.
3அறிக்கைகளுக்குப் பொதுவாக தரவுத்தள மேலாண்மையைப் பயன்படுத்துகின்றது. (DBMS)அறிக்கைகளுக்கு தரவுக்கிட்டங்கிகள் தேவைப்படுகின்றன. (Data warehouses)
4இதன் தேவை அன்றாட மென்பொருள் பயன்பாட்டுக்கானதாகும். (Application Oriented)  தொழில் நடைமுறைக்குப் பயன்படுகின்றது.இது புலம் சார்ந்த மேலான (Subject Oriented) பயன்பாட்டுக்காகும். திட்டமிடல், முடிவெடுத்தல், பகுப்பாய்வு செய்தல் ஆகியவற்றுக்குப் பயன்படுகின்றது.  
5தரவுத் தள இயல்பாக்கம் (Database Normalization) அவசியமாகும்.இயல்பாக்கம் இருக்க வேண்டிய அவசியமில்லை.
6இன்றைய தொழிலின் நிலையை அறிய உதவும் ஒரு கண்ணாடி போன்றது..இது பல்பரிமாணத் தரவுப் பெட்டகமாகத் திகழ்கின்றது.
7எப்போதுமே 100 சதவீதத் தரவுகளைப் பயன்படுத்தப்போவதில்லை ஆதலால் மிகவும் வேகமாக இயங்கும்!அதிகப்படியான தரவுகளைப் பயன்படுத்துவதால் சற்று மெதுவாகவே இயங்கும். மணிக்கணக்கில் கூட ஆகலாம்!
8இதைப் பயன்படுத்துபவர்கள் நிறுவனத்தின் அடிமட்டப் பணியாளர்கள்.இதைப் பயன்படுத்துபவர்கள் திட்டமிடும் அளவில் இருக்கின்ற மேல்மட்டப் பணியாளர்கள்.
9தரவில் வாசித்தல் மற்றும் எழுதல் (Read and Write) ஆகிய இரு பணிகளும் அடிக்கடி நடக்கும்.இதில் எழுத வேண்டிய அவசியமில்லை. வாசித்தல் மட்டுமே நடைபெறும்.
10நிரைவரிசைத் தரவுகள் பொருத்தமானதாகும். (Row based Database)நெடுவரிசைத் தரவுகள் (Columnar Databases) பொருத்தமானதாகும்.
11உருபொருளை மையமாகக் கொண்டு, பண்புகளைச் சுற்றிலும் கொண்ட வடிவமைப்பில் இயங்குகின்றது. (Entity Centered.)நடவடிக்கைச் செய்திகளை மையமாகக் கொண்டு பரிமாணங்களைச் சுற்றிலும் கொண்ட வடிவமைப்பில் இயங்குகின்றது. (Fact Centered)
12இயல்பாக்கத்தினால் உருபொருள் உறவுமுறை வரைபடத்தின் மூலம் வரையப்படுகின்றது. (Entity Relationship Diagrams)எளிய நட்சத்திர வடிவமைப்பிலிருந்து பனித்துகள் வடிவமைப்பு மற்றும் சிக்கலான நட்சத்திரத் திரள் வடிவமைப்பு வரை நீண்டு கொண்டே செல்லக்கூடும். (Star/Snowflake/Cluster Schema)

மேற்கண்ட வேறுபாடுகளிலிருந்து நிகழ்தரவு பகுப்பாய்வின் சிறப்பம்சங்களை அறிந்து கொள்ளலாம். மேலும் பல ஆண்டுகளின் தரவுகளையும் சேர்க்கும் போது சில சிக்கல்களும் ஏற்படுகின்றன. அவைபற்றிய விளக்கங்களை அடுத்தடுத்த பகுதிகளில் காணலாம்.

தரவுச் சுரங்கம் - 18

சென்ற பகுதியில் தரவுப் பகுப்பாய்வு குறித்து விளக்கமாகக் கண்டோம். அடுத்ததாக பகுப்பாய்வின் வகைகளைக் குறித்து காண்போம். நோக்கங்கள், வழிமுறைகள், செயல்பாடுகள், அதற்கான கருவிகள் ஆகியவற்றைக் கருத்தில் கொண்டு பகுப்பாய்வினைப் பலவகைகளாகப் பிரிக்கின்றார்கள்.

  • விளக்கப் பகுப்பாய்வு (Descriptive Analytics): இருக்கின்ற தரவிலிருந்து “அப்படி என்ன தான் நடந்திருக்கின்றது?” என்ற கேள்விக்கான விடை தேட முற்படுவது விளக்கப் பகுப்பாய்வாகும். இதற்கு முக்கியமாக அடிப்படை புள்ளியியல் அளவைகளும் சூத்திரங்களும் பயன்படுத்தப்படுகின்றன. எவ்வாறு ஒரு துணியைத் தைப்பதற்கு முன்னர் தையல் வல்லுநர் ஒருவரை அளந்து பார்த்துச் சில எண்களை மட்டும் குறித்துக் கொண்டு பின்னர் தேவையான நேரத்தில் அதைப் பயன்படுத்திக் கொள்கின்றாரோ அதே போல் நாமும் ஒட்டு மொத்தத் தரவிற்கும் சில எண்களைக் கண்டுபிடித்து அது குறித்து ஆராய முற்படுகின்றோம். அனைத்துத் தரவுகளையும் ஒரே நேரத்தில் அலசி ஆராய்வது என்பது கடற்கரையில் மணலை எண்ணுவது போல ஆகிவிடும். அது நம்மால் சாத்தியமாகாது. இந்தப் பகுப்பாய்வில் பயன்படுத்தப்படும் அளவைகள்:
    1. சராசரி (Average)
    2. முகடு (Mode)
    3. இடைநிலை (Median)
    4. கால்மானங்கள் (Quartiles)
    5. சதமானங்கள் (Percentiles)
    6. திட்டவிலக்கம் (Standard Deviation)
    7. சிறுமம் (Minimum)
    8. பெருமம் (Maximum)
    9. நிகழ்வெண் பரவல் (Frequency Distribution)
    10. கோட்டம் – கோணல் தன்மை (Skewness)
    11. முகட்டளவு – தட்டை அளவு (Kurtosis)
    12. தண்டு இலை படம் (Stem-Leaf picture)
    13. கட்ட வரைபடம் (Box Plot)
    14. அலைவெண் செவ்வகப்படம் (Histogram)

மேற்கண்ட அளவைகளுடன் மொத்தம், சதவீதம் போன்ற பல கணித சூத்திரங்களையும் பயன்படுத்துவதன் மூலம் என்ன நடந்து கொண்டிருக்கின்றது என்று அறிந்து கொள்ள முடியும்.

  • பரிசோதனைப் பகுப்பாய்வு (Diagnostic Analytics) அடுத்த கட்டக் கேள்வியாக ஏன் நடக்கின்றது அல்லது எப்படி நடக்கின்றது என்று முன்னேறிச் செல்வது அடுத்த வகை பகுப்பாய்வு ஆகும். இதற்கும் சில புள்ளியியல் அளவைகள் பயன்படுத்தப்படுகின்றன. அவற்றுள் சில:
    • ஒட்டுறவு – காரணம் (Correlation – Causation)
    • கருதுகோள் (Hypothesis testing)
    • போக்குப் பகுப்பாய்வு (Trend Analysis)
    • தொடர்புப்போக்கு (Regression)
    • வேற்றுமைப் பகுப்பாய்வு (Analysis of Variance -ANOVA)
    • விகிதம் (Ratios)

இதன்மூலம் விளைவுகளையும் நடவடிக்கைகளையும் ஆராய்ந்து ஏன், எதனால் இப்படி நடக்கின்றது என்று கண்டுகொள்ளலாம். மேலும் தரவுகளுக்கு இடையேயான உறவுகளையும் கண்டறிய முடிகின்றது.

  • முன்கணிப்புப் பகுப்பாய்வு: (Predictive Analytics) இது வரை என்ன நடந்தது, ஏன் நடந்தது என்று கண்டோம். இனி முக்கியமாக அடுத்ததாக என்ன நடக்கும் என்று கணிப்பது தான் இந்தப் பகுப்பாய்வாகும்.

எதிரதாக் காக்கும் அறிவினார்க்கு இல்லை

அதிர வருவதோர் நோய்

எனும் வள்ளுவர் குறளுக்கிணங்க அடுத்து என்ன வரப்போகின்றது என்று ஊகித்து அதற்கேற்றாற்போல் முடிவெடுக்க வல்லோர் வெற்றியை நோக்கிய பயணத்தின் அடுத்த கட்டத்தை எட்டுகின்றார்கள். இதில் பாங்கு கண்டறிதல் (Pattern Identification) முக்கியமானதாகும். பயன்படுத்தப்படும் புள்ளியியல் அளவைகள்:

முன்னறிவிப்பு/முன்கணிப்பு, (Forecasting)

இயல்பரவல் (Normal Distribution)

நிகழ்தகவு (Probability)

கணிச மட்டம் (Level of Significance)

நம்பிக்கை எல்லை/இடைவெளி (Confidence Limit/Interval)

  • வழிமொழி பகுப்பாய்வு (Prescriptive Analytics) இது ஒரு முக்கியமான பகுப்பாய்வாகும். இதில் அடுத்து நாம் என்ன செய்ய வேண்டும் என்று வழிமொழிய முனைகின்றோம். இது பகுப்பாய்வின் உச்சகட்டம் எனலாம். என்ன தான் நடக்கும் நடக்கட்டுமே என்று இருந்து விட முடியாதல்லவா? நாம் அதற்கு என்ன செய்யவேண்டும் என்று முடிவெடுத்து அதன்படி நடக்கவேண்டும். யூடியூப், கூகுள் மேப் ஆகியவை அடுத்து நாம் எந்த அசைபடத்தைப் பார்க்கவேண்டும் என்றோ அடுத்து எந்த வழி திரும்பவேண்டுமென்றோ தானியங்கியாகச் சொல்ல என்ன மாதிரி பகுப்பாய்வை மேற்கொள்ள வேண்டும் என்று எண்ணிப் பார்க்க வேண்டும். இதற்குப் பல மாதிரிகள் (Models), கணித/புள்ளியியல் சமன்பாடுகள், கோட்பாடுகள் பயன்படுத்தப்படுகின்றன. எக்செல் மென்பொருளில் இருக்கும் தீர்வியை (Solver) இங்கே குறிப்பிடலாம். செய்யறிவும் (AI), இயந்திரக்கற்றலும் (Machine Learning), ஆழக்கற்றலும் (Deep Learning) இதை நோக்கியே பயணிக்கின்றன.

தரவுச் சுரங்கம் - 17

              இன்று கணினித் தரவுச் சந்தையில் கோலோச்சியிருக்கும் தரவு பகுப்பாய்வின் பல வகைகளை இந்தப் பகுதியில் காண்போம்.  ஆங்கிலத்தில் இரண்டு சொற்களைக் காண்கின்றோம். Analysis – Analytics. இவையிரண்டு சொற்களும் ஒன்றுக்கொன்று மாற்றாகவோ அல்லது ஒன்றையொன்று வேறுபடுத்துவதாகவோ கையாளப்படுகின்றது. இரண்டும் ஒன்றே என்று பலரும், இரண்டும் வெவ்வேறே என்று பலரும் பல இணையதளங்களிலும் புத்தகங்களிலும் உரையாடுவதையும் விவாதம் செய்வதையும் காணமுடிகின்றது. வேறுபடுத்திப் பார்க்கும் பலரும் விவாதிக்கும் குறிப்பிடத்தக்க வித்தியாசங்கள் இவை:

  1. Analysis ஐ விட Analytics என்பது உயர்தரமானது.
  2. முதலாவது முடிந்ததும் இரண்டாவது ஆரம்பமாகின்றது.
  3. முதலாவது இறந்த காலத்தை ஆய்வு செய்வதாகவும், இரண்டாவது எதிர்காலத்தை ஊகிக்க வல்லதாகவும் உள்ளது.
  4. முதலாவது பொதுவானது. இரண்டாவது குறிப்பிட்ட வகையானது என்போரும் உள்ளனர்.
  5. முதலாவது குறிப்பிட்ட வகையானது, இரண்டாவது பொதுவானது என்போரும் உள்ளனர்!
  6. முதலாவது படைப்பு என்றால் இரண்டாவது அதைப் படைக்கும் கருவித் தொகுப்பு என்றும் சிலர் கூறுகின்றனர்.
  7. ஆங்கில அகராதியோ Analysis  என்பது தீர ஆய்வது (a detailed examination of anything complex in order to understand its nature or to determine its essential features : a thorough study) என்றும், Analytics என்பது (the method of logical analysis) அவ்வாறு ஆய்வதற்கான முறையான வழிமுறை என்றும் குறிப்பிடக் காண்கின்றோம்.

ஆக, ஒன்று மட்டும் நிச்சயமாகின்றது. இரண்டும் ஒன்றாகவே இருந்தாலும் இன்றைய காலகட்டத்தில் இவை இரண்டையும் ஒன்றாய்ப் பார்ப்பதற்கான வாய்ப்பைக் கடந்து விட்டதாகவே நாம் கருதலாம். ஏனென்றால் கணினி உலகில் இவ்விரு சொற்களின் பயன்பாடும் வெவ்வேறு இடங்களில் வெவ்வேறு விதமாகவே உள்ளது. கடந்த இருபது ஆண்டுகளில் தரவுப் பகுப்பாய்வில் ஏற்பட்டிருக்கும் முன்னேற்றத்தைச் சுட்டிக் காட்டுவதாக Analytics என்ற சொல்லே பயன்படுத்தப்படுகின்றது. எனவே பழையன கழிதலும் புதியன புகுதலும் வழுவல எனும் சொல்லுக்கேற்ப நானும் இந்தத் தொடரில் இவ்விரண்டும் வேறெனக் கருதித் தொடர்கின்றேன்.

இரண்டுக்கும் முக்கிய வேறுபாடாகப் பலரும் குறிப்பிடுவது இவற்றில் பயன்படுத்தும் கருவிகளையும், முறைகளையும், பயன்பாடுகளையும் பற்றியதாகவே உள்ளது. எடுத்துக்காட்டாக Analyticsல் அதிகப்படியான புள்ளியியல் கோட்பாடுகளையும், கணித சூத்திரங்களைப் பயன்படுத்துவதும், பெருந்தரவில் உள்ளமைந்துள்ள பாங்குகளைக் கண்டறிந்து அதை எதிர்காலத்தில் எவ்வாறு பயன்படுத்தி வியாபார முடிவுகளை எடுக்க முடியும் என்பதையும் காண முடிகின்றது. கீழ்க்கண்ட படத்தைக் காணுங்கள். நீங்களே முடிவெடுத்துக் கொள்ளுங்கள். இணையத்தில் இது போன்ற வித்தியாசமான கருத்துள்ள பல்லாயிரக்கணக்கான படங்களைக் காண முடிகின்றது.

The Difference Between Business Analytics and Business Analysis

எதிலும் நமக்கென்று ஒரு கருத்தும் இருக்கும் அல்லவா? அதையும் இங்கே குறிப்பிடுகின்றேன். ஆனால் இது எனது தனிப்பட்ட சொந்தக் கருத்தாகும். என்னைப் பொருத்தவரை Analysis என்பது நாம் என்ன காண்கின்றோம் என்று அறிந்து அதைக் காண்பதாகும். Analytics என்பது நாம் என்ன காண்கின்றோம் என்பதை அறியாமல் அதைப் புதியதாகக் கண்டறிந்து வெளியிடுவதாகும்! அதாவது ஆய்வுக்கும் ஆராய்ச்சிக்கும் இருக்கும் வேறுபாடை நான் இவ்விரு சொற்களின் பயன்பாட்டின் மூலம் உணர முடிகின்றது. மற்றவர்கள் இதுவரை கண்டிராத ஒரு கண்ணோட்டத்தில் தரவைப் பயன்படுத்திக் கண்டறிந்து அதைச் சரியான நேரத்தில் சரியான முறையில் பயன்படுத்திப் பலரும் பயனடைவதே சிறப்பு. அதையே பகுப்பாய்வு செய்ய வேண்டும்.

கூகுள் நிறுவனம் தரவுப் பகுப்பாய்வின் படிநிலைகளை இவ்வாறு வரையறுக்கின்றது. சுருக்கமாக APPASA என்றும் அழைக்கப்படுகின்றது.

Ask - கேள்வி

Prepare - தயாரித்தல்

Process - தகவமைத்தல்

Analyze - பகுப்பாய்வு

Share - பகிர்வு

Act – செயல்பாடு

எந்த ஒரு விடையின் தராதரமும் கேள்வியின் தராதரத்தை ஒட்டியே இருக்கின்றது. ஒரு புத்திசாலித்தனமான கேள்விக்கு ஒரு புத்திசாலித்தனமான பதிலே விடையாகக் கிடைக்கக்கூடும். எனவே தகுந்த வித்தியாசமான கோணத்தில் கேள்வி கேட்பதில் ஆரம்பித்து, அதற்கான தரவுகளை எங்கெங்கு கிடைத்தாலும் அதனைப் பக்குவமாகச் சேகரித்து, பின்னர் நாம் ஏற்கனவே கண்ட பதப்படுத்தும் முறைகளைக் கொண்டு தகவமைத்து அதனை மீண்டும் மீண்டும் ஆய்வுக்கு உட்படுத்தி நாம் மட்டுமே மஞ்சள் கண்ணாடி கொண்டு உலகைக் காண்பது போல் காணாமல் மற்றவர்களுக்கும் அதைப் பகிர்ந்து அவர்களின் கருத்துகளையும் உள்வாங்கிப் பின் தேவையான முடிவுகளை எடுத்து அதைச் செயல்பாட்டில் சாதித்துக் காட்டுவதே கூகுளின் தரவுப் பகுப்பாய்வுப் படிநிலையின் உன்னதம் ஆகும். உலகின் முன்னணி நிறுவனமான கூகுளால் முடியுமென்றால் நம்மாலும் முடியும் தானே?

தரவுச் சுரங்கம் - 16

பெருந்தரவைப் பகுப்பாய்வு செய்வதற்கும், அதைக் காட்சியாக வரைபடத்தில் உள்ளுணர்ந்து காண்பதற்கும் எக்செல் போன்ற மின்விரிதாள் மென்பொருளைப் பயன்படுத்த இயலாதா? அதிலேயே அத்தனை வசதிகளும் இருக்கத் தானே செய்கின்றன என்ற கேள்வி எழுகின்றது.

பொதுவாக மின்விரிதாள் மென்பொருள் என்பது பெருந்தரவுக்கு உகந்ததல்ல. ஏனெனில் அதன் வடிவமைப்பும் இயல்பான தன்மையும் அவ்வாறுள்ளது. அடிக்கடி மா(ற்)றக் கூடிய சிக்கலான கணக்குகளை எளிதான சூத்திரங்களின் மூலம் சாத்தியமாக்கும் மென்பொருளாக அது விளங்குகின்றது. சிறிய வகை தரவைப் பகுப்பாய்வு செய்கின்ற வசதி இருந்தாலும் கட்டமைப்பில்லா இடத்தில் கட்டமைவுள்ள தரவைப் பயன்படுத்த முடியும் என்றாலும் அதன் அமைப்பு பெருந்தரவுக்கு ஒத்ததாக இல்லை.

மொத்தமே 1048576 வரிகளே வைக்க முடியும். ஒவ்வொரு நிரலுக்கும் சுட்டி (Index) உருவாக்க முடியாது. ஒரு அட்டவணைக்கும் இன்னொரு அட்டவணைக்குமான உறவுமுறையை உறவுமுறைத் தரவமைப்பைப் போல் நிர்ணயித்துப் பொருத்தி ஒட்டு மொத்தமாக ஒரு தரவுப் படிமத்தை (Data Model) உருவாக்க இயலாது. இன்றைய நவீனப் பகுப்பாய்வுக் களமான நெடுவரிசைத் தரவுத்தள (Columnar Database) அடிப்படையில் மின்விரிதாளில் தரவைப் பேண முடிவதில்லை. தற்போதைய தகவல் பலகத்தில் (Dashboard) உள்ளது போல் ஒரு வரைபடத்தில் சுட்டி அதில் குறிப்பிட்ட இடத்தை மட்டும் வெட்டினால் மற்ற வரைபடங்களிலும் அது எதிரொலிப்பது போன்ற வசதிகள் (Interactive Slicing) இல்லை என்று மின்விரிதாள் மென்பொருளின் பகுப்பாய்வுக் குறைகளை அடுக்கிக் கொண்டே செல்லலாம்.

இருந்த போதிலும், மின்விரிதாளிலும் மேலே கண்ட வசதிகளைக் கொண்டு வந்து விட்டால் பகுப்பாய்வுக்கு மட்டும் என்று வேறொரு மென்பொருளை நாட வேண்டிய அவசியம் இல்லையே என்பதே அனைவரின் எதிர்பார்ப்பாக இருந்தது. எனவே தற்போதைய மின்விரிதாள் மென்பொருள் கட்டமைப்பாளர்களில் முதன்மையாகக் கருதப்படும் மைக்ரோசாஃப்ட் எக்செல் மற்றும் கூகுள் ஷீட்ஸ் ஆகிய இரு பெரும் நிறுவனங்களும் இதில் ஈடுபட்டுள்ளன. மற்ற மென்பொருள் வல்லுநர்களும் இதே பாதையில் தான் செல்ல முற்பட்டுள்ளனர். இந்தப் போட்டியில் முன்னணியில் தொடர்ந்து சென்று மைக்ரோசாஃப்ட் எக்செல்லின் சமீபத்திய பதிப்புகள் யாவும் பெருந்தரவுப் பகுப்பாய்வை முன்வைத்தே அனைத்து புதுமைகளையும் கண்டு வருகின்றது. எனவே எக்செல்லின் சமீபத்திய பதிப்புக்கு மாறுவதும், அதன் புதிய அம்சங்களைக் கற்றுணர்வதும் அனைத்து மின்விரிதாள் மென்பொருள் பயனர்களின் பொறுப்பாகின்றது.

எக்செல் கொண்டு வந்துள்ள சில புதிய வசதிகள்:

  1. அணிகளில் புதுமை – இயங்கு அணி (Dynamic Array)
  2. டேபுலர் என்ற உள்ளமைந்த நெடுவரிசைத் தரவுத்தளம் (Tabular – in memory Columnar Database)
  3. எந்த அளவு, விதம், அமைவும் உடைய எத்தகைய தரவாக இருந்தாலும் அதைச் சீரமைத்து தரவுப் படிவத்திற்கு ஏற்றவாறு மாற்றும் பவர் க்வரி எனும் அமைப்பு (Power Query for ETL)
  4. அவ்வாறு தரவுப்படிவத்திலிருக்கும் தரவில் இருந்து பகுப்பாய்வுக்கு ஏற்றவாறு பல்பரிமாணக் கண்ணோட்டத்தில் காண வைக்கும் பவர் பைவட் என்னும் அமைப்பு (Power Pivot with DAX)
  5. காலத்துக்குத் தகுந்த மாதிரியான பலவித தரவுசார் வசதிகள் (எ.கா. தரவு வகை) (Data Types)
  6. கால பருவ மாற்றங்களைக் கணக்கில் கொள்ள  Forecasting with Exponential Smoothing
  7. புள்ளியியல் வரைபடங்கள்

இவ்வாறு நிறைய வசதிகளைக் கொண்டு வரும் மின்விரிதாள் மென்பொருளைப் பயன்படுத்த ஆரம்பிக்கும் போது நம்மால் பெருந்தரவைப் பகுப்பாய்வு செய்வதற்கும் காட்சியாகக் காண்பதற்கும் ஏதுவாகின்றது. இருந்த போதும் மின்விரிதாள் மென்பொருளின் தனித் தன்மை இதனால் இழந்து போகும் என்று வாதிடும் வல்லுனர்களும் உள்ளனர். எனினும் அடுத்த தலைமுறை தரவு பகுப்பாய்வுக்கான துவக்கப் புள்ளியாக மின்விரிதாளின் பங்கு மகத்தானது.