தரவுச் சுரங்கம் – 26 தரவுக் கிட்டங்கியில் ஒழுங்குற சேமிக்கப்படவிருக்கும் தரவினைப் பல்வேறு மூலங்களிலிருந்து எவ்வாறெல்லாம் சேகரிக்கலாம் என்பதை முந்தைய பகுதியில் கண்டோம். இந்தப் பகுதியில் அதன் அடுத்த நிலையான “உருமாற்றம்”ல் என்னவெல்லாம் நடைபெறுகின்றது என்று காண்போம். எந்த ஒரு தரவும் அது எந்த வகை மூலமாக இருந்தாலும் அது எண்ம வடிவில் இருக்கும் பட்சத்தில் அதைச் சேகரிப்பதில் அத்தனை சிரமங்கள் இருப்பதில்லை. எண்ம வடிவில் இல்லாது அச்சு வடிவில் இருந்தால் கூட அதை ஒளிவருடி மூலம் படம்பிடிக்கப்பட்டு அதை எண்மமாக மாற்றும் தொழில்நுட்பம் மிகச் சிறந்த வகையில் முன்னேறி இருக்கின்றது. செய்யறிவு மூலம் அது உச்சத்தையும் தொட்டிருக்கின்றது. இனி இந்தப் படிநிலையில் உருமாற்றத்தில் என்னென்ன மாயா ஜாலமெல்லாம் சாத்தியம் என்று காண்போம்.
- Clean தூய்மைப்படுத்து/ சீரமை தரவில் உள்ள தவறுகள், பிழைகள் மற்றும் தேவையற்றவற்றை நீக்கிச் சரி செய்தல்.
- Sanitize சுத்திகரி முக்கியமாக, தரவில் உள்ள தனிப்பட்ட தகவல்கள் அல்லது மென்பொருளுக்குத் தீங்கு விளைவிக்கும் குறியீடுகளை நீக்கிப் பாதுகாப்பானதாக மாற்றுதல்.
- Split பிரித்தல் ஒரு நிரலில் (column) உள்ள தரவைப் பல நிரல்களாகப் பிரித்தல் (எ.கா: முழுப் பெயரை முதல் பெயர், கடைசிப் பெயர் எனப் பிரிப்பது).
- Join இணைத்தல் இரண்டு அல்லது அதற்கு மேற்பட்ட தரவு அட்டவணைகளை ஒரு பொதுவான நிரலின் அடிப்படையில் ஒன்றாக இணைத்தல்.
- Parse பாகுபடுத்து ஒரு நீண்ட உரைத் தரவை (text data) அதன் கட்டமைப்புக்கு ஏற்பப் பிரித்து, அர்த்தமுள்ள சிறு கூறுகளாக மாற்றுதல் (எ.கா: JSON அல்லது XML தரவைப் பிரிப்பது).
- Transpose நிரல்-நிரை மாற்று தரவு அட்டவணையின் நிரைகளை (rows) நிரல்களாகவும் (columns), நிரல்களை நிரைகளாகவும் இடம் மாற்றுதல்.
- Remove நீக்கு தேவையற்ற நிரல்களையோ அல்லது நிரைகளையோ தரவிலிருந்து நீக்குதல்.
- Keep தக்கவை குறிப்பிட்ட நிரல்கள் அல்லது நிரைகளை மட்டும் வைத்துக்கொண்டு மற்றவற்றை நீக்குதல்.
- Replace பதிலீடு செய் / மாற்று தரவில் உள்ள ஒரு குறிப்பிட்ட மதிப்பை வேறொரு மதிப்பு கொண்டு மாற்றுதல்.
- Group குழுவாக்கு ஒரு நிரலில் உள்ள பொதுவான மதிப்புகளின் அடிப்படையில் தரவை பல குழுக்களாகப் பிரித்தல்.
- Summarize தொகு / சுருக்கு குழுவாக்கப்பட்ட தரவிலிருந்து கூட்டுத்தொகை (Sum), சராசரி (Average) போன்ற சுருக்கமான புள்ளிவிவரங்களை உருவாக்குதல்.
- Pivot அச்சு மாற்று நிரைகளின் மதிப்புகளை நிரல்களின் தலைப்புகளாக மாற்றி, தரவின் வடிவமைப்பை அகலமானதாக (Wide Format) மாற்றுதல்.
- Unpivot எதிர்-அச்சு மாற்று நிரல்களை மீண்டும் நிரைகளாக மாற்றி, தரவின் வடிவமைப்பை நீண்டதாக (Long Format) மாற்றுதல். இது Pivot-இன் நேர் எதிர் செயல்.
- Calculate கணக்கிடு இருக்கும் நிரல்களைக் கொண்டு கணிதச் செயல்பாடுகள் மூலம் புதிய நிரல்களை அல்லது மதிப்புகளை உருவாக்குதல்.
- Cast வகை மாற்று ஒரு நிரலில் உள்ள தரவின் வகையை மாற்றுதல் (எ.கா: உரை (Text) வகையை எண் (Number) வகையாக மாற்றுவது).
- Culture பண்பாடு / கலாச்சார அமைப்பு தேதி, நேரம், நாணயம் மற்றும் எண்களின் வடிவங்களைக் குறிப்பிடும் பிராந்திய அல்லது மொழி அமைப்பு (Regional/Language Setting).
- Combine ஒன்றுசேர் / ஒருங்கிணை பல கோப்புகளை (files) ஒரே தரவு அட்டவணையாகச் சேர்ப்பது. இது பொதுவாக ஒரே கோப்புறையில் (folder) உள்ள பல கோப்புகளை இணைக்கப் பயன்படும்.
- Append பின்சேர் / அடியில் சேர் ஒரு அட்டவணையின் கீழ் மற்றொரு அட்டவணையின் தரவை வரிசையாகச் சேர்ப்பது. இது நிரைகளின் (rows) எண்ணிக்கையை அதிகப்படுத்தும்.
- Merge ஒன்றிணை இரண்டு அட்டவணைகளை, ஒரு பொதுவான நிரலை (column) அடிப்படையாகக் கொண்டு பக்கவாட்டில் இணைப்பது. இது JOIN போன்றது மற்றும் நிரல்களின் (columns) எண்ணிக்கையை அதிகப்படுத்தலாம்.
- Reverse தலைகீழாக்கு / வரிசை மாற்று அட்டவணையில் உள்ள நிரைகளின் வரிசையைத் தலைகீழாக மாற்றுதல் (கடைசி வரிசை முதலிலும், முதல் வரிசை கடைசியிலும் வரும்படி).
- Expand விரிவாக்கு / விரிவுபடுத்து Merge செய்யப்பட்ட அல்லது தொகுக்கப்பட்ட (structured) ஒரு நிரலில் உள்ள தரவை, புதிய நிரல்களாகவோ அல்லது நிரைகளாகவோ விரித்துக்காட்டுதல்.
- Index குறியிடு / வரிசை எண் இடு தரவு அட்டவணையில் உள்ள ஒவ்வொரு நிரைக்கும் வரிசையாக எண்களைக் கொண்ட ஒரு புதிய நிரலைச் சேர்ப்பது. இது 'Index Column' என அழைக்கப்படுகிறது.
- Duplicate நகலெடு / இரட்டிப்பாக்கு ஒரு முழு அட்டவணையையோ (query) அல்லது ஒரு குறிப்பிட்ட நிரலையோ அப்படியே இன்னொன்றாகப் பிரதியெடுத்தல் (copy).
என்று பட்டியலிட முயற்சி செய்தோமேயானால் மிகப் பெரிய பட்டியலாக நீண்டு கொண்டே செல்கின்றது. இன்றைய மென்பொருட்களான Power BI (Power Query), Python (Pandas), மற்றும் பிற தரவுத்தள மென்பொருட்களில் தரவைச் சுத்தம் செய்து, தேவையான வடிவத்திற்கு மாற்றுவதற்குப் பயன்படுகின்றன. மைக்ரோசாப்டின் பவர் க்வரி மென்பொருளானது ஒரு படி மேலே சென்று இதில் பயன்படுத்தப்படும் எளிய மொழிக்கான பெயராக மேஷப் (Mashup - கலப்பிணைப்பு) மொழி என்றே பெயர் சூட்டிவிட்டனர்.
இனி அடுத்த பகுதியில் ‘ஏற்று’ படிநிலையில் என்ன நடைபெறுகின்றது என்பதைக் காண்போம்.