ڈیٹا ویئر ہاؤسنگ کیا ہے؟

ڈیٹا ویئر ہاؤس میں ڈیٹا اسٹور کرنے کے طریقے

عموماً ڈیٹا ویئر ہاؤس میں ڈیٹا اسٹور کرنے کے لیے دو مشہور طریقہ کار استعمال کئے جاتے ہیں۔

جہتی طریقہ کار (Dimensional approach)

جہتی طریقہ کار کے حامی، جن کو "Kimballites” بھی کہا جاتا ہے، Ralph Kimball کے طریقے پر یقین رکھتے ہیں۔ جہتی ماڈل کو 3NF ماڈل بھی کہا جاتا ہے۔ اس ماڈل میں دو طرح کے Schemaہوتے ہیں اسٹار سکیما (star schema) اور اسنو فلیک سکیما (snowflake schema)۔

جہتی طریقہ کار میں ٹرانزیکشنل ڈیٹا کو "Facts” میں تقسیم کیا جاتا ہے جو کہ عام طور پر نمیرک ٹرانزیکشنل ڈیٹا ہوتا ہے اور Dimensions جو کہ ریفرینس انفارمیشن ہوتی ہے فیکٹس کے لیے۔ مثال کے طور پر کسی بھی فروخت کی ٹرانزیکشن کو ہم کچھ اس طرح کے فیکٹس میں توڑ سکتے ہیں جیسے کہ آرڈر کی گئی چیزوں کی تعداد، چیزوں کی ادا کی گئی قیمت اور dimensions میں اگر توڑیں تو آرڈر ڈیٹ، خریدنے والے کا نام، پروڈکٹ نمبر، آرڈر کرنے والے کا یا جس کے نام پر بل بنا ہے اُس کا پتا، آرڈر لینے والے کا نام وغیرہ۔

جہتی طریقہ کار استعمال کرنے کا بنیادی فائدہ یہ ہے کہ ڈیٹا ویئر ہاؤس استعمال کرنے والے کے لیے بہت آسان ہو جاتا ہے اور ڈیٹا ویئر ہاؤس سے کوئی بھی ڈیٹا کافی جلدی نکل آتا ہے۔ Dimensional structure میں ڈیٹا کو فیکٹس اور dimensionals میں توڑنے کی وجہ سے بزنس کے لوگوں کے لیے سمجھنا بہت آسان ہوتا ہے۔

جہتی طریقہ کار استعمال کرنے کے جہاں بہت سارے فوائد ہیں وہاں نقصانات بھی ہیں، جیسے کہ فیکٹس اور dimensions میں تقسیم ڈیٹا سے فائدہ اُٹھانے کے لیے مختلف آپریشنل سسٹم سے ڈیٹا ویئر ہاؤس میں ڈیٹا لوڈ کرنا آسان کام نہیں ہے۔ اور ساتھ ہی اگر آرگنائزیشن اپنے بزنس کے طریقے میں کوئی dimensional تبدیلیاں کر رہی ہے تو اس حوالے سے ڈیٹا ویئر ہاؤس کے اسٹرکچر کو تبدیل کرنا بھی ایک بہت مشکل کام ہو گا۔

نارملائز طریقہ کار

Normalized approach میں ڈیٹا ویئر ہاؤس میں ڈیٹا کو ڈیٹا بیس normalization rules کے حساب سے اسٹور کیا جاتا ہے۔ ٹیبلز کو سبجیکٹ ایریاز کے حساب سے آپس میں گروپ کیا جاتا ہے جس کی وجہ سے ڈیٹا جنرل ڈیٹا کیٹیگریز کی شکل اختیار کر لیتا ہے جیسے کہ کسٹمرز کا ڈیٹا، پروڈکٹس کا ڈیٹا، فنانس وغیرہ۔

Normalized structure ڈیٹا کو entities میں تقسیم کر دیتا ہے جو متعدد ٹیبلز بنا دیتی ہے ایک ریلیشنل ڈیٹا بیس میں۔ یہی کام اگر کسی بڑی آرگنائزیشن میں کیا جائے تو درجنوں کے حساب سے ٹیبلز بن جائیں گے جو کہ جوائنز کے ایک جال کی صورت میں آپس میں ایک دوسرے سے لنکڈ ہوں گے۔ اور جب یہ ڈیٹا بیس implement کیا جاتا ہے تو ہر ایک entity ایک الگ فیزیکل ٹیبل کی شکل اختیار کر لیتی ہے۔ Normalized approach کو استعمال کرنے کا فائدہ یہ ہے کہ ڈیٹا بیس میں ڈیٹا بہت ہی آرام سے بغیر سوچے سمجھے ڈالا جا سکتا ہے مگر اس کا نقصان یہ ہے کہ استعمال کرنے والوں کو مختلف جگہ سے اپنے والے ڈیٹا کو آپس میں جوائن کر کے قابلِ استعمال حالت میں لانا کافی مشکل ہو جاتا ہے کیونکہ جتنی مختلف جگہوں سے ڈیٹا آرہا ہو گا، یوزر کو اُن سب سورسز کے ڈیٹا اسٹرکچر کو اور ڈیٹا کو سمجھنا پڑے گا۔

اِن دونوں طریقہ کاروں کو entity relationship diagram کی شکل میں دکھایا جا سکتا ہے کیونکہ دونوں میں joined relational ٹیبلز پائے جاتے ہیں۔ دونوں میں فرق صرف degree of normalization کا ہے۔

اس کے علاوہ اور بھی طریقہ کار ہیں جیسے کہ ٹاپ ڈاؤن طریقہ کار اور باٹم اپ طریقہ کار، مگر یہ اتنی زیادہ استعمال نہیں کئے جاتے۔

ماسٹر ڈیٹا منیجمنٹ

ماسٹر ڈیٹا منیجمنٹ کا مقصد ہے کہ کسی بھی آرگنائزیشن میں ڈیٹا کہ ایک ہی کاپی رکھی جائے۔ مثال کے طور پر کسی XYZ آرگنائزیشن میں عارف کا ایڈریس تبدیل ہوتا ہے تو ایک ڈیپارٹمنٹ اُسے تبدیل کر لیتا ہے مگر اُسی آرگنائزیشن میں دوسرے ڈیپارٹمنٹ میں اسے تبدیل نہیں کیا جاتا۔ جس کی وجہ سے اب عارف کے دو پتے ہو گئے ہیں جو کہ غلط ہے۔ اب اگر ان دونوں منبعوںسے ڈیٹا، ڈیٹا ویئر ہاؤس میں جا رہا ہے تو وہ عارف کے دو پتے دکھائے گا جس سے استعمال کرنے والے کو یہ اندازہ لگانا مشکل ہو گا کہ دونوں میں سے صحیح کون سا ہے اور غلط کون سا۔ اس سب سے بچنے کے لیے آرگنائزیشن ماسٹر ڈیٹا منیجمنٹ کرتی ہے اور اس کا فائدہ یہ ہوتا ہے کہ ڈیٹا کی ایک ہی ماسٹر کاپی ہوتی ہے (Single version of truth)۔

ماسٹر ڈیٹا میں عام طور پر کسٹمرز، وینڈرز، پروڈکٹس، ملازمین وغیرہ کا ڈیٹا ہوتا ہے مگر مختلف آرگنائزیشنز کے حساب سے یہ ڈیٹا مختلف ہو سکتا ہے۔

ماسٹر ڈیٹا منیجمنٹ بڑی آرگنائزیشنز کے لیے بہت ضروری ہے بلکہ یوں کہنا زیادہ بہتر ہو گا کہ جتنی بڑی آرگنائزیشن ہے اُتنا ہی وہاں طریقے سے ماسٹر ڈیٹا منیجمنٹ کا ہونا ضروری ہے کیونکہ جتنی بڑی آرگنائزیشن ہو گی وہاں پر اتنی ہی زیادہ ڈیٹا سورسز ہوں گی اور وہاں سے ڈیٹا کو consistent رکھنا اُتنا ہی مشکل ہو گا۔

ماسٹر ڈیٹا منیجمنٹ کو صحیح طریقے سے رکھنا اُس وقت کافی مشکل ہو جاتا ہے جب کمپنیز کا انضمام (merger) ہوتا ہے۔ ہر کمپنی کا اپنا ماسٹر ڈیٹا ہو گا اور دونوں کو ملا کر ایک کرنے میں کافی مشکلات کا سامنا کرنا پڑتا ہے۔ مثال کے طور پر ہر کمپنی کا اپنے کسٹمرز کی پہچان کا طریقہ (unique identifier) الگ ہوتا ہے، ایڈریسز اور فون نمبرز الگ ہو سکتے ہیں، کسی کا پہلا نام کسی اور کے دوسرے نام سے مل سکتا ہے وغیرہ۔ اس مسئلے سے بچنے کے لیے بڑی آرگنائزیشنز میں ماسٹر ڈیٹا منیجمنٹ کے لیے ڈیٹا گورنینس کمیٹی ہوتی ہے۔

ماسٹر ڈیٹا منیجمنٹ اور ڈیٹا ویئر ہاؤسنگ

اب تک کی گئی باتوں سے اندازہ لگایا جا سکتا ہے کہ ماسٹر ڈیٹا منیجمنٹ اور ڈیٹا ویئر ہاؤسنگ میں کافی کچھ ملتا جلتا ہے، جیسے کہ ڈیٹا کی صفائی (Data cleansing) کا طریقہ، ڈیٹا ویئر ہاؤسنگ کی ETL پروسیس سے ملتا جلتا ہے بلکہ وہی ETL ٹولز ڈیٹا کی صفائی کے کام آ سکتے ہیں۔ ان دونوں میں فرق کیا ہے:

استعمال کا طریقہ:

ڈیٹا ویئر ہاؤس کا مقصد ڈیٹا کو مختلف جہتوں میں تجزیہ کرنا ہے جب کہ ماسٹر ڈیٹا منیجمنٹ کا مقصد ایک آرگنائزیشن میں ڈیٹا کی سنگل کاپی رکھنا ہے ایک مخصوص dimension میں۔ اس کے علاوہ ماسٹر ڈیٹا منیجمنٹ inconsistent ڈیٹا کی jar کو میٹا ڈیٹا میں ختم کرتا ہے۔ ڈیٹا ویئر ہاؤسنگ میں جار سے ایسے مسئلے کو حل کرنا ضروری نہیں ہے اگر اسی مسئلے کے رہتے ڈیٹا ویئر ہاؤسنگ کی سطح پر صحیح نظر آرہا ہے تو یہ کافی ہے۔

مختلف طرح کا ڈیٹا:

ماسٹر ڈیٹا منیجمنٹ صرف entities پر لاگو ہوتا ہے ٹرانزیکشنل ڈیٹا پر نہیں، جب کہ ڈیٹا ویئر ہاؤس میں ڈیٹا ٹرانزیکشنل اور نان ٹرانزیکشنل دونوں نوعیت کا ہوتا ہے۔ اس کو سمجھنے کا آسان طریقہ یہ ہے کہ ماسٹر ڈیٹا منیجمنٹ صرف اُس ڈیٹا سے تعلق رکھتا ہے جو dimensional tables میں پایا جاتا ہے، اُس پر نہیں جو fact ٹیبلز میں ہوتا ہے جب کہ ڈیٹا ویئر ہاؤس انوائرنمنٹ میں dimensions اور فیٹکس ٹیبلز دونوں میں ہوتا ہے۔

ڈیٹا کہاں استعمال ہوتا ہے:

ڈیٹا ویئر ہاؤس میں عام طور پر "single source of truth” وہ ایپلی کیشنز استعمال کرتی ہیں جو ڈیٹا ویئر ہاؤس کو براہِ راست ایکسس کرتی ہیں۔ عام طور پر اصلی ڈیٹا سورس کو اس سے کوئی فرق نہیں پڑتا۔ جب کہ ماسٹر ڈیٹا منیجمنٹ میں ہمیں عموماً اس طریقہ کار کی ضرورت پڑتی ہے کہ ماسٹر ڈیٹا کی کاپی واپس سورس سسٹم میں کیسے لے کر جائیں۔ اس میں چیلنجز ہوتے ہیں جو ڈیٹا ویئر ہاؤسنگ انوائرنمنٹ میں نہیں ہوتے۔ مثال کے طور پر ہم ڈیٹا کو اُس کی اصلی سورس سے کیسے ملائیں؟ دن میں ایک بار؟ ایک گھنٹے میں ایک بار؟ ایسے کیس میں کیا کریں جہاں ڈیٹا کلینزنگ پراسس سے گزارتے وقت تبدیل ہو جاتا ہے؟ یہ کچھ سوالات ہیں جن کی وجہ سے ماسٹر ڈیٹا منیجمنٹ کو مشکلات کا سامنا کرنا پڑتا ہے۔ ان سوالات کا کوئی آسان جواب نہیں ہے، یہ انحصار کرتا ہے کہ بہت سی باتوں پر ہے جو کہ ہر آرگنائزیشن کے مطابق مختلف ہوتی ہیں جیسے کہ سورس سسٹم کی تعداد کتنی ہے، سورس سسٹم میں تبدیلی کتنی آسان یا مہنگی ہے وغیرہ۔

ڈیٹا ویئر ہاؤس اپلائنس

ڈیٹا ویئرہاؤس میں ڈیٹا ایک جم غفیر کی صورت میں موجود ہوتا ہے۔ اس لئے اسے پروسس کرنے کے لئے درکار ہارڈویئر بھی خاص ہوتا ہے۔ اگرچہ یہ کام عام کمپیوٹر یا سرور پر بھی ہوسکتا ہے مگر مختلف کمپنیوں جیسے ایچ پی، ڈیل، ٹیرا ڈیٹا وغیرہ نے اس کام کو انجام دینے کیلئے مخصوص ہارڈویئر بھی تیار کر رکھے ہیںجو ڈیٹاویئر ہاؤسنگ کو آسان بناتے ہیں۔ ان میں اسٹوریج کے لئے دستیاب جگہ ٹیرا بائٹس اور بعض حالات میں پیٹا بائٹس تک ہوتی ہے جبکہ پروسیسنگ اسپیڈ میں بہت زیادہ ہوتی ہے۔ ان میں آپریٹنگ سسٹم بھی خاص ہوتا ہے اور ڈیٹا ویئر ہاؤسنگ کے لئے درکار سافٹ ویئر جیسے ڈیٹا بیس اور ڈیٹا بیس منیجمنٹ سسٹمز بھی پہلے سے انسٹال ہوتے ہیں۔

Comments are closed.