کامن کراول – پورے انٹرنیٹ کا ڈیٹا ایک جگہ جمع

گوگل کی کامیابی کا راز اس کے شاندار الگورتھم میں پوشیدہ ہے جس کی بدولت یہ بہترین طریقے سے ویب سائٹس سے ڈیٹا پڑھ اور اسے ترتیب دے سکتا ہے۔ لیکن کمپنی کی کامیابی کا ایک اہم ستون اس کی پورے ورلڈ وائڈ ویب کو اپنے پاس جمع کرنے کی صلاحیت ہے۔ گوگل کے انڈیکس میں اربوں ویب پیجز محفوظ ہیں۔ ایک اندازے کے مطابق گوگل ہر روز 24پیٹا بائٹس کا ڈیٹا پروسس کرتا ہے۔

وہ محقق جنھیں اپنی ریسرچ کے لئے گوگل جتنا ڈیٹا درکار ہے، کے لئے اچھی خبر ہے کہ ایک غیر تجارتی کمپنی Common Crawl اپنے Crawlerکے ذریعے تمام ویب سائٹس کا ڈیٹا جمع کرکے بالکل مفت فراہم کررہی ہے۔ اس کمپنی کے پاس 5ارب ویب پیجز کا ڈیٹا موجودہے جسے کوئی بھی ڈائون لوڈ کرکے اپنی تحقیق کے لئے استعمال کرسکتا ہے۔

ایک دوسری کمپنی انٹرنیٹ آرکائیو بھی پورے ویب کو اپنے پاس محفوظ کرتی ہے تاکہ صارفین اس کی Wayback Machine  نامی سروس کے ذریعے کسی بھی ویب پیج کا پرانا ورژن دیکھ سکیں۔ لیکن یہ کمپنی اپنا مکمل ڈیٹا تجزیئے یا ریسرچ کے لئے پیش نہیں کرتی۔
گلاڈ الباز (Gilad Elbaz) جو ’’کامن کراول‘‘ کے بانی ہیں کے مطابق ’’جہاں تک میں ویب کو جانتا ہوں، یہ معلومات کا سب سے بڑا ڈھیر ہے جس سے بہت سے کام لئے جاسکتے ہیں۔ لیکن یہ سب ڈیٹا ایک جگہ جمع کرنا آسان ہے نہ ہر کسی کے بس کی بات… اور چند ہی آرگنائزیشنز ایسی ہیں جن کے پاس اتنے وسائل ہیں کہ وہ یہ کام کرسکیں۔ ‘‘

اِلباز مزید کہتے ہیں کہ اگر یہ ڈیٹا ایک جگہ دستیاب ہو تو اسے استعمال کرکے نئے سرچ انجنز بنائے جاسکتے ہیں۔ گوگل کے پاس چونکہ وسائل کی کمی نہیں، وہ ویب کو بہت جلدی crawlکرکے اپنا انڈیکس اپ ڈیٹ کرلیتا ہے لیکن ایک نئے سرچ انجن کے لئے ہر بار ویب کو crawl کرنا کسی دردِسری سے کم نہیں ہوگا اور اس کے لئے جس قسم کے وسائل درکار ہونگے، انہیں برداشت کرنا بھی نئے سرچ انجن کے لئے ممکن نہیں ہوگا۔

الباز گوگل ٹرانسلیٹر کا حوالہ بھی دیتے ہیں جسے انٹرنیٹ پر مختلف زبانوں میں موجود متن (Text) کے ذریعے تربیت دی گئی ہے۔ ان کے مطابق گوگل ٹرانسلیٹر صرف اسی لئے ممکن ہوسکا کیونکہ گوگل کے پاس تمام ویب پیجز کا ڈیٹا محفوظ ہے۔

وہ مزید کہتے ہیں کہ انہوں نے دیکھا کہ آج سے پانچ سال پہلے محققین جن کے پاس ویب کے ڈیٹا کو استعمال کرنے کے نئے منصوبے تھے، کے پاس سوائے گوگل میں نوکری کرنے اور وہاں اپنے آئیڈیاز کو عملی جامع پہنانے کے سوا کوئی چارہ نہیں تھا۔ کیونکہ گوگل ہی ایک واحد جگہ تھی جہاں انہیں درکار ڈیٹا موجود تھا۔ کامن کروالر کا منصوبہ اسی لئے شروع کیا گیا تاکہ ریسرچرز کو اپنے نئے آئیڈیا جانچنے اور ان پر کام کرنے کے لئے پورے ویب کا ڈیٹا بہ آسانی دستیاب ہوسکے۔ درس گاہ میں درس و تدریس سے وابستہ محقق بھی اس ڈیٹا سے فائدہ اٹھا کر نت نئے کام کرسکیں گے۔

الباز بذات خود Factual نامی کمپنی کے چیف ایگزیکٹیو آفیسر ہیں اور اس سے پہلے انہوں نے ایک کمپنی شروع کی تھی جسے گوگل نے خرید لیا تھا۔ کامن کراول کے مشاورتی بورڈ میں گوگل کے ڈائریکٹر ریسرچ پیٹر نوروگ اور ایم آئی ٹی میڈیا لیب کے ڈائریکٹر جوئی اٹو شامل ہیں۔

کامن کراول اب تک 5ارب ویب پیجز کو جمع کرچکا ہے جن کا مجموعی سائز 81 ٹیرا بائٹس ہے۔ اس ڈیٹا تک رسائی ایمازون کی کلائوڈ کمپیوٹنگ سروس کے ذریعے حاصل کی جاسکتی ہے۔ اصل انٹرنیٹ 5ارب ویب پیجز سے بہت بڑا ہے اس لئے کامن کراول مزید ڈیٹا بھی جمع کرتا رہے گا۔

کامن کراول فی الوقت صرف ہر کسی کو دستیاب ویب پیجز کا ڈیٹا ہی جمع کرسکتا ہے۔ سوشل میڈیا جیسے فیس بک یا لنکڈ ان وغیرہ کے ڈیٹا تک رسائی اس کے لئے ممکن نہیں۔ گوگل کو اس سلسلے میں کسی پریشانی کا سامنا نہیں۔ یہی وجہ ہے کہ جب آپ گوگل پر کسی شخص کو سرچ کرتے ہیں تو اس کی فیس بک ، ٹوئٹر یا لنکڈ ان پروفائل بھی نتائج میں شامل ہوسکتی ہے۔

سوشل میڈیا ویب سائٹس اپنے صارفین کے ڈیٹا کے بارے میں بہت حساس ہیں۔ لہٰذا کامن کراول کے لئے ضروری ہوگا کہ وہ ان ویب سائٹس سے کوئی معاہدہ کرے تاکہ ان کا ڈیٹا جو کہ اب بہت اہم معلومات پر مبنی ہوتا ہے، تک بھی رسائی حاصل کی جاسکے۔

common crawlcrawlergoogleسرچ انجنزکراولگوگل