how to add a hit counter to a website
كتابات منوعات

البيانات الضخمة ومستقبلها الواعد…ماذا تعرف عنها !

صقر المنصوب|باحث في علوم الحاسوب

كوننا نعيش في عصر المعلومات، معظم ما نقوم به يتأثر بشكلٍ كبير بقدرتنا على الوصول إلى كميات هائلة من البيانات سواء أكان ذلك عبر الإنترنت، أم حواسيبنا، أم هواتفنا المحمولة. والكلمة الطنانة التي تصف هذا الكمّ من المعلومات هي البيانات الضخمة (Big Data) فماذا نعني بذلك  وما الفرق بين البيانات الضخمة والبيانات العادية!

ينتج العالم من حولنا حالياً أكثر من 1.7 ترليون بايت من البيانات في الدقيقة الواحدة، منها ما تقوم بعض مراكز البيانات بتخزينه وتحليله، ومنها ما يتم مسحه لعدم أهميته. وبحسب شركة  إنتل، فإن حجم البيانات التي أنتجها العالم منذ بداية عصر الإنترنت وحتى عام 2003م يقدر بأكثر من 5 إكسابايت (الإكسابايت تعادل البليون جيجابايت)، وتضاعف هذا الرقم أكثر من 500 مرة خلال عام 2012م، ليصل إلى 2.7 زيتابايت (الزيتابايت يعادل الألف بليون جيجابايت)، ويتوقع أن يتضاعف هذا الرقم خمس مرات بنهاية عام 2018م .

لذلك فمصطلح البيانات قد يٌعرف بطرق محتلفة , فمإمكاننا القول ان البيانات ” Data “ هي  عبارة عن المادة الخام لمجموعة من المعلومات قبل إجراء عملية الفرز أو الترتيب والمعالجة عليها، حيث أنة لا يمكن الاستفادة منها في صورتها الأولي قبل هذه العمليات.
اما البيانات الضخمة فبحسب تعريف معهد ماكنزي العالمى عام 2011، فأنها عباره عن مجموعة من البيانات التي لا تسطيع اي اداوت لقواعد البيانات التعامل معها سواء تخزين او إلتقاط او إداره او تحليل .واذا كان هناك شرح اوضح لهذا التعريف، فإن البيانات الضخمة او Big Data مقسمه لجزئين:
هناك 10% فقط من البيانات تم تنظيمها وتحليلها وتخزينها في قواعد البيانات حول العالم.
بينما يوجد مايقرب من 90% من البيانات عباره عن معلومات وصور وفيديوهات ورسائل إيميل وتغريدات ومنشورات علي الفيسبوك،كل هذه المعلومات غير محدده او تم حصرها وتحليلها.وبسبب هذا الحجم الهائل من البيانات المستحدثة، بدأ مصطلح «البيانات الضخمة» بالانتشار، وزاد حجمها بحيث إنه من الصعب معالجتها الآن باستخدام برنامج واحد أو جهاز مستقل، أو باستخدام تطبيقات معالجة البيانات التقليدية. وهنا بدأت شركات التقنية بتطوير برامج مساعدة وعتاد جديد يمكن من خلاله المساعدة في تحليل تلك البيانات الضخمة. اما موقع «فايسبوك» فيعالج 50 مليار صورة مرفوعة من قبل مستخدميه. كما أن لدى برنامج المحادثات الفورية «واتس آب» أكثر من 450 مليون مستخدم، يتداولون أكثر من 10 مليارات رسالة و400 مليون صورة يومياً، وفي 31 ديسمبر 2013م، وصل عدد الرسائل عبر الواتس آب إلى 18 مليار رسالة في يوم واحد ويقدر الخبراء أنه بحلول العام 2020م ستحتوي الإنترنت على ما يقرب من 40,000 زيتابايت من البيانات الجاهزة للتحليل واستخلاص المعلومات.

حيث حددت الحكومة البريطانية البيانات الضخمة بوصفها “واحدة من ثمان تقنيات مستقبلية عظيمة”  ولذلك فما هو التحدي الذي تطرحه البيانات الضخمة؟ وكيف يُمكننا مواجهته؟

من أين أتت البيانات الضخمة؟

ربما يكون المصدر الرئيسي للبيانات الضخمة حالياً هو الإنترنت، ووفقاً لتقدير حديث، فإنّ حوالي ( زيتا بايت zettabyte) من المعلومات تُضاف إلى الإنترنت كل عام، ويكون معظمها على شكل محتوى غرافيكي. حيث تتجاوز تغطية الإنترنت في المملكة المتحدة 80%، ولكنها لا يتجاوز 20% في بعض الدول.

إنّ المصدر الرئيسي لهذه البيانات، الذي يستمر في النمو، هو المحتوى الموجود على مواقع التواصل الاجتماعي. فعلى سبيل المثال لدى موقع فيس بوك  الذي انطلق في العام 2004 حوالي 2 مليار مستخدم مسجّل (ما يُعادل ربع عدد سكان العالم)، منهم 1.5 مليار مستخدم نشط.

ويوميًا يُضاف إلى هذا الموقع حوالي 2.5 مليار محتوى (أي ما يُعادل 500 تيرابايت من المعلومات)، معظمها يُخزّن على شكل صور.ويُقدر أنّ محرك البحث غوغل يُجري عمليات البحث عن المعلومات الموجودة في 15 إكسابايت من البيانات، ويُقوم بتلك المهمة بالاعتماد على خوارزمية رياضية ذكية.

للبيانات الضخمة مصدرٌ آخر وهو الهواتف المحمولة والذكية، فاليوم يتجاوز عدد من الهواتف المحمولة في العالم عدد سكانه. الأهم أن معظم تلك البيانات ليست مهيكلة، كتغريدات تويتر والفيديوهات على يوتيوب وتحديثات الحالة على فيس بوك وغيرها، ما يعني أنه لا يمكن إستخدام أدوات إدارة قواعد البيانات وتحليلها التقليدية مع هذه البيانات لأنها ببساطة ليست وفق الهيكل الذي تتعامل معه كجداول.

لكن هل تستحق البيانات الضخمة عناء الإهتمام بها؟ لما لا نتجاهلها وحسب؟

تشير الدراسات من غارتنر أن هناك حوالي 15% فقط من الشركات التي تستفيد بشكل جيد من البيانات الضخمة، لكن هذه الشركات حققت فعالية 20% أكثر في المؤشرات المالية. حتى تصل لهذه النتيجة التي لا يحققها منافسيك، عليك إستخدام تقنيات ومفاهيم جديدة إبداعية مخصصة للتعامل مع البيانات الضخمة. لأن الأمر أشبه بجبل شاهق من البيانات ستقوم بغربلته لتحصل على صخرة ذهبية وزنها كيلوغرام واحد.

تنقسم هذه البيانات لثلاثة انواع :

١- بيانات هيكلية : وهي بيانات تم تنظيمها في جدول أو قاعدة بيانات
٢- البيانات غير هيكلية : وهي النسبة الأكبر من البيانات، بمعنى أدق هي البيانات التي ينتجها الناس يوميا من نصوص وصور وفيديو و نقرات على المواقع الإلكترونية
٣- بيانات شبه هيكلية : تعد نوع من البيانات المهيكلة ولكنها ليست في جداول أو قواعد بيانات.
تصنيف البيانات الضخمة :

البيانات الضخمة لا يتم تصنيفها وفقا للحجم فقط كما يعتقد الكثير، فهي تصنف وفقا لما يسمي 3V’s والذي يتكون من :
– حجم Volume
وهو حجم البيانات المستخرج من مصدر ما وهو أكبر الصفات أهمية في عملية التحليل
كما أن وصفها ب ” ضخمة ” لا يحدد كمية بعينها
فمن المتوقع أنه في 2020 سيكون هناك ما يقرب من 40.000 ميتابايت من البيانات الجاهزة لعملية التحليل واستنتاج المعلومات
– التنوع Variety
والقصد هنا هو تنوع البيانات التي تم استخراجها، والتي تساعد الباحثين والمحللين على اختيار البيانات المناسبة لطبيعة البحث
وتحتوي على بيانات هيكلية وقواعد بيانات وبيانات غير هيكلية أي غير ممنهجة من صور وفيديوهات ونصوص وسجلات مكالمات وخرائط
ولكنها تطلب وقت ومجهود كبير للعمل عليها
السرعة Velocity :

وهي السرعة في إنتاج البيانات لتغطية الطلب عليها حيث أن السرعة من أهم العناصر أتخاذ القرارت نسبة لهذه البيانات وهو الوقت ما بين وصول البيانات ولحظة الخروج بالقرار بناء علية.

إضافة تعليق

إضغط هنا لإضافة تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *