مع انتشار مصطلح البيانات الضخمة أو الـ Big Data وتوسع استخدامه، هنالك خلط عند البعض من الهواة أو الطلاب بين البيانات والمعلومات والمعرفة، والبيانات الضخمة!
وبما أن تخصص البيانات الضخمة Big Data بات أكثر تداولاً هذه الأيام وهدفاً للعديد من المتخصصين! ستجد في هذا الموضوع مدخلاً نحو بعض المفاهيم وتعريفاً لبعض المصطلحات المتعلقة بالبيانات الضخمة التي يجب فهمها جيداً قبل الخوض في بحر الـ Big Data.
البيانات، المعلومات والمعرفة:
ماهي البيانات، وماهي المعلومات، وما هي المعرفة وما الفرق بينهما؟
البيانات هي صفات تصف شيء أو حدث معين بالأرقام أو الكلمات أو الرموز بحيث تكون مجمعة عبر برنامج أو من خلال نماذج ورقية او الكترونية تقوم بتعبئتها بطرق مختلفة… وكأبسط مثال على البيانات أن يكون لديك بيانات عملاء الشركة أو بيانات سجل زيارات المرضى في المستشفى، سجل حضور وانصراف الموظفين، أو تغريدات شخص ما على تويتر…. هذه كلها بيانات! عادة تكون مخزنة في سياق معين وحجمها بالعادة يتضخم بسرعة مع مرور الوقت.
وجود البيانات بهذا الشكل لن يكون له فائدة تُذكر سوى أن لديك أرشيف ضخم يمكنك استرجاعه لاحقاً لكن لا يمكن أن تبني عليه أي قرار أو تقرأ من خلالها أي مؤشرات!
لكي تستفيد من هذه البيانات، لا بد من تحويلها الى المعلومات …
ما هي المعلومات:
في حال تم دراسة هذه البيانات وتحليلها ووضع علاقات منطقية بين جداول هذه البيانات (Table relationship) فستحصل وقتها على المعلومات، وبالتالي نجد هنا أن البيانات هي المادة الخام للمعلومات! كيف؟
لنفرض مثلا ان لديك جدول بيانات يحتوي على البيانات الأساسية للمرضى (رقم المريض، اسمه، جنسه، وتاريخ ميلاده، وعنوان سكنه ومعلومات الاتصال وغيرها) وجدول بيانات آخر يحتوي على سجل الزيارات المرضى (رقم المريض، تاريخ زيارته، الأعراض التي يعاني منها، تشخيص الطبيب للحالة، اسم الطبيب المعالج، الأدوية المصروفة.. الخ)
الى هنا كل ما ذكر هو عبارة عن بيانات موزعة في جداول ….
بتأمل بسيط لجداول البيانات هذه، وبعد ربط الجدولين (جدول البيانات المريض+ جدول سجل زيارات المريض) وأجريت عليها بعض الإحصائيات ستتمكن من الحصول على المعلومات التالية:
- عدد ونسبة الحالات المرضية التي استقبلتها المستشفى خلال فترة زمنية
- أكثر الأمراض انتشاراً بحسب:
- بحسب الفترة الزمنية
- بحسب الفئة العمرية
- بحسب المناطق الجغرافية
- بحسب الجنس
- علاقة الأعراض بالأمراض
- أكثر الأدوية استهلاكاً وفعاليةً لعلاج كل مرض
- أكثر الأطباء كفاءة
- أكثر الأطباء الذين يتم زيارتهم
- وغير ذلك الكثير ….
البنود السبعة أعلاه هي ما تسمى معلومات، يمكنك كباحث أو كطبيب اتخاذ قراراتك بناءً على هذه المعلومات، بينما لو بقيت جداول البيانات كما هي فلن تتمكن من اتخاذ أي قرار بناءً على تلك البيانات.
المعرفة:
تتكون المعرفة عبر الاستخدام الأمثل المعلومات بدمجها مع الخبرات المتراكمة عند القارئ لهذه المعلومات، فالمعلومات هي أدوات تكون مساندة لصاحب القرار في اتخاذ قراته في قيادة منظمته، لكن تبقى الخبرة مدخل مهم لمعرفة الكيفية في استخدام هذه المعلومات وتحويلها الى معرفة يمكن نقلها لاحقاً وتوثيقها ونشرها وفق سياسات معينة.
مما سبق نجد أن البيانات هي مدخل رئيسي ومهم جداً لصحة المعلومات والمعرفة التي يتم بناؤها اعتماداً على هذه البيانات.
عودة الى البيانات الضخمة….ما هي البيانات الضخمة؟
نحن نتعامل يومياً مع كم هائل من البيانات، تخيل معي حجم البيانات التي تقرأها من مواقع التواصل الاجتماعي، من البريد الالكتروني، الأخبار، رسائل الجوال والواتس أب ، تخيل أيضا البيانات المُجمعة من أنظمة تتبع المواقع الجغرافية GPS ، وانترنت الأشياء IoT التي تجمع كميات هائلة من البيانات من الحساسات Sensors …. الخ.
هنالك إحصائية نشرها موقع فوربيس ميديل إيست تذكر أنه بحلول عام 2020 سيكون هنالك أكثر من 31 مليار جهاز متصل بالإنترنت (تخيل كمية المعلومات الناتجة من هذه الأجهزة)، وذكرت الإحصائية أيضاً أن حصة كل فرد من البيانات هي 1.7 ميجابايت في الثانية، وهنالك توقع أن تصل حجم البيانات على الشبكة 4.4 زيتابايت (يعني 440,000,000,000,00 مليار جيجا بايت ) !
هذه البيانات لا تكون في نفس السياق Context (بعضها نصوص، وبعضها صورـ وبعضها بجداول وبعضها بملفات …الخ) ولذا أصبح هنالك حاجة لإيجاد دليل آلية للتعامل مع كل هذه الأنواع من البيانات واستخلاص المعلومات بشكل شامل، وهذا هو مفهوم البيانات الضخمة.
الهدف الأساسي من التعامل مع هذه البيانات الضخمة هو دراسة الماضي والحاضر والتنبؤ بالمستقبل
هنالك تقنيات عديدة تساعد على تجميع هذا البيانات بشكلها الخام، منها بروتوكول MQTT وهو بروتوكول متخصص لرصد هذه البيانات ويستخدم في ارسال واستقبالها ، ويُعد بديلاً أسرع بكثير من البروتوكولات الأخرى كالـ HTTP مثلاً. الحوسبة السحابية مهم جدا في التعامل مع البيانات الضخمة، إذ إنه من الصعب والمكلف جداً تأمين بيئة محلية سريعة تعمل على الاستجابة لرصد الكم الهائل من البيانات المتدفقة .
من أهم السمات التي تتسم بها البيانات الضخمة أنها بيانات غير مهيكلة NoSQL بمعنى انها لا تفرض أي صيغة معينة لشكل البيانات ففي البيانات الضخمة تكون المصادر مختلفة وكل مصدر تكون البيانات بشكل مختلف أيضا البيانات الضخمة عادة تكون موزعة على أكثر من مكان على عكس البيانات العادية التي تكون بالعادة مخزنة في سيرفر واحد ، يم
كن التعامل مع كل تلك البيانات الموزعة وكأنها موجودة في مكان واحد وهذا هو مفهوم الـ Distributed Data Processing
من أهم التقنيات التي المستخدمة في تخزين البيانات الضخمة هي Document-based Database وأشهر تقنية منتشرة ومستخدمة حالياً هي الـ JSON (JavaScript Object Nation) ويمكن ترجمتها بأنها البيانات المعتمدة على المستندات (على عكس البيانات العادية SQL المعتمدة على الهياكل والجداول والعلاقات).
الكثير من أنظمة قواعد البيانات تلك مفتوحة المصدر، ومن أشهر قواعد البيانات الغير مهيكلة NoSQL:
عرض البيانات Data Visualization
طالما تُذكر البيانات، فلا بد من ذكر الأدوات التي تعرض البيانات بشكل يتناسب مع الاحتياج لدى المنظمة بطريقة تدعم صناع القرار بشكل مرئي و سهل وبسيط،
من أشهر التقنيات المستخدمة في عرض البيانات: