Big data چیست؟

امیرحسین بیگدلو 3 ماه قبل

کلان داده اقیانوس اطلاعاتی است که ما روزانه در آن شنا می کنیم - زتابایت های عظیم داده ها از رایانه ها، دستگاه های تلفن همراه و حسگرهای دستگاه ما سرچشمه می گیرد. این داده ها توسط سازمان ها برای تصمیم گیری، بهبود فرایندها و سیاست ها و ایجاد محصولات، خدمات و تجربیات مشتری محور استفاده می شود. کلان داده نه تنها به دلیل حجم آن بلکه به دلیل تنوع و پیچیدگی ماهیت آن به عنوان "بزرگ" تعریف می شود. به طور معمول، از ظرفیت پایگاه داده های سنتی برای ضبط، مدیریت و پردازش آن فراتر می رود. و، داده های بزرگ می توانند از هر نقطه یا هر چیزی روی زمین که ما می توانیم به صورت دیجیتالی آنها را زیر نظر بگیریم، بیایند. ماهواره های آب و هوا، دستگاه های اینترنت اشیا (IoT)، دوربین های ترافیکی، روندهای رسانه های اجتماعی - اینها تنها تعدادی از منابع داده ای هستند که برای مقاوم سازی و رقابت بیشتر مشاغل استخراج و تجزیه و تحلیل می شوند.

 

مقاله پیشنهادی: مهندسی داده چیست؟

 

 #  اهمیت تجزیه و تحلیل داده های بزرگ

ارزش واقعی کلان داده با درجه ای که شما قادر به تجزیه و تحلیل و درک آن هستید اندازه گیری می شود. هوش مصنوعی (AI)، یادگیری ماشینی و فناوری های پایگاه داده مدرن به تجسم و تجزیه و تحلیل داده های بزرگ اجازه می دهد تا بینش های کاربردی را در زمان واقعی ارائه دهد. تجزیه و تحلیل داده های بزرگ به شرکت ها کمک می کند تا داده های خود را به کار گیرند - برای درک فرصت های جدید و ایجاد مدل های تجاری. همانطور که جفری مور، نویسنده و تحلیلگر مدیریت، به درستی اظهار داشت: "بدون تجزیه و تحلیل داده های بزرگ، شرکت ها کور و ناشنوا هستند و مانند گوزن ها در یک آزادراه در وب سرگردان هستند."

 

 

 #  تکامل بیگ دیتا

همانطور که امروز غیرقابل تصور به نظر می رسد، کامپیوتر هدایت آپولو اولین سفینه فضایی را با کمتر از 80 کیلوبایت حافظه به ماه برد. از آن زمان، فناوری رایانه با سرعت نمایی - و تولید داده ها همراه با آن - رشد کرده است. در حقیقت، از دهه 1980 هر سه سال یکبار ظرفیت فناوری ذخیره اطلاعات در جهان دو برابر شده است. درست بیش از 50 سال پیش که آپولو 11 متوقف شد، که در آن زمان حجم داده های دیجیتالی تولید شده در کل جهان می تواند بر روی یک لپ تاپ متوسط ذخیره شود. امروزه IDC این تعداد را 44 زتابایت (یا 44 تریلیون گیگابایت) تخمین زده و پیش بینی می کند که تا سال 2025 به 163 زتابایت افزایش یابد.

 

با پیشرفت نرم افزاری و فناوری، سیستم های غیر دیجیتالی کمتر قابل مقایسه هستند. داده های تولید شده و جمع آوری شده به صورت دیجیتالی به سیستم های مدیریت داده پیشرفته تری برای رسیدگی به آن نیاز دارد. علاوه بر این، رشد چشمگیر بسترهای رسانه های اجتماعی، فناوری های تلفن های هوشمند و دستگاه های IoT متصل دیجیتالی به ایجاد عصر Big Data فعلی کمک کرده است.

 

ویدیو پیشنهادی: ویدیو json چیست؟

 

 #  انواع بیگ دیتا

مجموعه داده ها به طور معمول بر اساس ساختار و نحوه نمایه سازی (یا غیر) ساده به سه نوع طبقه بندی می شوند.

انواع کلان داده

 

1. Structured data: این نوع داده ها ساده ترین نوع برای سازماندهی و جستجو هستند. این می تواند شامل مواردی مانند داده های مالی، گزارشات دستگاه و جزئیات جمعیتی باشد. صفحه گسترده Excel، با طرح ستون ها و سطرهای از پیش تعریف شده، راه خوبی برای تجسم داده های ساختار یافته است. اجزای آن به راحتی طبقه بندی می شوند و به طراحان پایگاه داده و مدیران اجازه می دهد الگوریتم های ساده ای را برای جستجو و تجزیه و تحلیل تعریف کنند. حتی وقتی داده های ساختار یافته در حجم عظیمی وجود داشته باشد، لزوماً به عنوان داده بزرگ شناخته نمی شود زیرا مدیریت داده های ساختار یافته به تنهایی نسبتاً ساده است و بنابراین معیارهای تعیین کننده داده های بزرگ را برآورده نمی کند. به طور سنتی ، پایگاه های داده از یک زبان برنامه نویسی به نام Structured Query Language (SQL) برای مدیریت داده های ساختار یافته استفاده می کنند. SQL توسط IBM در دهه 1970 توسعه داده شد تا به توسعه دهندگان امکان ایجاد و مدیریت پایگاه های داده رابطه ای (سبک صفحه گسترده) را بدهد که در آن زمان شروع به کار کردند.

 

2. Unstructured data: این دسته از داده ها می تواند شامل مواردی مانند پست های رسانه های اجتماعی، فایل های صوتی، تصاویر و نظرات باز مشتریان باشد. این نوع داده ها را نمی توان به آسانی در پایگاه های داده رابطه ای استاندارد ستون-ردیف ضبط کرد. به طور سنتی، شرکت هایی که می خواستند حجم زیادی از داده های بدون ساختار را جستجو ، مدیریت یا تجزیه و تحلیل کنند ، مجبور بودند از فرایندهای دستی پر زحمت استفاده کنند. در مورد ارزش بالقوه تجزیه و تحلیل و درک چنین داده هایی هرگز سوالی مطرح نشده است ، اما هزینه انجام این کار اغلب بسیار گزاف است تا ارزش آن را داشته باشد. با توجه به زمان صرف شده ، نتایج اغلب قبل از تحویل منسوخ شده بودند. به جای صفحات گسترده یا پایگاه های داده رابطه ای ، داده های بدون ساختار معمولاً در دریاچه های داده ، انبارهای داده و پایگاه های داده NoSQL ذخیره می شوند.

 

3. Semi-structured data: همانطور که به نظر می رسد ، داده های نیمه ساختار یافته ترکیبی از داده های ساختار یافته و بدون ساختار است. ایمیل ها مثال خوبی هستند زیرا شامل داده های بدون ساختار در بدنه پیام و همچنین ویژگی های سازمانی بیشتر مانند فرستنده ، گیرنده ، موضوع و تاریخ هستند. دستگاه هایی که از برچسب گذاری جغرافیایی ، تمبر زمانی یا برچسب های معنایی استفاده می کنند نیز می توانند داده های ساختار یافته را در کنار محتوای بدون ساختار ارائه دهند. به عنوان مثال ، یک تصویر تلفن هوشمند ناشناس هنوز می تواند به شما بگوید که این یک عکس سلفی است و زمان و مکانی که در آن گرفته شده است. یک پایگاه داده مدرن که از فناوری هوش مصنوعی استفاده می کند نه تنها می تواند انواع مختلف داده را فوراً شناسایی کند ، بلکه می تواند الگوریتم هایی را در زمان واقعی برای مدیریت و تجزیه و تحلیل موثر مجموعه داده های مختلف درگیر ایجاد کند.

 

مقاله پیشنهادی: VPN چیست؟

 

 #  منبع کلان داده

طیف وسیعی از موارد تولیدکننده داده با سرعت فوق العاده ای در حال افزایش است-از ماهواره های بدون سرنشین گرفته تا توسترها. اما به منظور دسته بندی ، منابع داده به طور کلی به سه نوع تقسیم می شوند:

 

1. Social data: همانطور که به نظر می رسد ، داده های اجتماعی توسط نظرات ، پست ها ، تصاویر و به طور فزاینده ویدئوهای رسانه های اجتماعی تولید می شود. و با افزایش فراگیر جهانی شبکه های تلفن همراه 4G و 5G ، تخمین زده می شود که تعداد افرادی در جهان که به طور منظم محتوای ویدیویی را در تلفن های هوشمند خود مشاهده می کنند تا سال 2023 به 2.72 میلیارد نفر برسد. تغییر سریع و غیرقابل پیش بینی ، آنچه که تغییر نمی کند رشد مداوم آن به عنوان مولد داده های دیجیتالی است.

 

2. Machine data: دستگاهها و ماشینهای اینترنت اشیا مجهز به سنسور هستند و قابلیت ارسال و دریافت داده های دیجیتالی را دارند. حسگرهای اینترنت اشیا به شرکت ها کمک می کنند تا داده های دستگاه دستگاه ها ، وسایل نقلیه و تجهیزات را در سراسر تجارت جمع آوری و پردازش کنند. در سطح جهان ، تعداد موارد تولید کننده داده به سرعت در حال افزایش است-از آب و هوا و حسگرهای ترافیک گرفته تا نظارت امنیتی. IDC تخمین می زند که تا سال 2025 بیش از 40 میلیارد دستگاه اینترنت اشیا روی زمین وجود خواهد داشت که تقریبا نیمی از کل داده های دیجیتالی جهان را تولید می کند.

 

3. Transactional data: این برخی از سریع ترین داده های متحرک و در حال رشد جهان است. به عنوان مثال، یک خرده فروش بزرگ بین المللی شناخته شده است که بیش از یک میلیون تراکنش مشتری را در هر ساعت پردازش می کند. و وقتی همه معاملات خرید و بانکی جهان را اضافه می کنید ، تصویری از حجم سرسام آور داده های تولید شده دریافت می کنید. علاوه بر این ، داده های معاملاتی به طور فزاینده ای از داده های نیمه ساختار یافته ، از جمله مواردی مانند تصاویر و نظرات تشکیل شده است ، که مدیریت و پردازش آن را پیچیده تر می کند.

 

ویدیو پیشنهادی: ویدیو آموزش زبان Markdown

 

 #  پنج V در کلان داده

فقط به این دلیل که یک حجم مجموعه داده بزرگ است، لزوماً big data نیست. برای واجد شرایط بودن، داده ها باید حداقل دارای پنج ویژگی زیر باشند:

ویژگی‌های کلان داده

 

1. Volume: در حالی که حجم به هیچ وجه تنها مولفه ای نیست که Big Data را "بزرگ" می کند، مطمئناً یک ویژگی اصلی است. برای مدیریت و استفاده کامل از داده های بزرگ ، الگوریتم های پیشرفته و تجزیه و تحلیل های مبتنی بر هوش مصنوعی مورد نیاز است. اما قبل از هرگونه رخداد ، باید وسیله ای مطمئن و قابل اعتماد برای ذخیره ، سازماندهی و بازیابی تعداد زیادی ترابایت داده در اختیار شرکت های بزرگ وجود داشته باشد.

 

2. Velocity: در گذشته ، هرگونه داده ای که تولید می شد باید بعداً در یک سیستم پایگاه داده سنتی - اغلب به صورت دستی - قبل از تجزیه و تحلیل یا بازیابی وارد میشد. امروزه، فناوری داده های بزرگ به پایگاه داده ها اجازه می دهد تا داده ها را در حین تولید - پردازش ، تجزیه و تحلیل و پیکربندی کنند - گاهی اوقات در عرض میلی ثانیه. برای مشاغل ، این بدان معناست که می توان از داده های زمان واقعی برای جذب فرصت های مالی ، پاسخ به نیازهای مشتری ، جلوگیری از تقلب و رسیدگی به هرگونه فعالیت دیگر در مواردی که سرعت بسیار مهم است ، استفاده کرد.

 

3. Variety: مجموعه داده هایی که فقط از داده های ساختار یافته تشکیل شده اند، لزوماً داده های بزرگ نیستند، صرف نظر از حجم آنها. کلان داده به طور معمول شامل ترکیبی از داده های ساختار یافته ، بدون ساختار و نیمه ساختار یافته است. پایگاه های داده سنتی و راه حل های مدیریت داده فاقد انعطاف پذیری و محدوده برای مدیریت مجموعه داده های پیچیده و متفاوت هستند که داده های بزرگ را تشکیل می دهند.

 

4. Veracity: در حالی که فناوری مدرن پایگاه داده این امکان را برای شرکت ها فراهم می کند که حجم و انواع سرسام آور داده های بزرگ را جمع آوری و معنا کنند ، تنها در صورتی که دقیق ، مرتبط و به موقع باشد با ارزش است. برای پایگاه های داده سنتی که فقط دارای داده های ساختار یافته بودند ، خطاهای نحوی و غلط نگارشی مقصر اصلی در مورد صحت داده ها بودند. با داده های بدون ساختار ، مجموعه کاملاً جدیدی از چالش های صحت وجود دارد. سوگیری انسان ، سر و صدای اجتماعی و مسائل مربوط به منشاء داده ها همگی می توانند بر کیفیت داده ها تأثیر بگذارند.

 

5. Value: بدون تردید ، نتایج حاصل از تجزیه و تحلیل داده های بزرگ اغلب جذاب و غیر منتظره است. اما برای مشاغل ، تجزیه و تحلیل داده های بزرگ باید بینش هایی ارائه دهد که می تواند به کسب و کارها کمک کند تا رقابتی تر و مقاوم تر شوند - و خدمات بهتری به مشتریان خود ارائه دهند. فناوری های مدرن داده های بزرگ ظرفیت جمع آوری و بازیابی داده ها را فراهم می کند که می تواند منافع قابل اندازه گیری را برای خطوط اصلی و انعطاف پذیری عملیاتی فراهم کند.

 

دوره پیشنهادی: دوره آموزش زبان SQL

 

 #  کلان داده چطور کار میکند؟

کلان داده زمانی کار می کند که تجزیه و تحلیل آن بینش های مرتبط و کاربردی را ارائه دهد که به طور قابل ملاحظه ای تجارت را بهبود می بخشد. در آماده سازی برای تغییر داده های بزرگ ، مشاغل باید اطمینان حاصل کنند که سیستم ها و فرایندهای آنها به اندازه کافی آماده جمع آوری ، ذخیره و تجزیه و تحلیل کلان داده ها هستند.

کلان داده چطور کار میکند

 

1. Gather Big Data: بسیاری از داده های بزرگ شامل مجموعه عظیمی از داده های بدون ساختار است که از منابع مختلف و ناسازگار سرازیر می شوند. پایگاه داده های سنتی مبتنی بر دیسک و مکانیزم های یکپارچه سازی داده ها به سادگی با وظیفه مدیریت این امر برابر نیستند. مدیریت کلان داده مستلزم اتخاذ راه حل های پایگاه داده در حافظه و راه حل های نرم افزاری خاص برای جمع آوری داده های بزرگ است.

 

2. Store Big Data:  کلان داده، حجیم است. بسیاری از مشاغل راه حل های ذخیره سازی اولیه برای داده های موجود خود دارند و امیدوارند با تغییر مکان این مخازن برای برآوردن نیازهای پردازش داده های بزرگ خود به صرفه باشند. با این حال ، Big Data زمانی بهترین کار را می کند که از نظر اندازه و محدودیت حافظه محدودیتی نداشته باشد. مشاغلی که از ابتدا راه حل های ذخیره سازی ابری را در مدل های بزرگ خود وارد نمی کنند ، اغلب چند ماه پیش از این پشیمان می شوند.

 

3. Analyze Big Data: بدون استفاده از فن آوری های هوش مصنوعی و یادگیری ماشینی در تجزیه و تحلیل داده های بزرگ ، درک کامل پتانسیل آن به سادگی امکان پذیر نیست. یکی از پنج V بزرگ داده ها "سرعت" است. برای اینکه بینش داده های بزرگ قابل اجرا و ارزشمند باشد ، باید سریع به دست آید. فرآیندهای تجزیه و تحلیل باید بهینه سازی شوند و بتوانند به طور منظم از تجربه درس بگیرند-نتیجه ای که تنها با قابلیت های هوش مصنوعی و فناوری های پایگاه داده مدرن به دست می آید.

 

دوره پیشنهادی: ‌دوره آموزش گیت(git)

 

 #  موارد استفاده کلان داده

بینش و یادگیری عمیق ارائه شده توسط Big Data می تواند تقریباً برای هر کسب و کار یا صنعتی مفید باشد. با این حال ، سازمانهای بزرگ با وظایف پیچیده عملیاتی اغلب قادرند از کلان داده به طور معنی داری استفاده کنند.

 

 +  Finance

در مجله داده های بزرگ، یک مطالعه 2020 نشان می دهد که داده های بزرگ "نقش مهمی در تغییر بخش خدمات مالی ، به ویژه در تجارت و سرمایه گذاری ، اصلاح مالیات ، کشف و تحقیق تقلب ، تجزیه و تحلیل ریسک و اتوماسیون دارد." Big Data همچنین با تجزیه و تحلیل داده ها و بازخورد مشتریان ، به تغییر صنعت مالی کمک کرده است تا بینش های ارزشمندی را که برای بهبود رضایت و تجربه مشتری لازم است به دست آورید. مجموعه داده های تراکنش یکی از سریع ترین و بزرگترین مجموعه های جهان است. اتخاذ روزافزون راه حل های پیشرفته مدیریت کلان داده به بانک ها و موسسات مالی کمک می کند تا از این داده ها محافظت کرده و از آنها به نحوی که هم برای مشتری و هم برای کسب و کار سودمند و محافظت می کند استفاده کنند.

 

 

 +  Healthcare

تجزیه و تحلیل داده های بزرگ به متخصصان مراقبت های بهداشتی اجازه می دهد تا تشخیصهای دقیق تر و مبتنی بر شواهد را انجام دهند. علاوه بر این ، داده های بزرگ به مدیران بیمارستان ها کمک می کند تا روندها را تشخیص دهند ، خطرات را مدیریت کرده و هزینه های غیر ضروری را به حداقل برسانند - بالاترین بودجه ممکن را به حوزه های مراقبت و تحقیقات بیمار هدایت می کند. در بحبوحه همه گیری همه گیر ، دانشمندان تحقیقاتی در سراسر جهان به دنبال راه های بهتری برای درمان و مدیریت COVID-19 هستند-و Big Data نقش عظیمی در این روند دارد. مقاله ای در ژوئیه 2020 در The Scientist توضیح می دهد که چگونه تیم های پزشکی قادر به همکاری و تجزیه و تحلیل داده های بزرگ برای کمک به مبارزه با ویروس کرونا بودند: "ما ممکن است شیوه انجام علم بالینی را تغییر دهیم ، از ابزارها و منابع Big Data و علم داده به شیوه هایی استفاده کنیم. امکان پذیر نیست. ”

 

 

 +  Transportation and Logistics

جلوه آمازون اصطلاحی است که نشان می دهد چگونه آمازون برای انتظارات تحویل روز بعد ، جایی که مشتریان در حال حاضر از آن نوع سرعت حمل و نقل برای هر چیزی که به صورت آنلاین سفارش می دهند ، استفاده کرده است. مجله کارآفرین خاطرنشان می کند که در نتیجه مستقیم اثر آمازون ، "مسابقه تدارکات" آخرین مایل "رقابتی تر خواهد شد." شرکت های لجستیک به طور فزاینده ای به تجزیه و تحلیل داده های بزرگ تکیه می کنند تا برنامه ریزی مسیر ، تجمیع بار و اقدامات مربوط به مصرف سوخت را بهینه کنند.

 

 

 +  Education

در طول بیماری همه گیر، موسسات آموزشی در سراسر جهان مجبور بودند برنامه های درسی و روشهای آموزشی خود را برای حمایت از آموزش از راه دور ابداع کنند. یک چالش عمده برای این فرایند یافتن راههای قابل اعتماد برای تجزیه و تحلیل و ارزیابی عملکرد دانش آموزان و اثربخشی کلی روشهای تدریس آنلاین است. مقاله ای در سال 2020 در مورد تأثیر کلان داده بر آموزش و یادگیری آنلاین ، نظری درباره معلمان ایجاد می کند: "داده های بزرگ به آنها اعتماد به نفس بیشتری در شخصی سازی آموزش ، توسعه یادگیری ترکیبی ، تغییر سیستم های ارزیابی و ترویج یادگیری مادام العمر می دهد."

 

 

 +  Energy and Utilities

بر اساس آمار اداره کار ایالات متحده ، شرکت های خدمات رسانی بیش از 1.4 میلیارد دلار برای دستگاه های اندازه گیری کنتور هزینه می کنند و معمولاً به مترهای آنالوگ و قرائت دستی نادر متکی هستند. دستگاه های اندازه گیری هوشمند داده های دیجیتال را بارها در روز ارائه می دهند و با بهره گیری از تجزیه و تحلیل داده های بزرگ ، این دستگاه می تواند مصرف انرژی کارآمدتر و قیمت گذاری و پیش بینی دقیق تری را اطلاع رسانی کند. علاوه بر این ، هنگامی که کارگران میدانی از قرائت متر رهایی می یابند ، ضبط و تجزیه و تحلیل داده ها می تواند به سرعت در انتقال مجدد آنها به جایی که به تعمیرات و ارتقاء فوری نیاز دارند ، کمک کند.

مطالب مشابه



مونگارد