الهام عابدی بدون دیدگاه

اهمیت big data

 

همانند اتفاقاتی که تو جهان هستی میفته و تعجب همه ی ما رو بر می انگیزه، دنیای کامپیوتر و هر چی که به اون مربوط میشه به همون اندازه عجیب؛ زیبا و قابل تامله! این موضوع رو فقط یه گیک یا کسی که فاصله ی نزدیکی با گیک شدن داره درک میکنه!

یکی از این موضوعاتی که تو زمره ی این عجایب جا داره، داستان داده ها در فضای صفر و یک هست!

حالا شاید براتون جالب باشه که من یا شمای نوعی چه سهمی در تولید دیتاها خواهیم داشت. طبق آمارهای جهانی، روزانه 3   Quintillion  بایت تولید دیتا داریم. یعنی  بایت. عددی که از تصور و حتی توصیف مون خارجه!

اگه بخوایم به عقب برگردیم؛ مثلا سال 2005 که اوج شکوفایی اینترنت بود، تا الان که سال 2017 رو پشت سر گذاشتیم تعداد کاربران اینترنتی از 1024 میلیون به 3578 میلیون رسیده، جدا از کسانی که واسطه مند به نت متصلن. که طبق این، تولید دیتا ها نیز با سرعتی چند برابر روندی صعودی داشته به خصوص در سه سال اخیر.

طبق تصویر زیر، برگرفته از سایت اوراکل این روند صعودی ذخیره دیتا تا سال 2020 پیش بینی شده که آمار خیره کننده ای داره.

در واقع در حال حاضر که اینترنت به جزئی جدا ناپذیر تو زندگی ما تبدیل شده در هر ثانیه ای که میگذره کلی داده، چند برابر قبل در حال ذخیره شدنه! میشه داده رو گوله برفی تعبیر کرد که با غلتوندن اون روی حجم بسیاری برف، که اونو به دیتا سنتر جهانی تشبیه میکنم، هی بزرگ و بزرگتر بشه.

ممکنه به خودتون بگید که اصلا داده ها شامل چه چیزایی هست ؟! در یک جمله میگم که داده ها می تونه هر چیزی رو در بر بگیره یعنی هر چیزی که بهش فکر می کنید و حتی فکر نمی کنید! تمام فعالیت هایی که در فضای نت انجام می گیره از کلیک ها و لمس و ضربه به مانتیتور ها گرفته تا ارسال ها و دریافت ها و لحظه لحظه هایی که تو جایی از وب توقف داشتیم و هر چیزی که قابل ذخیره شدن هست.

شاید براتون جالب باشه که بدونید پر استفاده ترین دیتاهایی که سراسر جهان در حال ذخیره شدنه، برای هر کدوم به چه میزانه. جدول زیر بیانگر این مسئله هست.

 

پر استفاده ترین

داده های جهانی

توئیت ها

(twitte)

روزانه

فعالیت های

face book

دیتاهای

پردازش شده

در google

آپلود ویدئو

در you tube

در دقیقه

تعداد ایمیل

دریافتی در

ثانیه

داده های

کاربران از

وسایل هوشمند

خرید و فروش

در amazon

مصارف

خانگی

روزانه

مقادیر

یا درصد کل

50 میلیون 700 بیلیون 24 پتابایت 20 ساعت ویدئو 2.9 میلیون 1.3 اگزابایت 60 درصد داده های کل 375 مگابایت

 

حالا جنبه ی با حال تره قضیه استفاده های مستقیم و غیر مستقیم از این داده هاست. یا به تعبیری سوء استفاده ها. چیزی که سال های اخیر خیلی رو بورسه همین مسنجر های ارتباطی هست که دزدیدن داده در راس اهداف شکل گیریشون قرار گرفته. یا مثلا شبکه های اجتماعی که با هر حرکت و فعالیت ما می تونن به علاقه مندی هامون، دوستی هامون، رفتارمون، عکس و فیلم های ما، حقایق زندگی ما و به هر چیز قابل ذخیره شدن به عنوان اطلاعات؛ پی ببرن و در نهایت یا استفاده کنن یا استفاده نکنن. همه ی داده هایی که خودمون به مرور زمان ارسال کردیم و گستره ای از روابط و شباهت ها رو به وجود اوردیم. نه تنها ما بلکه افراد اطراف ما رو نیز تحلیل کنن. مثلا شما حتما یه سری جاها به گزینه های پیشنهادی برخورد کردین. این گزینه ها حاصل تحلیل داده های شماست. حاصل بررسی خصوصیات شماست و حاصل دیدن ارتباطاتتان با دیگر افراد.

اینجاست که جهان کامپیوتر مشهور ترین و یا شاید هم محبوب ترین جهان شناخته شده در میان قشرهاست. علی الخصوص اقشار سیاسی!

جنگ ها، پیروزی ها، توافقات و اساسنامه هایی که بر پایه دزدیدن داده ها صورت می گیره علت علاقه ی سیاسیون به دیتا های بزرگه! علاقه ای که تجارت و استارتاپ بزرگی پشت اون نهفته هست.

در مورد تجارت الکترونیکی و یا تبلیغات اینترنتی هم هر کلیک کاربر، می تونه علاقه مندی های اونو برای شرکت های خرید و فروش دیجیتالی مشخص کنه. که این باز می تونه کاربر رو با توجه به روحیات و علاقه مندی ها به سمت خرید و فروش محصولاتشون راهنمایی کنه. در واقع این سایت های خرید و فروش؛ دیتاسنتر های عظیمی هستن که سیل عظیمی از داده های ما رو در اختیار دارن. اگه توسط شبکه های معروف اجتماعی به عضویت اون در بیاید جای هیچ تردیدی درش نیست!

یا گروهی تو همین مسئله ی تجارت بتونن اخبار و اطلاعاتی از رکود دریافت کنن و با همین داده ها با احتیاط به خرید و فروش بپردازن و از ورشکستگی جلوگیری یا سود زیادی رو کسب کنن.

همچنین گروهی دیگه می تونن از روی سیگنالای وسایل دیجیتالی، تجمع افراد رو در یه مکان مشخص کنن که این باز خود نشون دهنده ی شلوغی اون مکان یا اگه بخوایم نگاه کاربردی به این قضیه داشته باشیم مکان پرطرفداری برای خرید، سرگرمی و … افراد خواهد بود.

همه ی این ها مواردی هستن که نشون دهنده ی اهمیت دیتاها خواهد بود. موضوعی که شاید کمتر به اون فکر کنیم در حالیکه چه هوشمندانه مورد استفاده قرار می گیره!

ZahraOmrani بدون دیدگاه

اهمیت Big Data

اگر در جستجوی گوگل big data term رو سرچ کنید در اولین نتیجه بعد از معنی کلمه جمله ای با این مفهوم  در گیومه نوشته شده است بیشتر سرمایه گذاری در حوزه آی تی صرف مدیریت و نگهداری از بیگ دیتا میشود و اما دلیل اهمیت بسیار زیاد این فیلد چیست ؟

بیگ دیتا به ما این قابلیت را میدهد تا جهان اطرافمان را بهتر درک کنیم و به شناخت جایگاه انسان در جهان بپردازیم. وقتی ما مقدارکلانی داده در اختیار داریم قادر به پیدا کردن الگوهایی در این دادها می باشیم که با مقدار کم آنها امکان پذیر نیست، با بیگ دیتا ما میتونیم بهتر، دقیق تر و متفاوت تر ببینیم در واقع تنها راهی که بشر میتواند به مقابله با چالش های جهانی مانند بهداشت تغذیه یا تامین انرژی بپردازد استفاده هوشمندانه از بیگ دیتا میباشد.

انسان  از همان ابتدای حضور روی زمین به جمع آوری داده ها علاقه داشته چه روی دیوار غارها و یا تکه های تراشیده شده سنگ ها اما در این روش داده ها غیر قابل تغییر و در بعضی مواقع غیر قابل حمل بوده و ظرفیت کمی برای نگهداری داشته و در واقع بلا استفاده بوده اند، در مقابل میدانیم در سال ۲۰۱۳ تمام اطلاعاتی که ادوارد اسنودن از اطلاعات مرکزی آمریکا فاش کرد روی یک فلش به انداره ناخن بوده جمع آوری این مقدار داده در این فضاها به ما قابلیت سرچ راحت تر کپی کردن به اشتراک گذاری را میدهد در واقع ما داده ها را از یک چیز همواره ساکن به چیزی شناور و درحال جریان تبدیل کرده ایم.

با تکنولوژی هایی از قبیل پردازش تصویر اینترنت اشیاء و …حتی مواردی که مفهوم داده و اطلاعات را نداشته اند هم به داده تبدیل شده اند یا برای مثال موقعیت جغرافیایی، همه ما میدانیم اگر تلفن همراه با جی پی اس یا بدون جی پی اس داشته باشید تمام اطلاعات اینکه چه زمانی در چه مکانی هستید در حال ثبت شدن میباشد در واقع  به داده تبدیل شده است.

یکی از کاربردهای مهم بیگ دیتا در یادگیری ماشین (شاخه ای از هوش مصنوعی) میباشد در واقع به جای اینکه به ماشین بگوییم که در شرایط مختلف چه کارهایی انجام دهد تعداد زیادی داده برایش فراهم میکنیم و میخواهیم با آنالیز کردن این داده ها الگوهایی مناسب برای مواجهه با شرایط مختلف به دست بیاورد.

برای مثال برای نوشتن یک بازی دوزِ سه در سه هوشمند و مجهز به استراتژی، ابتدا قوانین کلی برنامه را برای کامپیوتر تعریف میکنیم و حالتی را برایش تعریف میکنیم که بتواند حریف خودش باشد و در هر بار بازی که خانه ها را رندوم انتخاب میکند اگر باعث برد کامپیوتر شد به ذخیره حرکات میپردازد در این شرایط  بازی تمام ست هایی که ممکن است به بردش ختم شود را در  ذخیره دارد و هر بار با حرکت طرف مقابل با توجه به حالت های ذخیره شده اش سعی بر این دارد تا بازی را به نفع خودش جلو ببرد و هر چقدر تعداد دفعاتی که کامپیوتر حریف خودش باشد بیشتر شود تقریبا برد انسان ناممکن  میشود با اینکار ما مفهوم سوال را تغییر داده ایم.

اگر فیلم  ex machina را دیده باشید در جایی که مخترع ایوا دارد درباره اینکه چطور ایوا حالات صورت یک فرد را تقلید و یا درک میکند توضیح میدهد که هر موبایل توسط دوربین و میکروفون به وسیله انتقال داده تبدیل شده است، بنابراین با هک کردن و روشن کردن همه دوربین ها و میکروفون های روی سطح کره زمین داده هایشان را ذخیره کرده که در واقع یک منبع  بسیار بزرگ از حالات صورت و صداها به دست آورده است و همچنین دراین فیلم به این اشاره دارد که موتور های جستجو علاوه بر اینکه نشان میدهند که مردم به چه چیزی فکر میکنند نشان میدهند که مردم چگونه فکر میکنند و از همین مفهوم ساده برای طراحی ماشین های بدون راننده نیز استفاده شده است.

البته بیگ دیتا هم با این همه فواید و تاثیر گذاری صد در صد بعد منفی ای هم دارد مثلا شبکه های اجتماعی به بهانه راحت تر کردن زندگی ما در حال ضبط تمام فعالیت های ما میباشند، برای مثال در صفحه سرچ اینستاگرام ممکن است شما هم با پستی با عنوان photo you might like  یا video you might like مواجه شده باشید، در واقع شرکت های بزرگ با خریدن داده و با آنالیز این داده ها و پی بردن به الگوی فکری مردم در یک منطقه و یا حتی پیش بینی آینده ممکن است بتوانند از این نتایج به نفع منافع خود استفاده کنند.

بیگ دیتا و الگوریتم ها باعث تغییر شغل و یا بیکاری بسیاری از افراد در آینده خواهند شد. برای مثال فکرکنید الگوریتمی برای تشخیص سلول های سرطانی وجود دارد وقتی دقت الگوریتم ها از انسان بیشتر و حتی سریع تر باشه در این حالت ما دیگر نیازبه نیرویی برای تشخیص سرطانی بودن آن سلول نداریم.

و در پایان بیگ دیتا باعث میشود چالش اصلی ما در آینده به حفاظت اختیار انتخاب اخلاقی و اراده انسانی تبدیل شود که در غیر اینصورت ممکن است به خودمان و جامعه بشری خسارت های جبران ناپذیری وارد کنیم.

Eli بدون دیدگاه

big data در شبکه

در دنیای امروز سروکله زدن با این همه دیتا بدون device ها غیر ممکن است، در قدیم کسب و کارها این همه مشتری نداشتند و سبک تجارت با دنیای امروز فرق میکرد. هم اکنون در دنیای داده ها ما غرق شده ایم و این قضیه دیگر تغییر نمیکند بلکه باید آمادگی مواجه با جریانات سنگین تر هم باشیم.

حجم فوق العاده عظیمی از دیتاهای پیچیده را داده های بزرگ یا Big Data میگویند.

Big Data به مجموعه ای از داده ها که سایز و گوناگونی آن ها اغلب مافوق توانایی ابزار بانک های اطلاعاتی در جهت ذخیره سازی، مدیریت و تحلیل است گفته میشود که به گونه ای گردآوری ، ذخیره و استفاده میشوند که امکان جست جو و تحلیل آن ها با هدف کمک به ما در جهت اخذ تصمیم های تجاری را فراهم میکنند.

Big Dataو تجزیه و تحلیلش در مرکز علوم و تجارتهای مدرن هستند. این داده ها از تراکنشهایonline email ها، ویدئوها، صوتها، کلیک کردن ها، log ها و ارسالها، درخواستهای جستجو،یادداشتهای درست، تعاملات شبکه های اجتماعی، داده های علمی، سنسورها و تلفنهای همراه و برنامه های کاربردی آنها تولید میشوند. آنها بر روی پایگاه ه داده ها که به شکل حجیم رشد می کنند، ذخیره و ضبط میشوند، ذخیره سازی، مدیریت، به اشتراک گذاری، تحلیل و نمایش آنها از طریق انواع ابزارها قابل دسترس است.

 

چگونگی کشف Big Data

کشف دانش از داده های حجیم عبارت است از تعدادی عملگر که برای دریافت اطلاعات از مجموعه های داده پیچیده ، طراحی شده اند.رئوس کلی اکتشاف دانش از داده های حجیم:

  1. دامنه برنامه کاربردی مقدم به اطلاعات و تعریف هدف از پردازش از دیدگاه مشتری.
  2. ایجاد زیر مجموعه ای از داده ها که به کشف دانش اشاره میکنند.
  3. از بین بردن noise ها، اداره کردن فیلدهای داده گمشده ، جمع آوری اطلاعات مورد نیاز جهت مدلسازی و محاسبه زمان اطلاعات و تغییرات اصلی.
  4. پیدا کردن خصوصیات مفید جهت نشان دادن وابستگی داده به هدف از کار.
  5. نگاشت اهداف به روشهای داده کاوی دقیق.
  6. انتخاب الگوریتم داده کاوی و تابع جهت جستجوی الگوهای داده.
  7. جستجوی الگوها به شکل گویا.
  8. بازگشت به هر مرحله ۱ تا ۷ جهت تکرار و بازگویی ، همچنین این مرحله میتواند شامل تصویرسازی از الگوها باشد.
  9. استفاده از اطلاعات به شکل مستقیم ، ترکیب اطلاعات در سیستم دیگر یا گزارش گیری و استفاده از اطلاعات به شکل ساده.

Big Data در رایانش ابری

داده های حجیم یک اصطلاح برای مجموعه های داده خیلی بزرگ است که از نظر ساختار، پیچیدگی و منابع تولید بسیار متنوع هستند و ذخیره و آنالیز آنها کار پیچیدهای است.

رایانش ابری یک تکنولوژی قدرتمند برای اجرای محاسبات پیچیده و سنگین است.

رایانش ابری نیاز به استفاده از سخت افزارهای گران را حذف نموده و فضای محاسباتی و نرم افزار مورد نیاز را در اختیار کاربر قرارمیدهد. رشد روزافزون حجم داده و ایجاد داده های حجیم از طریق رایانش ابری در سالهای اخیر در بسیاری از کاربردها دیده شده است.

داده های حجیم چالش مهمی است که احتیاج به زیرساختی قوی برای اطمینان از انجام موفق پردازشها و آنالیزهای مورد نیازدارد .

موضوع حایز اهمیت این است که چگونه میتوان از زیرساخت رایانش ابری برای دسترسی، پردازش و آنالیز دادههای حجیم استفاده نمود.

از مزایای رایانش ابری ایجاد منابع مجازی، پردازشهای موازی، امنیت و تجمیع سرویس در انباره های داده است.بخشی از اولین آداپتورهای اولیه دادههای حجیم در رایانش ابری کاربران هستند.

انباره های داده های حجیم:

داده های حجیم، در انباره های داده مختلفی ذخیره میشوند که از نظر ساختارو تکنولوژی دسترسی متفاوتند که در زیر به آنها اشاره شده است.

الفانبار داده مستندگرا: انباره های داده مستندگرا به صورت پایه برای ذخیره و بازیابی مجموعه های مستندات، اطلاعات و پشتیبانی داده های پیچیده و باینری شکل گرفته اند ،یک انبار داده ای مستندگرا شبیه یک رکورد یا یک سطر از یک دیتابیس رابطه ای است اما با انعطاف بیشتر و قابلیت بازیابی بهتر مستندات برپایه محتوی آنها

بانبار داده ستون گرا: محتوی یک انبار داده ستون گرا، در ستونهایی از سطرها نگهداری میشود و مقادیر صفات متعلق به یک ستون به صورت پشت سرهم ذخیره میشوند. سیستم های دیتابیس ستون گرا نسبت به دیتابیسهای کلاسیک که محتوایشان به صورت سطرهای پشت سرهم قرار دارند، متفاوت است.

جانبار داده گرافی: یک دیتابیس گرافی برای ذخیره و نمایش داده ها از یک مدل گرافی شامل نودها و لبه ها استفاده میکند که در آن خصوصیات داده ها از طریق روابط به یکدیگر مرتبط میشوند.

دانبار داده کلیدمقدار: دیتابیس های کلید- مقدار، دیتابیس های ارتباطی متناوبی هستند که برای ذخیره و دسترسی به داده های در اندازه خیلی بزرگ طراحی شده اند. یک نمونه خوب برای سیستم های ذخیره کلید- مقدار با دسترسی بالاست که توسط Amazon.com در انبار داده کلید- مقدار مقیاس پذیر پیشنهاد شده است که در آن از تراکنشهای چند کلیدی، تنها با دسترسی به یک کلید استفاده میشود.

 

مقایسه چند platform ابری داده های حجیم

 

در حال حاضر، داده از نظر اندازه در حال بزرگ شدن است و این روند رو به رشد با افزایش تنوع داده تولید شده بیشتر میشود. سرعت تولید داده به دلیل استفاده زیاد از وسایل همراه و حسگرهای متصل به اینترنت در حال افزایش است. دادههای تولید شده فرصتی مناسب برای همه صنایع و حرفه ها ایجادمیکنند تا با آنالیز دادههای حجیم به آگاهی بهتر نسبت به کسب و کار خود دست یابند. امروزه سرویسهای ابری برای ذخیره، پردازش و آنالیز داده های محیطی ،مناسب هستند. این سرویسها چهره تکنولوژیهای ارتباطی را تغییرداده اند.

 

Big Data و اپراتورهای مخابراتی

فراهم کننده های سرویس های ارتباطی به علت روند رو به رشد شبکه ها و سرویس های پهن باند، گسترش شبکه های سیار نسل آینده و افزایش ضریب نفوذ اینترنت و تجهیزات ارتباطی (همچون تلفن های هوشمند) و استفاده روز افزون مردم از رسانه های اجتماعی، با حجم سنگین، تنوع بالا و سرعت زیاد اطلاعات مواجه شده­اند. همین امر موجب توجه جدی تر اپراتورهای مخابراتی جهان به بهره برداری از صنعتBig Dataبرای بهبود کسب و کار خود شده است.

معمولا اپراتورهای مخابراتی از صنعت Big Dataبرای اهداف زیر استفاده می­کنند:

  1. متمایز شدن از رقبا
  2. بدست آوردن سهم بازار بیشتر
  3. افزایش درآمد
  4. درک بهتر مشتریان
  5. سودآوری از طریق سرویس های جدید نوآورانه

بهره گیری از مزایای صنعت Big Dataبه اپراتورهای مخابراتی می تواند برای تحقق سه هدف حیاتی زیر در تحول مخابرات استفاده شود:

  1. تحویل سرویس های هوشمندتری که منابع درآمدی جدیدی را تولید می کنند
  2. تحول در عملیات ها برای دستیابی به برتری تجاری و سرویس دهی
  3. ساخت شبکه های هوشمندتر (Smarter Network) برای هدایت و تقویت سازگاری و کیفیت تجربه مشتری

بعضی از کاربردهای Big Dataدر موفقیت کسب و کار اپراتورهای مخابراتی عبارتند از:

  • مرکز تماس پیش دستانه (Pro-active Call Center)
  • کمپین های هوشمندتر (Smarter Campaigns)
  • تحلیل شبکه (Network analytics)
  • سرویس های مبتنی بر مکان (Location-based Services)

 

و در آخر:

 

کار با Big Data با استفاده از سیستم ­های مدیریت دیتابیس ­های رابطه ­ای و بسته ­های بصری ­سازی و تحلیل ­های دسکتاپ، دشوار بوده و نیازمند نرم ­افزار بسیار موازی در حال کار بر روی ده­ ها، صدها و یا حتی هزاران سرور هستند. آنچه که در Big Data شناخته می ­شود، بنا بر قابلیت ­های سازمان مدیریت کننده آن، و قابلیت­ های برنامه ­های کاربردی که به طور سنتی در آن زمینه داده پردازش و تحلیل می­ کنند، متفاوت است. برای برخی سازمان­ ها، رویارویی با صدها گیگابایت داده برای اولین بار ممکن است نیاز به بازبینی آپشن های مدیریت داده را ایجاد کند. برای برخی دیگر، ممکن است تا ده ­ها و صدها ترابایت طول بکشد که سایز داده به موضوعی قابل توجه تبدیل شود.