Skip to content

Що саме таке “великі дані”?

30 de Червень de 2021

Великі дані – це нова наука про розуміння та прогнозування поведінки людини шляхом вивчення великих обсягів неструктурованих даних. Великі дані також відомі як “прогнозована аналітика”. Прикладом великих даних є аналіз публікацій у Twitter, канали Facebook, пошук на eBay, GPS-трекери та банкомати. Іншими формами є вивчення відеозаписів із безпеки, даних про дорожній рух, погодних умов, прибуття рейсів, журналів веж стільникових телефонів та пульсометрів. Великі дані – безладна нова наука, яка змінюється щотижня, і лише деякі експерти все це розуміють.

Приклади великих даних у звичайному житті

wnyc
Хоча більшість проектів великих даних дуже неясні, є успішні приклади великих даних, що впливають на повсякденне життя людей, компаній та урядів:

Прогнозування спалаху вірусу: Вивчаючи соціально-політичні дані, погодні та кліматичні дані, а також лікарняні / клінічні дані, ці вчені зараз прогнозують спалахи лихоманки денге з попереднім повідомленням за 4 тижні.

Спостереження за вбивствами: цей проект великих даних описує жертви вбивств, підозрюваних та злочинців у Вашингтоні, округ Колумбія. Цей проект великих даних є захоплюючим і як спосіб вшанування померлого, і як інформаційний ресурс для людей.

Планування транзитних подорожей, Нью-Йорк: Програміст радіо WNYC Стів Мелендес поєднав онлайн-розклад метро з програмним забезпеченням для подорожей. Його творіння дозволяє жителям Нью-Йорка натискати своє місце розташування на карті, і з’явиться прогноз часу подорожі для поїздів та метро.

Xerox зменшив втрату робочої сили: Робота кол-центру емоційно виснажує. Xerox вивчав масиви даних за допомогою професійних аналітиків, і тепер вони можуть передбачити, які наймачі колл-центрів, ймовірно, залишаться в компанії найдовше.

Підтримка боротьби з тероризмом: вивчаючи соціальні медіа, фінансові записи, бронювання польотів та дані безпеки, правоохоронні органи можуть передбачити та знайти підозрюваних у тероризмі до того, як вони здійснять свої лихі вчинки.

Налаштування маркетингу бренду на основі оглядів у соціальних мережах: люди прямо і швидко діляться своїми думками в Інтернеті в пабі, ресторані чи фітнес-клубі. Можна вивчити ці мільйони публікацій у соціальних мережах та надати компанії відгук про те, що люди думають про їх послуги.

Хто використовує великі дані? Що вони з цим роблять?

Підключення до комп’ютерної мережі сучасні технології майбутнього міста - покращена фотографія

alexsl / Getty Images
Багато монолітних корпорацій використовують великі дані для коригування своїх пропозицій та цін, щоб максимізувати задоволення споживачів.

  • Універмаг Macy’s: використовує великі дані для корекції своїх цін на льоту на понад 70 мільйонів товарів. Вони навіть надсилають індивідуальні електронні листи своїм клієнтам на основі того, що, як вважає Macy’s, їх цікавить.
  • Реакція поліції на вибух у Бостонському марафоні: використовуючи великі дані для вивчення відеозаписів та зображень відеоспостереження, поліція змогла швидко звузити пошуки підозрюваних.
  • Morton’s Steakhouse: використовує Twitter, щоб здійснити маркетингові трюки, включаючи доставку знаменитого аеропорту Нью-Джерсі в стейк з портьє та вечерю з креветками.
  • Visa використовує великі дані для виявлення та лову шахраїв: Поодинокі транзакції тут і там можуть легко приховати нечесного користувача кредитної картки, але, уважно спостерігаючи за мільйонами транзакцій, можна виявити зразки шахрайства.
  • Facebook використовує великі дані для адаптації реклами: Ретельно вивчаючи ваші вподобання в FB та звички перегляду, гігант соціальних мереж має моторошне розуміння ваших смаків. Оголошення на бічній панелі, які ви бачите у своєму каналі Facebook, вибираються за дуже продуманими та складними алгоритмами, які стежили за вашими звичками у Facebook.

Чому великі дані – це така велика угода?

1. Дані масивні Він не поміститься ні на одному жорсткому диску, тим більше на USB-накопичувачі. Обсяг даних набагато перевищує той, який може сприйняти людський розум (згадайте мільярд мільярдів мегабайт, а потім помножте це на більше мільярдів).

2. Дані безладні та неструктуровані – Від 50% до 80% роботи з великими даними – це перетворення та очищення інформації, щоб вона була доступною для пошуку та сортування. Лише кілька тисяч експертів на нашій планеті повністю знають, як зробити це очищення даних. Цим експертам також потрібні дуже спеціалізовані інструменти, такі як HPE та Hadoop, для здійснення своєї справи. Можливо, через 10 років експерти з великих даних перетворяться на десяток копійок, але наразі вони є дуже рідкісним видом аналітиків, і їх робота все ще є дуже неясною і нудною.

3. Дані стали товаром, який можна продавати та купувати – Існують ринки даних, де компанії та приватні особи можуть купувати терабайти соціальних мереж та інші дані. Більшість даних базуються на хмарі, оскільки вони занадто великі, щоб вмістити їх на будь-який жорсткий диск. Купівля даних зазвичай передбачає плату за передплату, коли ви підключаєтесь до ферми хмарних серверів.

Лідерами інструментів та ідей великих даних є Amazon, Google, Facebook та Yahoo. Оскільки ці компанії обслуговують так багато мільйонів людей своїми онлайн-послугами, має сенс, що вони будуть пунктом збору та провидцями, що стоять за аналітикою великих даних.

4. Можливості великих даних безмежні Можливо, лікарі колись прогнозуватимуть інфаркти та інсульти для окремих людей за тижні до того, як вони трапляться. Аварії літаків та автомобілів можуть бути зменшені за допомогою прогнозного аналізу їх механічних даних та трафіку та погоди. Інтернет-знайомства можна покращити завдяки наявності великих даних про те, хто для вас є сумісними особистостями. Музиканти можуть зрозуміти, яка музична композиція є найбільш приємною для мінливих смаків цільової аудиторії. Дієтологи можуть передбачити, яка комбінація продуктів, що купуються в магазині, погіршить або допоможе медичним станам людини. Поверхня лише подряпана, і відкриття у великих даних відбуваються щотижня.

Великі дані брудні

Великі дані – це прогнозована аналітика перетворення масивних, неструктурованих даних у щось для пошуку та сортування. Це безладний і хаотичний простір, що вимагає особливого роду знань і терпіння. Візьмемо, наприклад, монолітну службу доставки ДБЖ. Програмісти UPS вивчають дані GPS та смартфонів своїх водіїв, щоб проаналізувати найефективніші способи адаптації до заторів. Ці дані GPS та смартфона є надзвичайними та не автоматично готові до аналізу. Ці дані надходять з різних баз даних GPS та карт через різні апаратні пристрої смартфонів. Аналітики ДБЖ витрачали місяці на перетворення всіх цих даних у формат, який можна легко шукати та сортувати. Проте зусилля того варте. Сьогодні UPS заощадила понад 8 мільйонів галонів палива з тих пір, як вони почали використовувати цю аналітику великих даних. Оскільки великі дані є безладними і вимагають стільки зусиль, щоб очистити їх і підготувати до використання, вчені з обробки даних отримали прізвисько „двірники даних” за всю нудну роботу, яку вони роблять. Однак наука про великі дані та прогнозовану аналітику вдосконалюється щотижня. Очікуйте, що великі дані стануть доступними для всіх до 2025 року.

Чи є великі дані нав’язливою загрозою конфіденційності?

Так, якщо нашими законами та захистом приватного життя не є ретельне управління, то великі дані втручаються в особисте життя. Поки Google, YouTube і Facebook вже відстежують ваші щоденні звички в Інтернеті. Ваш смартфон і обчислювальне життя залишають цифрові сліди щодня, і вишукані компанії вивчають ці сліди. Закони навколо великих даних змінюються. Конфіденційність – це стан, за який ви тепер повинні нести особисту відповідальність, оскільки ви більше не можете сподіватися на це як за замовчуванням.

Що ви можете зробити, щоб захистити вашу конфіденційність

Найбільшим кроком, який ви можете зробити, є маскування своїх повсякденних звичок за допомогою VPN. Служба VPN буде шифрувати ваш сигнал, щоб ваша особа та місцезнаходження були принаймні частково замасковані від трекерів. Це не зробить вас 100% анонімним, але VPN істотно зменшить, наскільки світ може спостерігати за вашими звичками в Інтернеті.