Биг Дата (Big Data): что это такое, как и где применяется

Термин Big Data (Биг Дата) или «большие данные» становится общеупотребимым — причем, в самых разных сферах. Рассмотрим, что это такое и о каких областях его применения может идти речь.

Big Data: когда практика предвосхищает теорию

В своей книге «Большие данные: Революция, которая изменит то, как мы живем, работаем и мыслим» американские авторы Виктор Майер-Шенбергер и Кеннет Кукьер приводят несколько показательных историй, показывающих то, каким образом современные интернет-технологии, что позволяют обрабатывать огромные объемы данных, способны реально помогать человеку.

Книга, поясняющая термин Big Data Бигдата: что это такое простыми словами на примерах

Авторы книги рассказывают о том, как власти США в 2000-х годах с большим трудом собирали статистику по заболеваемости опасным гриппом H1N1, который мог обернуться в свое время мировой эпидемией, и это требовало принятия незамедлительных мер по реагированию на угрозу. Основной проблемой американских медиков был временной лаг между фактическим возникновением заболеваний H1N1 на определенных территориях и их выявлением: это не давало возможности оперативно реагировать на распространение вируса.

Сбор данных по заболеваниям американцы осуществляли на базе традиционных ведомственных каналов — и сведения поступали в аналитические подразделения медучреждений с задержкой, составляющей порядка двух недель. В то же время компания Google – в распоряжении которой был по сути весь американский веб-трафик, решила опробовать новый и, как показала практика, исключительно эффективный метод к выявлению фактов заболеваний — анализ запросов пользователей.

Исследователи установили, что человек, с высокой вероятностью заболевший H1N1 – исходя из тех симптомов, которые у него проявляются — запрашивает в сети определенную информацию (по лекарствам, по симптомам и иные данные). На основании данных по таким запросам поисковая система смогла осуществлять весьма точную локализацию заболеваний — и при этом практически в режиме реального времени.

Кроме того, было установлено, что на основании анализа поисковых запросов можно спрогнозировать, где наиболее вероятно появление новых заболевших. Всего было проанализировано более трех миллиардов запросов пользователей — причем, не только граждан США, но и жителей других стран. Были подняты данные и по базам прошлых лет. Выяснилось, что прогнозы от Google на 97% совпадают с официальными данными по заболеваниям.

Результаты эксперимента Google были опубликованы в журнале Nature и стали сенсацией среди медиков и разработчиков — но, правда, не привлекли широкого внимания общественности. Вместе с тем, эксперты посчитали, что исследование базируется на исключительно перспективных методах обработки Big Data — «больших данных». В рассматриваемом случае — представляющих собой те самые миллиарды поисковых запросов и различные коррелирующие с ними типы информации.

Другой пример, который приводят автор книги, относится к области, не связанной с медициной — с авиаперевозками. Точнее — с сервисами по бронированию авиабилетов.

Главный герой еще одной истории по книге, исследователь Орен Эциони, купил билет на самолет — задолго до дня вылета и, соответственно, как ему показалось, по достаточно выгодной цене. Орен спросил невзначай соседа по пассажирскому креслу, почем он взял свой билет, и выяснилось — по цене ниже той, что досталась ученому, хотя его визави оформил квиток заметно ближе к дате рейса.

Возмущенный профессор решил разобраться — почему ценообразование билета произошло вопреки традиционной экономической логике. В определенный момент он понял — причины тому значения не имеют (поскольку их очень много, и значительная часть из них непублична — поскольку находится только в ведении авиакомпаний). Но можно попробовать спрогнозировать, будет ли цена на билет — отображаемая на экране сайта бронирования — в дальнейшем расти или, наоборот, снизится.

В этих целях предполагалась обработка довольно большого объема данных — но они, в свою очередь, по преимуществу были публичны. Энциони собрал более десятка тысяч цен и разработал модель прогнозирования стоимости авиабилетов. Эта модель не рассматривала переменные, которые могли быть учтены на усмотрение авиакомпании. Однако рассчитывала вероятность удорожания или удешевления билета исходя из сведений по другим рейсам.

В результате появился сервис Farecast – доступный всем желающим пользователям. Его купила Microsoft и встроила алгоритм прогнозирования цен на авиабилеты в свою поисковую систему Bing. Сейчас сервис уже не работает — американцы решили сконцентрировать усилия на других бизнес-проектах, но сам принцип прогнозирования цен на билеты взят на вооружение многими разработчиками.

И это опять Биг Дата — «большие данные». Сначала — собранные вполне себе вручную 12 тысяч цен, потом — автоматизированный сервис, оперировавший десятками миллиардов записей по предложениям больших и малых авиакомпаний.

И это совершенно точно никакая не теория, а чистая практика. Технологии, уже доказавшие свою эффективность. Но что это за технологии? Как их можно охарактеризовать обобщенно?

Видео — зачем корпорациям нужны сведения о пользователях (Big Data):

Big Data (БигДата): что это такое

Термину Биг Дата (Big Data) – впервые употребленному, к слову, в том же журнале Nature его редактором Клиффордом Линчем в 2008 году — очень сложно дать определение. И, более того, наверное, невозможно так, чтобы оно не вызвало возражений в среде неравнодушных лиц. Но если попробовать сделать это очень осторожно, то правомерно предположить, что «большие данные» — это некие статистически значимые объемы информации, которые могут быть обработаны в рамках некоей полезной предикативной функции.

Например — по прогнозированию территории заболеваемости ОРВИ. По ценам на билеты.

использование технологии Биг Дата в маркетинге и других сферах

«Большие данные» могут быть как структурированными, так и неструктурированными. А обрабатываться — любым способом: нет никаких общих алгоритмов касательно этой процедуры. Популярен тезис, по которому к «большим данным» совершенно точно относятся те, на основании которых (после обработки которых) у человека появляются новые знания — инсайты. О которых он, не имея в распоряжении Big Data, даже не догадался бы.

Big Data правомерно считать «большими данными» просто потому, что они большие на самом деле: речь может идти об обработке огромного количества гигабайт информации, причем за короткий промежуток времени, с использованием больших вычислительных мощностей. Такую особенность некоторые исследователи называют одним из ключевых критериев отличий «больших данных» от «обычных» — которые обрабатываются последовательно, небольшими порциями (поскольку мощности для этого задействуются значительно меньшие).

При этом, и «большие данные» и соответствующие вычислительные мощности — стали доступны людям сравнительно недавно. Еще буквально 15-20 лет назад их не было — из-за недостаточной пропускной способности интернета, из-за слишком дорогой себестоимости отдельных «мощностей», особенно на конечных участках сбора информации.

Выросло количество потенциальных и реальных носителей такой информации — сейчас оно, как минимум, сопоставимо количеству людей, живущих на планете Земля. У большинства есть смартфон или иной интерактивный гаджет — собирающий и позволяющий собирать широкий спектр данных, которые обязательно передаются в какую-нибудь информационную систему. Раньше у людей не было ни финансовой, ни технической возможности быть носителями таких данных.

Выросла интенсивность обработки такой информации — сейчас интерактивные гаджеты функционируют и что-то собирают практически круглосуточно. Раньше человек подходил к компьютеру — если он у него был, может быть, на пару часов в сутки — и, надо сказать, как правило, мало что думал о предикативной функции в отношении чего-либо.

Есть подход, по которому в отношении «больших данных» выделяют следующие ключевые признаки:

большой объем;
постоянное обновление исходной информации (вследствие чего ее обработка становится непрерывной);
разнообразие исходной информации (то есть, она может быть по сути разнотипной — но анализироваться впоследствии с общем контексте).

Так или иначе, Big Data / Биг Дата / «большие данные» — это новое явление в мире современных технологий. Результат развития этих самых технологий — причем, уже результат практический, реализуемый вне контекста каких-либо теоретических обоснований.

Это искусственный интеллект?

Скорее, нет — но их не следует ставить далеко друг от друга. Нет — потому что искусственный интеллект, как предполагается — это некий субъект обработки информации. «Мозг», который сам «решает» (а не за него «решают» — пусть и «научили» до этого), что обрабатывать и зачем.

А Big Data – это объект обработки данных, чистая информация. Вместе с тем, во всех случаях, когда ее обрабатывает «интеллект» — качество конечного продукта такой обработки будет определенно выше, чем если бы данные были «простыми» (как вариант — малыми по объему, не обновляемыми и однообразными).

Таким образом, развитие подходов к применению «больших данных» — важнейший фактор развития технологий искусственного интеллекта, машинного обучения, эффективного делегирования различных интеллектуальных функций человека компьютеру. Между Big Data и AI теперь установлена неразрывная связь.

Где применяются «большие данные»

Считается, что «большие данные» (Биг Дата) с наибольшей степенью востребованности могут быть применены в таких сферах как:

медицина (в том числе по причинам, обозначенным выше — Big Data уже доказала на практике свою применимость в данной сфере);
туризм;
финансовые услуги;
телекоммуникации;
розничная торговля (в том числе онлайн-продажи).

Во всех указанных сферах востребована предикативность. В ритейле и коммерческих услугах — в части поведения потребителей, контрагентов, возможно даже законодателей.

Важный аспект практического применения «больших данных» — развитие технологической базы на уровне инструментария для сбора соответствующих данных. В различных сегментах могут появляться новые, еще недавно неизвестные решения — как, например, онлайн-кассы в рознице.

Онлайн-касса формирует различные массивы фискальных данных. Основной из них — массив, отражаемый в кассовом чеке — который в электронном виде с каждой кассы попадает в различные базы данных (как минимум — на серверы ФНС, ОФД — откуда их может взять пользователь, то есть, магазин). А в чеке — куча полезной информации о проданных товарах, их стоимости, количестве, НДС. Все эти данные могут анализироваться и образовывать полезные предикативные алгоритмы.

Таким образом, эффективность обработки Big Data – это важно, но не менее значима и эффективность сбора исходных данных для такой обработки. По мере появления новых инструментов, которые задействуются в таких целях, могут открываться новые сферы применения «больших данных».

Видео — беседа с создателем российского БигДата-алгоритма Артуром Хачуяном:

Использование Биг Дата — это законно?

По крайней мере, в России — обещает быть «законным» вполне официально. Минкомсвязи РФ не так давно опубликовало законопроект, в котором дается определение больших данных и регламентируется их обработка. Это будет происходить под внимательным присмотром Роскомнадзора. В законопроекте дается довольно сложное определение «большим данным», в основе которого — отнесение таких данных к неперсонифицированным.

Есть проекты различных частных регулирующих нормативов — «кодексов саморегулируемости» и иных, на основании которых субъекты, участвующие в обработке больших данных, могут организовывать свою работу.

Но совершенно очевидно, что в силу сложности и неопределенности состава «больших данных» крайне проблематично издать универсальные нормы, которым бы все обязаны были следовать при их обработке. Как мы уже отметили выше, «большие данные» — это чистая практика, соответственно, нормы, если и должны появляться, то не в качестве причины возникновения тех или иных механизмов обработки Big Data, а как следствие внедрения таких механизмов.

Соответственно, основным назначением таких норм должно быть не «упорядочивание ради упорядочивания» — а улучшение механизмов. Возможно — придание им большей применимости на практике в тех или иных сферах.

Резюме

Big Data – это некая статистика (по замыслу Минкомсвязи — «неперсонифицированная», но, понятно, что она может быть разной по сути), на основании которой можно сделать некие прогнозы. По росту цен, по поведению клиентов — что угодно. Собираемость такой статистики стала возможна благодаря распространению технологий для ее сбора (гаджеты, онлайн-кассы и прочее), а также технологий для ее обработки: выросли вычислительные мощности, выросла пропускная способность интернета для обмена данными.

Практическое использование подобной статистики может быть осуществлено в исключительно широком спектре социально-экономических отношений. «Большие данные» — они везде, и собирать их уже можно способами, относительно доступными по цене и технологически реализуемыми в наиболее востребованных областях.

Читайте о том, маркировка какой одежды обязательна и в какие сроки она должна быть произведена.

Как правильный мерчандайзинг может увеличить товарооборот в магазине.

Какое оборудование и ПО необходимо https://onlain-kassy.ru/ispolzovanie/dop/avtomatizatsiya-restorana.html для автоматизации ресторанного бизнеса.

Видео — Игорь Ашманов о сборе «больших данных»и об аналитике Big Data:

Для успешного ведения бизнеса можно подобрать необходимое оборудование для САЛОНОВ КРАСОТЫ, КЛИНИНГА, ОБЩЕПИТА, АВТОСЕРВИСА и других направлений предпринимательской деятельности.