Технология big data – Что такое Big data: собрали всё самое важное о больших данных

Содержание

8 сфер и 19 самых интересных применений технологий Big Data |DataSides

Реализация технологий Big Data в медицинской сфере позволяет врачам более тщательно изучить болезнь и выбрать эффективный курс лечения для конкретного случая. Благодаря анализу информации, медработникам становится легче предсказывать рецидивы и предпринимать превентивные меры. Как результат — более точная постановка диагноза и усовершенствованные методы лечения.

Новая методика позволила взглянуть на проблемы пациентов с другой стороны, что привело к открытию ранее неизвестных источников проблемы. Например, некоторые расы генетически более предрасположены к заболеваниям сердца, нежели представители других этнических групп. Теперь, когда пациент жалуется на определенное заболевание, врачи берут во внимание данные о представителях его расы, которые жаловались на такую же проблему. Сбор и анализ данных позволяет узнавать о больных намного больше: от предпочтений в еде и стиля жизни до генетической структуры ДНК и метаболитах клеток, тканей, органов. Так, Центр детской Геномной медицины в Канзас-Сити использует технологии анализа данных для быстрой расшифровки ДНК пациентов и анализа мутаций генетического кода, которые вызывают рак. Индивидуальный подход к каждому пациенту с учетом его ДНК поднимет эффективность лечения на качественно иной уровень.

С понимания того, как используются Большие Данные, вытекает первое и очень важное изменение в медицинской сфере. Когда пациент проходит курс лечения, больница или другое здравоохранительное учреждение может получить много значимой информации о человеке. Собранные сведения используются для прогнозирования рецидивов заболеваний с определенной степенью точности. Например, если пациент перенес инсульт, врачи изучают сведения о времени нарушения мозгового кровообращения, анализируют промежуточный период между предыдущими прецедентами (в случае возникновения таковых), обращая особое внимание на стрессовые ситуации и тяжелые физические нагрузки в жизни больного. На основании этих данных, больницы выдают пациенту четкий план действий, чтобы предотвратить возможность инсульта в будущем.

Свою роль играют и носимые устройства, которые помогают выявлять проблемы со здоровьем, даже если у человека нет явных симптомов той или иной болезни. Вместо того чтобы оценивать состояние пациента путем длительного курса обследований, врач может делать выводы на основании собранной фитнес-трекером или «умными» часами информации.

Один из последних примеров — случай в Лурдском медицинском центре Богоматери в Нью-Джерси. В то время как пациент проходил обследование из-за нового приступа судороги, вызванного пропущенным приемом лекарств, врачи обнаружили, что мужчина имеет куда более серьезную проблему со здоровьем. Этой проблемой оказалась фибрилляция предсердий. Диагноз удалось поставить благодаря тому, что сотрудники отделения получили доступ к телефону пациента, а именно к приложению, сопряженному с его фитнес-трекером. Данные с приложения оказались ключевым фактором в определении диагноза, ведь на момент обследования у мужчины никаких сердечных отклонений обнаружено не было.

Это лишь один из немногих случаев, который показывает,

почему использование Больших Данных в медицинской сфере сегодня играет столь значимую роль.

ru.datasides.com

BIG DATA – основа умного производства

Большие данные (от англ. BIG DATA) — это совокупность подходов и методов обработки неструктурированных данных огромных объемов и значительного многообразия для получения воспринимаемых человеком результатов. Непрерывное накопление различных данных происходит в распределенных многочисленных узлах вычислительных сетей, что обусловило в конце 2000-х годов появление альтернативных традиционным системам управления базами данных (СУБД) решений для задач класса Business Intelligence.

Воспользуйтесь нашими услугами

В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных в некоторых проблемных областях, и вытекающих из этого трансформационных последствий.

В качестве определяющих характеристик для больших данных традиционно выделяют «три V»: объем (volume), скорость (velocity – в смыслах как скорости прироста данных), многообразие (variety).

С точки зрения информационных технологий в совокупность инструментов BIG DATA изначально включались средства массово-параллельной обработки неопределенно структурированных данных, – прежде всего системы управления базами данных категории NoSQL, алгоритмы MapReduce и реализующие их программные каркасы, и библиотеки проекта Hadoop. В дальнейшем к технологиям больших данных стали относить разнообразные решения, в той или иной степени обеспечивающие сходные по характеристикам возможности по обработке сверхбольших массивов данных.

Специалистов, занимающихся проектированием умных производств, не могут не интересовать перспективы решений в сфере BIG DATA. Сегодня BIG DATA активно развивается в банковской сфере, страховом секторе, телекоме, медицине, в промышленности. К сожалению, на отечественном рынке в этом сегменте не обходится без недобросовестных участников, которые под красивые обещания внедрить BIG DATA заключают контракты с индустриальными компаниями, получают деньги, а потом дают задний ход, ссылаясь на якобы некорректность данных компании-заказчика. Это дестабилизирует рынок, создает недоверие среди владельцев и топ-менеджеров к новым технологиям. Тем не менее на российском рынке есть несколько сильных команд, претендующих на подлинное лидерство в сфере BIG DATA. Сегодня мы 

Геннадий Климов беседует с руководителями одной из таких компаний – «Инжинирингового центра МФТИ по трудноизвлекаемым полезным ископаемым». Его собеседники – генеральный директор компании Тимур Тавберидзеи руководитель проектов Семен Буденный.

Геннадий Климов:

– Коллеги, пожалуйста, для начала познакомьте наших читателей, хотя бы коротко, с вашим центром.

Тимур Тавберидзе:

– Идея создания центра – капитализировать научно-технический потенциал, накапливаемый в МФТИ долгие годы. Традиционно деятельность МФТИ больше направлена в фундаментальное русло, создание же индустриальных инноваций осуществлялось за его стенами, когда выпускники приходили на базовые предприятия и, продолжая в них свою карьеру, имплементировали свои знания в проекты, изобретения. В современных рыночных условиях у выпускников университета появилась  возможность капитализировать знания, не покидая его стен. Так  возникла идея создать структуру, которая работает по классическим законам бизнеса, но при этом отлично понимает нюансы научной работы, – инжиниринговый центр МФТИ.

С 2013 года наш центр развивается одновременно между индустрией и наукой: решает проблемы индустриальных компаний-заказчиков, используя собственный разработанный научный капитал. В зоне повышенного интереса два крупных сегмента: трудноизвлекаемые углеводороды, горно-обогатительная и металлургическая индустрии. С точки зрения компетенций наши специалисты в первую очередь – сильные физики, математики, при этом имеют практические навыки в промышленности. Многие наши специалисты пришли к нам, будучи состоявшимися экспертами в крупных нефтедобывающих компаниях.

Как мы работаем? Пытаемся понять проблему заказчика как физики, формализуем проблему как математики, решаем ее как эксперты в той или иной отрасли, оберткой решения занимаемся как программисты, – проходим все этапы жизнедеятельности проекта, от понимания проблемы до создания решения под ключ.

Геннадий Климов:

– Ну, в уравнения, формулы и неравенства в этом мире можно все облечь, как я понимаю…

Тимур Тавберидзе:

– Абсолютно правильно, но облечь проблему в уравнения – недостаточно, нужно получить конкретное решение. Наша команда создает решения в виде прикладного программного обеспечения с разработанными предварительно физико-математическими моделями, которые интегрируются в реальные технологические цепочки компаний-заказчиков.

В нашей структуре также есть подразделение, которое оказывает сервисные услуги на базе наших собственных разработок. Мы инвестировали прибыль в свой бизнес, создали решения, которые, нам казалось, будут востребованными, и они таковыми оказались. Примером такой истории является разработка программного обеспечения для проектирования дизайна гидроразрыва пласта (далее – ГРП), получившая вторую мощную волну развития на фоне активного освоения нетрадиционных запасов, трудноизвлекаемых углеводородов как на российском рынке, так и во всем мире.

Идея технологии ГРП на первый взгляд кажется простой: под высоким давлением в скважину закачивается жидкость, в результате чего инициируются трещины в пласте. Далее закачивается проппант, расклинивающий реагент. Когда закачку жидкости приостанавливают, трещины начинают смыкаться на проппант, образуя высокопроводящие каналы для притока нефти к скважине. На деле же технология ГРП имеет ряд сложнейших технологических вызовов для нефтедобывающих компаний: технология до сих пор не имеет состоявшейся математической модели, способной описать ключевые процессы, происходящие при гидроразрыве. К тому же доступ к данной технологии в контексте нетрадиционных запасов ограничен на территории России из-за введенных санкций. Доступ органичен как на уровне железного решения, так и программного. Это и послужило для нас драйвером инвестирования в направление развития инструментов проектирования дизайна гидроразрыва пласта.

Геннадий Климов:

– Давайте поговорим о BIG DATA. Расскажите, как и почему вы решили осваивать это направление?

Тимур Тавберидзе:

– У нас есть убежденность в том, что данные, получаемые компаниями в нефтегазовой отрасли (да и не только в ней, утверждение будет верно для всей индустрии в целом) быстро теряет свою ценность. Простыми словами, ценность информации значительно ниже, чем могла бы быть на самом деле, далеко не весь ее потенциал используется. Например, в случае скважин мы копим сведения о давлениях, температуре, дебитах, геологическом разрезе, и на основе этих данных решаются конкретные задачи, начиная от определения свойств горных пород, вскрываемых скважиной, заканчивая планированием мероприятий с целью повышения дебита скважины. После того, как эти задачи решены, данные не представляют более интереса, теряют свою ценность, они «пылятся» на полке, хотя стоимость получения этих данных – одна из основных операционных издержек компании. Мы пытаемся выжать из данных максимум, решать задачи, которые изначально не ставились при получении этих данных, но при этом позволят снизить издержки компании без привлечения дополнительных инвестиций. Как это сделать? Инструментами и подходами в рамках парадигмы BIG DATA.


В западных странах технологии работы с большими данными и машинным обучением получили огромное распространение, и компании научились из этого извлекать пользу. Об этом говорит статистика по научным публикациям и цифры об инвестициях в это направление. В России развитие этих технологий в индустрии только начинает набирать обороты, развитой технологию можно считать, наверно, только в банковском секторе, телекоме, страховых компаниях. При этом факт остается фактом: этому источнику дополнительной прибыли, эффективности, технологической компетентности уделяется все большее и большее внимание в индустрии. Огромные массивы данных имеют скрытые связи, которые не заметны глазу сколь угодно опытного эксперта или группы экспертов. И чем больше данных, тем больше таких связей можно найти и использовать их с целью увеличения чистой прибыли. С точки зрения бизнеса ключевая идея BIG DATA состоит в том, что, работая с большими данными, мы можем сделать экономически эффективными многие технологии, в том числе и в нефтегазовой отрасли.

Более детально о развитии технологий BIG DATA в нашем центре расскажет мой коллега Семен Буденный. В нашей компании он руководит этим направлением, формирует рынок услуг компании, объясняя, почему нужно в эту сторону смотреть, и на конкретных примерах показывая, что, не вкладывая инвестиции в промышленное оборудование, а просто работая с этим массивом данных, можно извлекать дополнительную прибыль уже сейчас.

Геннадий Климов:

– Мы говорим о выяснении зависимостей в, казалось бы, хаотических массивах несвязных данных. Мы находим связи. Давайте поговорим о том, какая математика это делает?

Семен Буденный:

– Сначала отмечу, что для нас BIG DATA включает две составляющие: технологическую и аналитическую. С точки зрения технологий BIG DATA – это явление, когда технологии обработки данных не поспевают за ростом объема этих данных. Например, необходимо решать вопрос с массивом данных, не помещающимся в оперативную память за один такт (tall array – высокий массив) или распараллеливать обработку данных на центральном или графическом процессоре, на кластерных мощностях.

Аналитическая составляющая состоит в том, что объем, разрозненность и неструктурированность данных не позволяет экспертам оперативно решить те или иные задачи или вовсе находить какие-то закономерности. Математические инструменты, позволяющие решать эти проблемы, разношерстны, но в минимальный джентльменский набор входят машинное обучение,  глубинное обучение (нейронные сети), статистика, обработка сигналов, а также методы нелинейной оптимизации.

Вся математика, базовая ее часть, о которой мы сейчас говорим, зародилась не вчера, однако популярное сегодня и отдельно образовавшееся направление BIG DATA обязано появлению возможных технологий для аккумулирования больших данных и работы с ними. А если быть точнее, обязано моменту времени, когда операционные и капитальные затраты на технологии обработки и хранения данных окупаются информацией, полученной с этих же данных. К слову, сейсмику в полном объеме и по сей день дорого копить, мало кто из нефтедобывающих компаний может себе это позволить.

Геннадий Климов:

– Расскажите поподробнее, как именно вы работаете с большими данными?

Семен Буденный:

Мы бизнес-ориентированная организация. Мы не занимаемся анализом данных ради удовлетворения научных интересов, а пытаемся решить вполне конкретные проблемы наших заказчиков. В большинстве случаев заказчик формулирует проблему на верхнем уровне: уменьшить энергопотребление установки, увеличить качество промысловых данных месторождения, сократить время анализа геологических данных. Наша задача состоит прежде всего в подборе правильного рецепта, который приведет нас к решению проблемы.

Во избежание рисков для компаний-заказчиков на первом этапе мы реализуем пилотный проект, цель которого – определить возможность применения алгоритмов машинного обучения к решению проблемы. На данном этапе рассматривается ограниченный объем данных, применяются базовые алгоритмы. По результатам работы предоставляется отчет, защищаются результаты в виде презентации. Если мы достигаем поставленных КРТ, переходим к основному договору.

При этом мы отдаем себе отчет в том, что BIG DATA не панацея, в индустрии не является самодостаточным направлением. Без понимания специфики нефтегазовой отрасли вряд ли удастся прийти к конкретным результатам, важно понимать суть проблемы, правильно сформулировать ключевые показатели эффективности. В результате 80% времени мы тратим на поиск лучшего workflow для решения проблемы, 20% – на построение моделей. А концептуальная схема работы с большими данными общая для всех проектов: формулировка целевых показателей, подготовка данных (структурирование, фильтрация), построение моделей, проверка качества моделей, адаптация решения под бизнес.

Геннадий Климов:

– Ваши методики базируются на изучении аналогов?

Семен Буденный:

– В том числе. Львиная доля аналитических задач в BIG DATA относится к классу так называемых задач обучения с учителем. Суть таких задач состоит в том, что, если вы хотите предсказать какое-то поведение, величину на новых данных, вы должны сначала построить модель, которая обучена (построена) на аналогичных данных, другими словами, на аналогах.

Например, вы хотите по исходным данным геофизического исследования скважин с помощью модели предсказать положение нефтенасыщенного участка. Вы можете решить такую задачу, если у вас имеется уже набор интерпретированных экспертом первичных данных. Это не значит, что скважина, на которой вы хотите применить модель, в точности совпадает с ранее изученными, но найдутся те, что близи к нашей, т.е. аналогичны нашей, и тогда можно ожидать какой-то результат.

Хрестоматийным является пример того, как ребенок учится говорить. Он сначала говорит отдельные слова, короткие фразы, а затем выстраивает целые предложения, при этом он ранее не слышал эти предложения слово-в-слово, строит их по аналогии с тем, как говорят его родители. Вот примерно таков принцип работы большинства аналитических задач на больших данных.

Тимур Тавберидзе:

– На масштабе месторождений поиск аналогов сводится к поиску так называемых месторождений-близнецов.  Месторождения имеют огромное количество типов данных, как количественных, так и категориальных: от дебита нефти скважины, фактов технологических стопов (аварийных ситуаций) скважины, до свойств пласта, сетки бурения скважин и т.д. Стоит задача в определении метрики близости между месторождениями в пространстве всех физических, технологических, экономических параметров. Далее предоставляется возможным определить месторождения-аналоги. Зачем это нужно? Если нефтедобывающая компания планирует эффективную разработку на относительно недавно купленном активе, важной задачей является поиск лучшего опыта разработки и его имплементирования. Но опыт этот нужно перенимать не с каких угодно месторождений, а с тех, что близки нашему целевому. Чем больше данных мы учтем, тем более точно мы можем определить месторождения-аналоги.

Геннадий Климов:

– То есть чем больше данных, тем точнее прогноз? Так ли это?

Семен Буденный:

– Одновременно да и нет. С одной стороны, больший объем данных может снизить ошибку модели, с другой стороны, в нефтегазовой отрасли данные поступают с различных источников: результаты работы по одному месторождению, или даже одной скважине, собираются с разных дочерних предприятий, подрядчиков. Фактор времени играет свою роль: данные по профилям добычи, технологическим режимам работы скважин внутри одного месторождения, которое, скажем, разрабатывается с 1980-х годов, имеют принципиально различную достоверность в наше время и в те же 80-е. Другими словами, чем больше данных, тем больше ошибок в них ожидается. При этом модели, которые мы строим, не могут быть точнее данных, на которых мы строим наши модели.

Иногда полезно намеренно данных не добрать, и сделать это нужно аккуратно: удалить выбросы, удалить сильно коррелирующие признаки и т.д. И это лишь одна из необходимых вещей на этапе предподготовки данных (перед построением самих моделей), к слову, 80% времени у нас уходит на предподготовку данных, если не больше. Как бы странно это ни показалось, но успех решения проблемы в промышленности методами машинного обучения на львиную долю определяется пониманием природы данных и их подготовки. Модели могут «съесть» все что угодно: что подашь на нее, то и получишь.

Тимур Тавберидзе:

– При гигантском объеме данных может возникнуть казус, когда наблюдаются зависимости между абсолютно не связанными вещами. Если собрать абсолютно все показатели за определенный промежуток времени, то с большой вероятностью найдутся показатели, тесно коррелирующие друг с другом, когда на деле это не так. В промышленности методы BIG DATA не являются самодостаточными инструментами, требуются гибридные подходы, когда статистика проверяется физикой. Например, если статистика нам говорит о наличии высокой корреляции (связи) между двумя показателями, мы как минимум должны убедиться, что в реальности это соответствует материальному или энергетическому балансам. В обратном случае, корреляции мы не верим.

Геннадий Климов:

– Это понятно, что математик-аналитик должен разбираться в специфике отрасли, где он реализует алгоритмы BIG DATA. Но мне всегда казалось, что есть некая универсальность этих методов, которые позволяют легко переносить их, например, из нефтяной отрасли в химическую промышленность, или даже в машиностроение. Это так?

Семен Буденный:

– Более того скажу: в последнее время нас все чаще стали приглашать для решения задач в секторах, абсолютно не связанных с направлениями нашей компании. Отчасти это может быть связано с тем, что в новом для нас направлении у нас нет зашоренности взгляда, мы будем смотреть на проблему как новички, но как физики-математики мы пытаемся понять суть проблемы, контекст, дробим проблему на задачи, формализуем их. Далее приступаем к решению задачи в контексте анализа данных, и тут с вами соглашусь, методы в большинстве своем универсальны, могут кочевать из одной отрасли в другую. Более того, все эти методы открытые (имеется множество бесплатных библиотек), и их много, действительно много. Однако, как мне кажется, успех решения комплексной проблемы больше обусловлен не знанием тех или иных методов, а правильно составленным рецептом – последовательности применения алгоритмов, от этапа подготовки данных до построения моделей.

Геннадий Климов:

– С какими проблемами вам приходится сталкиваться?

–Тимур Тавберидзе:

Один из барьеров проникновения направления  BIG DATA в индустрию связан с некоторой субъективностью обрабатываемых данных, сложностью их интерпретации, сильной нелинейностью между анализируемыми параметрами. Как правило, мы не ограничиваемся анализом первичных объективных данных, полученных, например, с манометров. И то, последние не меряют напрямую давление, а определяются через калибровочные соотношения по напряжению. Приходится работать с результатами обработки данных – вторичными данными, а последние часто несут субъективный характер, что приводит неизбежно к наличию ошибок. Два геолога по поводу одной скважины могут иметь три мнения. И в каком-то смысле нам с этими мнениями нужно считаться, понимая, что наши модели мы заведомо обманываем, обучая их на данных с ошибками. Модель не может быть точнее данных, на которых она обучена. В этом, наверное, ключевая техническая проблема.

С другой стороны, не все руководители российских промышленных предприятий готовы следовать современным технологическим трендам, поручить обработку и интерпретацию своих данных сторонним компаниям. Нашему центру везет в этом смысле – мы все чаще и чаще сотрудничаем с руководителями новой формации, которые открыты к смелому внедрению передовых технологий, пока еще не апробированных масштабно и, главное, готовы быстро адаптироваться под эти технологии – менять действующие в их организациях бизнес-процессы, нормативы и методики.

Геннадий Климов:

– В каких еще отраслях вы реализовывали свои наработки?

Семен Буденный:

– Ранее нашими специалистами была решена задача в области обработки медицинских данных в рамках открытого международного конкурса. Мы получили вполне неплохой результат – бронзовое призовое место по эффекту от решения.  Суть задачи состояла в разработке алгоритмов для обработки изображений МРТ с целью автоматического определения отклонения работы сердца от нормы по фракции выброса (доля крови, проходящая через левый желудочек сердца за один рабочий такт). В процессе создания алгоритма обработаны изображения МРТ порядка 1000 пациентов. Целью являлось выявление физиологических отклонений сердца без привлечения врача. Конечно, наш алгоритм не поставит полноценный диагноз, однако с некоторой вероятностью мог обнаружить сердечную недостаточность, либо гипертрофию стенок левого желудочка. Суть алгоритма состояла в последовательном решении трех задач: определении положения сердца в изображении МРТ (обычно делается снимок всего торса), сегментации левого желудочка в сердце и построения трехмерной модели по снимкам, сделанным в разных проекциях, определении динамики объема левого желудочка. В итоге, зная динамику объема левого желудочка, мы определяем фракцию выброса и диагностируем отклонение, если таково имеет место быть. Все просто.

Несмотря на то что задача имела скорее научный интерес, в дальнейшем используемая методология легла в основу решения прикладной задачи в области петрофизического анализа, седиментологии. В процессе бурения скважин делают отбор керна, материала породы в форме цилиндра. Керн дает много полезной информации о фильтрационно-емкостных свойствах породы, строении породы и т.д. Так, например, по слайсам керна, шлифам, оптическим микроскопом можно определить распределение зерен, формы и связанность пор и многие другие важные параметры. Часто шлифы обрабатываются вручную, например, степень окатанности зерен определяют по трафаретам. В результате анализа удается получить классификацию шлифа, проще говоря, тип породы. Мы научились решать эту задачу автоматически: от этапа сегментации пор, зерен, цемента в шлифе, до расчета параметров этих объектов и автоматической классификации породы на основе этих параметров.

Геннадий Климов:

– Есть же очень много подобных задач в промышленности. Например, анализ данных при рентгеновском и ультразвуковом контроле сварных швов и литья.

–Тимур Тавберидзе:

– Как вы уже, наверное, заметили, наша команда решает задачи из различных отраслей промышленности. Наше преимущество на российском рынке – коллектив профессионалов высочайшего уровня, обладающих широким спектром инструментов, методик и подходов. Мы развиваемся, расширяем спектр наших компетенций, и, к слову, тяжелое машиностроение – одно из направлений, которое мы планируем освоить в ближайшей перспективе.

Геннадий Климов:

– Спасибо, Семен, спасибо, Тимур! Было очень интересно. Надеюсь, мы продолжим тему.

Источник: http://www.umpro.ru/

Воспользуйтесь нашими услугами

Понравилась статья? Тогда поддержите нас, поделитесь с друзьями и заглядывайте по рекламным ссылкам!

integral-russia.ru

Большие данные или Big Data

Проблема мирового объема информации Цифровые технологии присутствуют во всех областях жизни человека. Объем записываемых в мировые хранилища данных ежесекундно растет, а это означает, что такими же темпами должны изменяться условия хранения информации и появляться новые возможности для наращивания ее объема. Ежесекундно гигантские объемы контента генерируют такие источники, как социальные сети, информационные сайты, файлообменники – и это лишь сотая часть поставщиков. Согласно исследованию IDC Digital Universe, к 2020 году объем данных на планете вырастет до 40 зеттабайтов, то есть на каждого живущего на Земле человека будет приходиться по 5200 Гб . Известно, что основной поток информации генерируют не люди. Источником служат роботы, находящиеся в постоянном взаимодействии друг с другом. Это приборы для мониторинга, сенсоры, системы наблюдения, операционные системы персональных устройств, смартфоны, интеллектуальные системы, датчики и прочее. Количество источников данных стремительно растёт, значит, технологии их обработки становятся всё более востребованными. Понятно, что это данные больших объемов, размер которых превосходит возможности типичных баз данных по занесению, хранению, управлению и анализу информации. Большая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, ‒ это вебжурналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, на разных носителях. Одни и те же данные могут храниться в разных форматах. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Можно добавить обстоятельство, что данные сейчас обновляются все чаще и чаще, и получается ситуация, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям класса Big Data (большие данные).

Понятие Big Data

Для Big Data нет четкого определения. Изначально идея состояла в том, что объем информации настолько вырос, что рассматриваемое количество уже фактически не помещалось в памяти компьютера, используемой для обработки, поэтому инженерам потребовалось модернизировать инструменты для анализа всех данных. В настоящее время под большими данными понимается совокупность техник и технологий обработки огромных массивов информации и мгновенного их анализа. Big Data – термин, использующийся почти на всех профессиональных конференциях, посвященных анализу данных, прогностической аналитике, интеллектуальному анализу данных (data mining), CRM. Термин используется в сферах, где актуальна работа с качественно большими объемами данных, где постоянно происходит увеличение скорости потока данных в организационный процесс: экономике, банковской деятельности, производстве, маркетинге, телекоммуникациях, вебаналитике, медицине и другое. Использование больших данных в бизнесе может принести огромную пользу для компании. Согласно отчету McKinsey Institute, «большие данные: новый рубеж для инноваций, конкуренции и производительности» . Суть применяемых в больших данных методов и инструментов состоит в поиске ранее неизвестных и практически полезных данных в большом объеме данных с целью извлечения прибыли, при этом их использование сводится к трем задачам :
  • поиск скрытых закономерностей, например, наиболее покупаемого набора продуктов в корзине покупателя, сценариев поведения клиента в магазине, помогающих найти географическую позицию товара в магазине, резко повышающую вероятность его продажи;
  • обнаружение событий на основе ранее обнаруженных сценариев поведения, например, мошенника или в программах лояльности – прогнозирование поведения клиента, основываясь на закономерностях его поведения в прошлом;
  • обнаружение данных в режиме онлайн, снабжение бизнеса информацией для принятия решения мгновенно.
То есть можно привести следующие примеры реальных кейсов для больших данных:
  • улучшение имеющихся моделей с использованием новых, нетрадиционных источников информации;
  • отслеживание подозрительных транзакций;
  • прогнозирование вероятности наступления страхового случая;
  • предупреждение фактов внутреннего и внешнего мошенничества; — прогнозирование спроса на продукты;
  • анализ предпочтений клиента, создание «портрета клиента», персонализация маркетинга;
  • анализ клиентской базы;
  • управление оттоком клиентов;
  • другое.
В сущности, понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Таким образом, большие данные состоят из трех основных аспектов:
  • Volume – большого объема данных,
  • Velocity – необходимости обрабатывать информацию с большой скоростью
  • Variety – многообразия и часто недостаточной структурированности данных.
Консалтинговая компания Forrester дает краткую формулировку: «Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности» . Технология Apache Hadoop Framework Для решения рассматриваемой проблемы необходимы особые технологии. Система Big Data строится на технологии Apache Hadoop Framework, которая является одной из самых известных в области обработки больших объёмов данных при приемлемых временных затратах. Технология Hadoop представляет собой программный framework, позволяющий хранить и обрабатывать данные с помощью компьютерных кластеров, используя парадигму MapReduce. Данный подход позволяет построить высокопроизводительный кластер на базе low-end или middle-end серверов, что обеспечивает существенно более низкую стоимость решения по сравнению с одним высокопроизводительным сервером. В основе технологии лежит распределённая файловая система HDFS (Hadoop Distributed File System), которая обеспечивает хранение данных Hadoop сразу на нескольких узлах кластера. Таким образом, если один или несколько узлов кластера выходят из строя, то риск потери информации сводится к минимуму и кластер продолжает работу в штатном режиме. Вторым важным элементом Hadoop является MapReduce – framework для вычисления распределенных задач. В соответствии с подходом MapReduce обработка данных состоит из двух шагов: Map и Reduce. На шаге Map выполняется предварительная обработка данных, которая осуществляется параллельно на различных узлах кластера. На шаге Reduce происходит сведение предварительно обработанных данных в единый результат. Прежде всего, технология применяется для анализа накопленных данных, также данных, полученных из дополнительных источников, таких как социальные сети, Интернет, архивы данные информационных систем и т.д. Hadoop позволяет не только сократить время на обработку и подготовку данных для аналитических систем, но и существенно расширяет возможности по анализу, позволяя оперировать новой информацией, слабоструктурированными или совсем неструктурированными данными. Технология также используется для оптимизации существующих процессов обработки данных, позволяет существенно сократить затраты на хранение и обработку и при этом обеспечить эффективность работы с данными. Технология Hadoop является лучшей в области хранения и обработки больших данных, так как она имеет ряд таких важнейших преимуществ, как снижение времени на обработку данных, снижение стоимости оборудования, повышение отказоустойчивости, линейная масштабируемость, работа с неструктурированными данными. Сегодня, во время высоких технологий и огромных потоков информации, у компаний появилось гораздо больше возможностей для достижения превосходных показателей в ведении бизнеса благодаря использованию системы Big Data, основанной на технологии Hadoop. С помощью больших данных можно активизировать продажи, избежать убытков, научиться разрабатывать продукты и сервисы под запросы пользователя. Главное — научиться ими правильно пользоваться.]]>

Отличная статья 0

idatenru.ru

Технологии больших данных big data

В первом десятилетии нового века появился новый термин — большие данные или big data. Он объединил определение массива информации, варианты работы с ним. То есть технологии больших данных big data – это набор несвязанных или связанных между собой параметров, чтобы структурировать и статистически обработать которые, нужны новые подходы, принципы работы с информацией. За десять лет понятие прочно вошло в обиход маркетологов, исследователей, бизнесменов. Новый способ используют для анализа научной информации, производственных данных, медицинской статистики, банковских операций.

Суть новой методики

Технологии анализа big data применяют для работы с той информацией, которую стандартными методами исследовать невозможно. Они объединяют любые сведения, соответствующие принципу трех V, по начальным буквам слов:

  • Volume: исходных параметров должно быть много, их объем постоянно растет;
  • Velocity: необходима высокая скорость операций, чтобы их структурировать, систематизировать, привести к общему знаменателю;
  • Variety: большое разнообразие источников, откуда черпают параметры для исследований.

Со временем в этим принципы, сформулированные в начале XXI века, добавили еще две V:  Value или ценность исходников и конечного результата для разных областей деятельности, Viability или жизнеспособность. То есть любые данные должны быть нужными, приносящими практическую выгоду от использования. Их ценность должна оправдать затраты на хранение, сбор, обработку.

Суть технологии в том, чтобы найти набор значений, отвечающих принципам трех или четырех V, создать из них какой-то статистический или структурированный блок, которым смогут использовать дальше. Например, собирают обзор о дисконтах, выданных любыми магазинами за год. После обработки становится понятно: какие группы покупателей, пользовались какими товарами. Группы покупателей могут разбить по полу, возрасту, объему среднего чека, частоте покупок и так далее. Товары — по цене, принадлежности к продуктам, промтоварам, бакалее, сделать более узкую разбивку: сколько женщин 25 — 30 лет покупают детское питание определенной марки. Такая обработка информации нужна производственникам, маркетологам, продажникам.

Откуда берут информацию

Яркий пример огромного потока неструктурированных данных, из которых можно и нужно выбирать зерна важных сведений — страницы в социальных сетях. Они постоянно обновляются, меняется число внутренних взаимодействий между отдельными пользователями, тематическими сообществами и прочее. Для обработки этого массива нужны технологии, которые могут за единицу времени анализировать гигантские объемы оценок, обзоров и прочего.

Применяют технологии big data для анализа банковских транзакций (например, обработка сведений по ЖКХ-платежам), показателей, поступающих с метеозондов или датчиков сейсмической активности.

По этой схеме обрабатывают всевозможные записи систем безопасности, даже звонки сотовых операторов. Научные исследования теперь немыслимы без способов структурирования, классификации, моря исходных данных. Постепенно они приходят в управление производством, государственное планирование.

 

Какие техники обработки данных используют

Использование технологий анализа big data без набора инструментов, которые сделают этот самый анализ, невозможно. Чтобы проанализировать большой набор параметров, используют:

  • Data Mining или глубинный анализ (методы класса): разнообразные совокупности математических алгоритмов, объединенные с новейшими информационными технологиями.
  • Краудсорсинг: одновременное анализирование параметров, которые поступают из неограниченного числа ресурсов.
  • А/В-тестирование: сравнение нескольких выборок, сделанных по какому-либо признаку. Похожие кластеры сравнивают между собой, затем меняют одно или несколько исходных значений. Снова сравнивают. Так определяют, какой параметр больше влияет на конечный результат, получают максимально достоверные выводы.
  • Прогнозная аналитика, которая на основе выводов из сведений, прошедших обработку, предугадывает дальнейшее развитие событий или поведения объекта. Один из примеров такой операции — составление биржевых прогнозов.
  • Искусственный интеллект или обучающиеся машины, для которых делают алгоритмы на базе анализа и эмпирических предположений.
  • Сетевой анализ, при котором не систематизированные оценки классифицируют на группы по определенным признакам. Потом отслеживают развитие этих групп между собой или с отдельными пользователями.

Применяют визуальное распознавание, имитационное моделирование, многие другие техники, которые появились в последние 3 — 5 лет. Все зависит от цели: зачем нужно обработать информацию, какие выводы получить.

Перспективы развития

Сейчас технологии анализа big data — дорогое удовольствие, которое доступно крупным концернам, государственным подразделениям. Тем структурам, у которых в распоряжении есть необходимые материальные, технические, людские ресурсы. Эксперты считают, что по мере совершенствования техник обработки информации, методики будут дешеветь. Придут в средний и малый бизнес. Они видят несколько путей развития, которые позволят сократить затраты на методики, способные проанализировать крупные массивы различных показателей:

  • Развитие системы облачных хранилищ и дата-центров. Обращаться к такому источнику за абонентскую плату будет дешевле, чем содержать собственный штат специалистов.
  • Использование «темных данных» или Dark Data. Система во время обработки сведений, посылает массу запросов, получает ответы, скапливается массив результатов, которые в расчетах не участвуют в данный момент, но могут пригодится в будущем. Получается, что пользователю, которому они нужны, собирать заново ничего не надо. Достаточно обработать накопленное, а это в разы дешевле, чем искать заново. Тут словосочетание «темные данные» используют не в смысле «незаконные», а в смысле «не нужные» в данную единицу времени.
  • Развитие машин с искусственным интеллектом, которые способны обучаться, работать по принципам человеческого мозга, но лучше него. Они не устают, не делают ошибки, ничего не забывают и не теряют.
  • Blockchain-технология, когда отдельные блоки информации хранятся в разных местах, собираются воедино по определенному алгоритму. С ее помощью получается сократить количество взаимодействий, запросов и прочих транзакций.
  • Развитие бесплатной системы облачных хранилищ, в которых пользователи смогут архивировать неограниченное количество сведений, обрабатывать их при необходимости самостоятельно.

Пока новшество используются весьма ограничено, но уже видны плюсы технологии больших данных big data.

Плюсы для бизнесменов и маркетологов

Любое бизнес-планирование, маркетинговая стратегия, основаны на полученных сведениях, проанализированных и структурированных. Новые методики позволяют в десятки раз увеличить количество исходных данных, делая выводы и прогнозы более достоверными. С их помощью возможно:

  • Создать уникальный проект, востребованный у целевой аудитории, приносящий прибыль.
  • Корректировать существующие сервисы в соответствии с потребностями, требованиями клиентов.
  • Анализировать потребности отдельных пользователей, социальных групп, знать их. Создавать продукты или услуги, соответствующие им.
  • Обеспечить лояльность клиентов быстрой реакцией на запросы, мгновенный подбор необходимого товара, услуги и прочего.
  • Контроль большого объема виртуальных сведений помогает управлять целевой аудиторией, добиваться от нее нужной реакции.

Как пример грамотного использования новейших методик можно привести сервисы:  Google.trends, Master Card, VISA, IBM. Например, компания IBM смогла на 50% уменьшила количество ложных срабатываний. VISA — защитила от мошенников более двух млрд долларов. Игра World of Tanks сделала сервис, востребованный рекордным количеством геймеров за короткий интервал времени. И таких примеров уже довольно много. Из них ясно одно: за методиками, которые помогут проанализировать большое количество параметров, — будущее.

 

qwizz.ru

Big Data: анализ, обработка и применение

Big data, или большие данные, — понятие, используемое в информационных технологиях и сфере маркетинга. Термин «большие данные» применяется для определения анализа и управления значительными массивами. Таким образом, big data — это та информация, которая за счет своих больших объемов не может быть обработана традиционными способами.

Современную жизнь невозможно представить без цифровых технологий. Мировые хранилища данных пополняются непрерывно, и поэтому также непрерывно приходится изменять как условия хранения информации, так и искать новые способы увеличения объема ее носителей. Исходя из экспертного мнения, увеличение big data и увеличение скорости роста — это нынешние реалии. Как уже говорилось, информация появляется безостановочно. Огромные ее объемы генерируются информационными сайтами, различными сервисами обмена файлами и социальными сетями, однако это лишь малая часть от всего производимого объема.

IDC Digital Universe после проведения исследования заявили, что в течение 5 лет объем данных в целом на всей Земле достигнет сорока зеттабайтов. Это значит, что на каждого человека на планете придется 5200 Гб информации.

Общеизвестно, что люди не являются главным производителем информации. Основной источник, который приносит информационные данные, — это роботы, которые непрерывно взаимодействуют. В их число входят операционная система компьютеров, планшетов и мобильных телефонов, интеллектуальные системы, средства для мониторинга, системы наблюдения и прочее. В совокупности они задают стремительную скорость увеличения количества данных, а значит, потребность в создании как реальных, так и виртуальных серверов увеличивается. В совокупности это ведет к расширению и внедрению новых data-центров.

Чаще всего большие данные определяются как информация, которая объемом превышает жесткий диск ПК, а также не может быть обработана традиционными методами, которые используются при обработке и анализе информации с меньшим объемом.

Если обобщить, то технология обработки big data сводится в конечном итоге к 3 основным направлениям, которые, в свою очередь, решают 3 типа задач:

  1. Хранение и управление огромными объемами данных — их размеры доходят до сотен терабайтов и петабайтов, — которые реляционные базы данных не позволяют эффективно использовать.
  2. Организация неструктурированной информации — тексты, изображения, видео и другие типы данных.
  3. Анализ big data (big data analytics) — здесь рассматриваются и способы работы с неструктурированной информацией, и создание отчетов аналитических данных, и введение прогностических моделей.

Рынок проектов big data тесно взаимосвязан с рынком ВА — бизнес-аналитики, объем которого за 2012 год составил около 100 млрд долларов, и включающим в себя сетевые технологии, программное обеспечение, технические услуги и серверы.

Автоматизация деятельности компании, в частности решения класса гарантирования доходов (RA), также неразрывно связана с использованием технологий big data. На сегодняшний день системы в этой сфере содержат инструменты, которые используются для обнаружения несоответствий и для углубленного анализа данных, а также позволяют выявить возможные потери либо неточности в информации, которые могут привести к снижению результатов сектора.

Российские компании подтверждают, что спрос на технологии больших данных big data есть, отдельно отмечают то, что основные факторы, влияющие на развитие big data в России, — это увеличение объема данных, быстрое принятие управленческих решений и повышение их качества.

ТОП-5 самых нужных статей для коммерсанта:

Какую роль играет big data в маркетинге

Не секрет, что информация — это одна из главных составляющих удачного прогнозирования и разработки маркетинговой стратегии, если уметь ей пользоваться.

Анализ больших данных является незаменимым при определении целевой аудитории, ее интересов и активности. Иными словами, умелое применение big data позволяет точно предсказывать развитие компании.

Используя, например, известную модель RTB-аукциона, с помощью анализа больших данных легко сделать так, что реклама будет выводиться только для тех потенциальных покупателей, которые заинтересованы в приобретении услуги или товара.

Применение big data в маркетинге:

  1. Позволяет узнать потенциальных покупателей и привлечь соответствующую аудиторию в интернете.
  2. Способствует оценке степени удовлетворенности.
  3. Помогает соотносить предлагаемый сервис с потребностями покупателя.
  4. Облегчает поиск и внедрение новых методов увеличения лояльности клиента.
  5. Упрощает создание проектов, которые впоследствии будут пользоваться спросом.

Частный пример — сервис Google.trends. С его помощью маркетолог сможет выявить прогноз на сезон касательно того или иного продукта, географию кликов и колебания. Таким образом, сравнив полученную информацию со статистикой собственного сайта, достаточно легко составить рекламный бюджет с указанием региона и месяца.

Как и где хранить большие данные big data

Файловая система — именно здесь big data и организуются, и хранятся. Вся информация находится на большом количестве жестких дисков на ПК.

«Карта» — map — отслеживает, где непосредственно хранится каждая часть информации.

Для того чтобы застраховаться от непредвиденных обстоятельств, каждую из частей информации принято сохранять по несколько раз — рекомендуется делать это трижды.

Например, после сбора индивидуальных транзакций в розничной сети вся информация о каждой отдельной транзакции будет храниться на нескольких серверах и жестких дисках, а «карта» будет индексировать местоположение файла по каждой конкретной сделке.

Для того чтобы организовать хранение данных в больших объемах, можно использовать стандартное техническое оснащение и программное обеспечение, находящееся в открытом доступе (к примеру, Hadoop).

Большие данные и бизнес-аналитика: разность понятий

На сегодняшний день бизнес-анализ представляет собой описательный процесс результатов, которые были достигнуты за отдельный временной период. Действующая же скорость на обработку big data делает анализ предсказательным. На его рекомендации можно опираться в будущем. Технологии big data дают возможность анализа большего количества типов данных сравнительно со средствами и инструментами, используемыми в бизнес-аналитике. Это позволяет не только сосредоточиться на хранилищах, где данные структурированы, а использовать значительно более широкие ресурсы.

Бизнес-аналитика и big data во многом схожи, однако имеются следующие отличия:

  • Big data используются для обработки объема информации, значительно большего, по сравнению с бизнес-аналитикой, что определяет само понятие big data.
  • При помощи big data можно обрабатывать быстро получаемые и меняющиеся данные, что обуславливает интерактивность, т. е. в большинстве случаев скорость загрузки веб-страницы меньше, чем скорость формирования результатов.
  • Big data могут использоваться при обработке не имеющих структуры данных, работу с которыми следует начинать, только обеспечив их хранение и сбор. Кроме того, необходимо применять алгоритмы, способные выявить основные закономерности в созданных массивах.

Процесс бизнес-аналитики мало схож с работой big data. Как правило, бизнес-аналитике свойственно получать результат путем сложения конкретных значений: в качестве примера можно назвать годовой объем по продажам, рассчитанный как сумма всех оплаченных счетов. В процессе работы с big data расчет происходит путем поэтапного построения модели:  

  • выдвижение гипотезы;
  • построение статической, визуальной и семантической модели;
  • проверка верности гипотезы на основании указанных моделей;
  • выдвижение следующей гипотезы.

Для проведения полного цикла исследования необходимо интерпретировать визуальные значения (интерактивные запросы на основе знаний). Также можно разработать адаптивный алгоритм машинного обучения.

Мнение эксперта

Нельзя слепо полагаться только на мнения аналитиков

Вячеслав Назаров, 

генеральный директор российского представительства компании Archos, Москва

Около года назад, опираясь на мнение экспертов, мы выпустили на рынок абсолютно новый планшет, игровую консоль. Компактность и достаточная техническая мощность нашли свое признание в кругу поклонников компьютерных игр. Следует отметить, что эта группа, несмотря на свою «узкость», имела достаточно высокую покупательную способность. Сначала новинка собрала много положительных отзывов в СМИ и получила одобрительную оценку от наших партнеров. Тем не менее, вскоре выяснилось, что продажи планшета достаточно низки. Решение так и не нашло своей массовой популярности.

Ошибка. Наша недоработка состояла в том, что интересы целевой аудитории не были изучены до конца. Пользователям, предпочитающим играть на планшете, не требуется суперграфика, поскольку они играют в основном в простые игры. Серьезные же геймеры уже привыкли к игре на компьютере на более совершенных платформах. Массированная реклама нашего продукта отсутствовала, маркетинговая кампания также была слабой, и в конечном итоге, планшет не нашел своего покупателя ни в одной из указанных групп.

Последствия. Производство продукта пришлось сократить почти на 40 % по сравнению с первоначально запланированными объемами. Конечно, больших убытков не было, равно как и планируемой прибыли. Однако это заставило нас откорректировать некоторые стратегические задачи. Самое ценное, что было нами безвозвратно потеряно — это наше время.

Советы. Мыслить нужно перспективно. Продуктовые линейки необходимо просчитывать вперед на два-три шага. Что это значит? При запуске некоторого модельного ряда сегодня желательно понимать его судьбу завтра и иметь хотя бы приблизительную картину того, что будет с ним через год-полтора. Конечно, полная детализация маловероятна, но базовый план все же должен быть составлен.

И еще не стоит целиком и полностью доверяться аналитикам. Оценки экспертов надо соизмерять с собственными статистическими данными, а также с оперативной обстановкой на рынке. Если ваш продукт доработан не до конца, не следует его выпускать на рынок, поскольку для покупателя первое впечатление — самое важное, и потом переубедить его будет задачей нелегкой.

Очень важный совет на случай неудачи — быстрота принятия решения. Категорически нельзя просто наблюдать и выжидать. Решить проблему по горячим следам всегда гораздо проще и дешевле, чем устранять запущенную.

Какие проблемы создает система big data

Существуют три основные группы проблем систем big data, которые в иностранной литературе объединены в 3V — Volume, Velocity и Variety, то есть:

  1. Объем.
  2. Скорость обработки.
  3. Неструктурированность.

Вопрос о хранении больших объемов информации сопряжен с необходимостью организации определенных условий, то есть с созданием пространства и возможностей. Что касается скорости, то она связана не столько с замедлениями и торможениями при использовании устаревших методов обработки, сколько с интерактивностью: результат тем продуктивнее, чем быстрее идет процесс обработки информации.

  1. Проблема неструктурированности исходит из раздельности источников, их формата и качества. Для успешного объединения и обработки big data требуется и работа по их подготовке, и аналитические инструменты или системы.
  2. Большое влияние оказывает и предел «величины» данных. Определить величину достаточно сложно, а исходя из этого — проблематично просчитать, какие потребуются финансовые вложения и какие будут необходимы технологии. Тем не менее, для определенных величин, например, терабайт, на сегодняшний день успешно применяются новые методы обработки, которые постоянно совершенствуются.
  3. Отсутствие общепринятых принципов работы с big data — еще одна проблема, которая осложняется вышеупомянутой неоднородностью потоков. Для решения этой проблемы создаются новые методы анализа big data. Исходя из утверждений представителей университетов Нью-Йорка, Вашингтона и Калифорнии, не за горами создание отдельной дисциплины и даже науки big data. Это и является главной причиной того, что в компаниях не спешат вводить проекты, связанные с большими данными. Еще один фактор — высокая стоимость.
  4. Трудности также вызывают подбор данных для анализа и алгоритм действий. На сегодняшний день отсутствует какое-либо понимание того, какие данные несут ценную информацию и требуют аналитики big data, а какие можно не принимать в расчет. В этой ситуации становится ясно и еще одно — на рынке недостаточно профессионалов отрасли, которые справятся с глубинным анализом, сделают отчет о решении задачи и, соответственно, тем самым принесут прибыль.
  5. Есть и моральная сторона вопроса: отличается ли сбор данных без ведома пользователя от грубого вторжения в частную жизнь? Стоит отметить, что сбор данных улучшает качество жизни: например, непрерывный сбор данных в системах Google и Яндекс помогает компаниям улучшать свои сервисы в зависимости от потребностей потребителей. Системы этих сервисов отмечают каждый клик пользователя, его местоположение и посещаемые сайты, все сообщения и покупки — и все это дает возможность демонстрации рекламы, исходя из поведения пользователя. Пользователь не давал своего согласия на сбор данных: такой выбор предоставлен не был. Из этого следует следующая проблема: насколько безопасно хранится информация? К примеру, сведения о потенциальных покупателях, история их покупок и переходов на различные сайты может помочь решить многие бизнес-задачи, но является ли платформа, которой пользуются покупатели, безопасной — это очень спорный вопрос. Многие апеллируют к тому, что на сегодняшний день ни одно хранилище данных — даже сервера военных служб — не защищено в достаточной степени от атак хакеров.

Поэтапное использование big data

Этап 1. Технологическое внедрение компании в стратегический проект.

В задачи технических специалистов входит предварительная проработка концепции развития: анализ путей развития направлений, которым это больше всего необходимо.

Для определения состава и задач проводится разговор с заказчиками, в результате чего анализируются требуемые ресурсы. Параллельно организация принимает решение об отдаче всех задач полностью на аутсорсинг или о создании гибридной команды, состоящей из специалистов этой и любых других организаций.

По статистике большое количество компаний пользуются именно такой схемой: наличие команды экспертов внутри, контролирующих качество выполнения работ и формирования движения, и снаружи, реализующей непосредственную проверку гипотез о развитии какого-либо направления.

Этап 2. Поиск инженера-исследователя данных.

Руководитель собирает штат рабочих коллегиально. Он же отвечает за развитие проекта. Сотрудники HR-службы играют непосредственную роль в создании внутренней команды.

В первую очередь такой команде необходим инженер-аналитик данных, он же data scientist, который будет заниматься задачей формирования гипотез и анализа массива информации. Обозначенные им корреляции будут в будущем использоваться для основания новой продукции и сервисов.

Особенно на начальных этапах важна задача HR-отдела. Его сотрудники решают, кто именно будет выполнять работу, направленную на развитие проекта, где его взять и каким образом придать мотивации. Инженера-аналитика данных найти не так просто, поэтому это «штучный продукт».

В каждой серьезной компании обязан находиться специалист такого профиля, в противном случае теряется фокус проекта. Инженер-аналитик в совокупности: разработчик, аналитик и бизнес-аналитик. Помимо этого, он должен обладать коммуникабельностью для показа результатов своей деятельности и багажом знаний и умений для детального разъяснения своих мыслей.

Примеры поиска

1. В Москве была организована такси-компания «Big Data». По ходу маршрута пассажиры отвечали на задачи из области профессиональной аналитики. В том случае, когда пассажир отвечал на большинство вопросов верно, компания предлагала ему место на работе. Основным недостатком такой техники подбора персонала является нежелание большинства участвовать в такого рода проектах. На собеседование согласилось лишь несколько человек.

2. Проведение специального конкурса по бизнес-аналитике с каким-то призом. Таким способом воспользовался крупный российский банк. В результате в конкурсе хакатона участвовало более чем 1000 людей. Добившимся наивысших успехов в конкурсе предлагалось место на работе. К сожалению, большинство победителей не изъявили желание получать должность, так как их мотивацией был только приз. Но все-таки несколько человек согласились на работу в команде.

3. Поиск в среде специалистов данных, разбирающихся в аналитике бизнеса и способных навести порядок, построив правильный алгоритм действий. К необходимым навыкам специалиста-аналитика относят: программирование, знание Python, R, Statistica, Rapidminer и другие не менее важные для бизнес-аналитика знания.

Этап 3. Создание команды для развития.

Необходима слаженная команда. При рассмотрении продвинутой аналитики, например, инновационного развития компании, потребуются менеджер для создания и развития бизнес-аналитики.

Инженер-исследователь занимается построением и проверкой гипотез для успешного развития взятого вектора.

Руководителю необходимо организовывать развитие взятого направления бизнеса, создавать новые продукты и согласовывать их с заказчиками. В его обязанности, помимо этого, входит расчет бизнес-кейсов.

Менеджер по развитию обязан тесно взаимодействовать со всеми. Инженер-аналитик и менеджер по бизнес-развитию выясняют потребности и возможности анализа big data посредством встреч с сотрудниками, отвечающими за разнообразные участки проекта. Проанализировав ситуацию, менеджер создает кейсы, благодаря которым компания будет принимать решения о дальнейшем развитии направления, сервиса или продукции.

3 принципа работы с big data

Можно выделить основные методы работы с big data: 

  1. Горизонтальная масштабируемость. В силу того, что данных должно быть огромное множество, любая система, обрабатывающая большое количество информации, будет расширяемой. Например, если объем данных вырос в несколько раз — соответственно во столько же раз увеличился и объем «железа» в кластере.
  2. Отказоустойчивость. Исходя из принципа горизонтальной масштабируемости, можно сделать вывод, что в кластере есть большое количество машин. Например, Hadoop-кластер от Yahoo насчитывает их больше 42000. Все методы работы с big data должны учитывать возможные неисправности и искать способы справиться с неполадками без последствий.
  3. Локальность данных. Данные, хранящиеся в больших системах, распределены в достаточно большом количестве машин. Поэтому в ситуации, когда данные хранятся на сервере №1, а обрабатываются на сервере №2, нельзя исключать возможность того, что их передача будет стоить дороже, чем обработка. Именно поэтому при проектировании большое внимание уделяется тому, чтобы данные хранились и проходили обработку на одном компьютере.

Все методы работы с большими данными, так или иначе, придерживаются этих трех принципов.

Как использовать систему big data

Эффективные решения в области работы с большими данными для самых разных направлений деятельности осуществляются благодаря множеству существующих на данный момент комбинаций программного и аппаратного обеспечения.

Важное достоинство big data — возможность применять новые инструменты с теми, которые уже используются в этой сфере. Это играет особенно важную роль в ситуации с кросс-дисциплинарными проектами. В качестве примера можно привести мультиканальные продажи и поддержку потребителей.

Для работы с big data важна определенная последовательность:

  • сначала происходит сбор данных;
  • затем информация структурируется. С этой целью используются дашборды (Dashboards) — инструменты для структурирования;
  • на следующем этапе создаются инсайты и контексты, на основании которых формируются рекомендации для принятия решений. В силу высоких затрат на сбор данных, основная задача — это определить цель использования полученных сведений.

Пример. Рекламные агентства могут использовать агрегированную у телекоммуникационных компаний информацию о местоположении. Такой подход обеспечит таргетированную рекламу. Эта же информация применима и в других сферах, связанных с оказанием и продажей услуг и товаров.

Полученная таким образом информация может оказаться ключевой в принятии решения об открытии магазина в конкретной местности.

Если рассмотреть случай использования outdoor-щитов в Лондоне, не стоит сомневаться, что на сегодняшний день такой опыт возможен только в случае, если возле каждого щита расположить специальный измерительные прибор. В то же время мобильные операторы всегда знают основную информацию о своих абонентах: их расположение, семейное положение и так далее.

Можно допустить, что в скором времени реклама на любом щите будет подстраиваться под каждого конкретного человека.

Еще одна потенциальная область применения big data — сбор информации о количестве посетителей различных мероприятий.

Пример. Организаторы футбольных матчей не способны знать точное число пришедших на матч заранее. Тем не менее, они получили бы такие сведения, воспользуйся они информацией от операторов мобильной связи: где находятся потенциальные посетители за определенный период времени — месяц, неделю, день — до матча. Получается, у организаторов появилась бы возможность спланировать локацию мероприятия в зависимости от предпочтений целевой аудитории.

Big data дает также несравнимые преимущества для банковского сектора, который может воспользоваться обработанными данными для того, чтобы выявить недобросовестных картодержателей.

Пример. При заявлении держателя карты о ее утере или краже банк имеет возможность отследить местоположение карты, по которой производится расчет, и мобильного телефона держателя, чтобы удостовериться в правдивости информации. Таким образом, представитель банка имеет возможность увидеть, что платежная карта и мобильный телефон держателя находятся в одной зоне. А значит — карту использует владелец.

Благодаря преимуществам подобного рода использование информации дает компаниям много новых возможностей, а рынок big data продолжает развиваться.

Основная трудность внедрения big data состоит в сложности расчета кейса. Осложняется этот процесс наличием большого количества неизвестных.

Достаточно сложно делать какие-либо прогнозы на будущее, в то время как данные о прошлом не всегда находятся в зоне доступа. В этой ситуации самое главное — планирование своих первоначальных действий:

  1. Определение конкретного вопроса, в решении которого будет применена технология обработки big data, поможет определиться с концепцией и задаст вектор дальнейших действий. Сделав акцент на сборе информации именно по указанному вопросу, стоит также воспользоваться всеми доступными инструментами и методами для получения более ясной картины. Более того, такой подход значительно облегчит процесс принятия решения в будущем.
  2. Вероятность того, что проект big data будет реализован командой без определенных навыков и опыта — крайне мала. Знания, которые необходимо использовать в таком сложном исследовании, обычно приобретаются долгим трудом, поэтому предыдущий опыт так важен в этой сфере. Сложно переоценить влияние культуры использования информации, полученной путем подобных исследований. Они предоставляют различные возможности, в том числе и злоупотребления полученными материалами. Чтобы использовать информацию во благо, стоит придерживаться элементарных правил корректной обработки данных.
  3. Инсайты — основная ценность технологий. Рынок все еще испытывает острую нехватку сильных специалистов — имеющих понимание законов ведения бизнеса, важности информации и области ее применения. Нельзя не учитывать тот факт, что анализ данных — ключевой способ достижения поставленных целей и развития бизнеса, нужно стремиться к выработке конкретной модели поведения и восприятия. В таком случае большие данные принесут пользу и сыграют положительную роль в решении вопросов ведения дел.

Успешные кейсы внедрения big data

Некоторые из перечисленных ниже кейсов были более удачными в сборе данных, другие — в аналитике big data и путях применения данных, полученных в ходе исследования.

  1. «Тинькофф Кредитные Системы» воспользовался платформой EMC2 Greenplum для массивно-параллельных вычислений. В связи с непрерывным увеличением потока пользователей карт в банке возникла необходимость сделать обработку данных быстрее. Было принято решение о применении big data и работе с неструктурированной информацией, а также корпоративными сведениями, которые были получены из разрозненных источников. От внимания их специалистов не ушло и то, что на сайте в Российском ФНС внедряется аналитический слой федерального хранилища данных. Впоследствии на его основе планируется организовать пространство, предоставляющее доступ к данным налоговой системы для последующей обработки и получения статистических данных.
  2. Отдельно стоит рассмотреть российский стартап Synqera, занимающийся анализом big data online и разработавший платформу Simplate. Суть заключается в том, что производится обработка большого массива данных, анализируются данные о потребителях, их покупках, возрасте, настроении и душевном состоянии. Сеть магазинов косметики установила на кассах датчики, способные распознавать эмоции покупателя. После определения настроения, анализируется информация о покупателе, времени покупки. После этого покупателю целенаправленно поступает информация о скидках и акциях. Это решение увеличило лояльность потребителя и смогла повысить доход продавца.
  3. Отдельно стоит рассказать о кейсе по применению технологий big data в компании Dunkin`Donuts, которые, по аналогии с предыдущим примером, использовали проведение анализа online для увеличения прибыли. Итак, в торговых точках дисплеи отображали спецпредложения, содержимое которых менялось ежеминутно. Основанием замен в тексте служили как время суток, так и товар в наличии. Из кассовых чеков компания получила информацию, какие позиции пользовались наибольшим спросом. Такой способ позволил увеличить доход и оборот складских запасов.

Таким образом, обработка big data положительно сказывается на решении бизнес-задач. Важным фактором, конечно, является выбор стратегии и использование новейших разработок в области big data.

Информация о компании

Archos. Сфера деятельности: производство и продажа электронной техники. Территория: офисы продаж открыты в девяти странах (Испания, Китай, Россия, США, Франция и др.). Численность персонала филиала: 5 (в российском представительстве).

www.kom-dir.ru

Я хочу стать специалистом по обработке больших данных — что дальше? — Look At Me

С какими проблемами приходится сталкиваться? Рынок пока не готов использовать технологии «больших данных». Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет. Именно поэтому мы, по сути, работаем в режиме стартапа — не просто продаём технологии, но и каждый раз убеждаем клиентов, что нужно в эти решения инвестировать. Это такая позиция визионеров — мы показываем заказчикам, как можно поменять свой бизнес с привлечением данных и ИТ. Мы создаем этот новый рынок — рынок коммерческого ИТ-консалтинга в области Big Data.

Если человек хочет  заниматься дата-анализом или ИТ-консалтингом в сфере Big Data, то первое, что важно, — это математическое или техническое образование с хорошей математической подготовкой. Также полезно освоить конкретные технологии, допустим SAS, Hadoop, язык R или решения IBM. Кроме того, нужно активно интересоваться прикладными задачами для Big Data — например, как их можно использовать для улучшенного кредитного скоринга в банке или управления жизненным циклом клиента. Эти и другие знания могут быть получены из доступных источников: например, Coursera и Big Data University. Также есть Customer Analytics Initiative в Wharton University of Pennsylvania, где опубликовано очень много интересных материалов.

Серьёзная проблема для тех, кто хочет работать в нашей области, — это явный недостаток информации о Big Data. Ты не можешь пойти в книжный магазин или в на какой-то сайт и получить, например, исчерпывающий сборник кейсов по всем применениям технологий Big Data в банках. Таких справочников не существует. Часть информации находится в книгах, ещё часть собирается на конференциях,  а до чего-то приходится доходить самим.

Ещё одна проблема заключается в том, что аналитики хорошо чувствуют себя в мире чисел, но им не всегда комфортно в бизнесе. Такие люди часто интровертны, им трудно общаться, и поэтому им сложно убедительно доносить до клиентов информацию о результатах исследований. Для развития этих навыков я бы рекомендовал такие книги,  как «Принцип пирамиды», «Говори на языке диаграмм». Они помогают развить презентационные навыки, лаконично и понятно излагать свои мысли.

Мне очень помогло участие в разных кейс-чемпионатах во время учебы в НИУ ВШЭ. Кейс-чемпионаты — это  интеллектуальные соревнования для студентов, где нужно изучать бизнес-проблемы и предлагать их решение. Они бывают двух видов: кейс-чемпионаты консалтинговых фирм, например, McKinsey, BCG, Accenture, а также независимые кейс-чемпионаты типа Changellenge. Во время участия в них я научился видеть и решать сложные задачи — от идентификации проблемы и её структурирования до защиты рекомендаций по её решению. 

www.lookatme.ru

Применения Big Data |DataSides

Пять лет назад использование принципов Big Data стало трендом. Сегодня они активно изучаются специалистами IT и обсуждаются в профильной прессе. Оно и понятно: цифровые технологии стремительно развиваются, объем информации растет, и, одновременно, расширяются возможности для использования Big Data в реальных проектах. По результатам прогнозов IDC Digital Univers, до 2020 года общий объем данных на планете составит 40 зеттабайтов, что эквивалентно 5200 Гб на каждого жителя Земли.

Прежде чем перейти к вопросу использования Больших Данных, разберемся, что они собой представляют. Под этим термином понимают группу технологий и методов, при помощи которых обрабатывают огромное количество сведений — как структурированных, так и неструктурированных — для получения качественно новых знаний.

Для чего используется парадигма анализа Big Data?

Концепция «Больших Данных» предусматривает решение задач в трех главных направлениях:

1. Хранение и управление массивами информации в сотни и тысячи терабайт, которые обычные базы данных не позволяют продуктивно использовать.

2. Организация неупорядоченных наборов сведений, состоящих из документов, изображений, аудио-, видео и других типов файлов.

3. Обработка имеющейся информации с целью ее структурирования, формирования аналитических дашбордов, составления высокоточных прогнозов. При этом успешность реализации поставленных целей зависит от того, кто Big Data. От качества работы специалистов, занимающихся глубинными и предикативными исследованиями, напрямую зависит срок окупаемости инвестиций. Поэтому в процессе должны быть задействованы профессиональные IT-шники. В свою очередь, аналитики, которые use Big Data, должны отойти от старых технологий и сосредоточить все усилия на решении конкретных бизнес-задач.

Когда и зачем применять технологии Big Data?

Ответ на этот вопрос знает любой компетентный маркетолог. Когда огромные объемы информации эффективно и рационально охвачены, обработаны и проанализированы, компании могут:

  •  получить более полное понимание бизнеса;
  •  проанализировать своих конкурентов;
  •  узнать что-то новое о своих клиентах.

Таким образом, the use of Big Data способствует:

  •  увеличению продаж;
  •  улучшению уровня обслуживания (например, в ресторане или на ресепшене в
  •  снижению затрат;
  •  усовершенствованию продукта или услуги.

Когда вы принимаете решение внедрять Big Data, необходимо четко понимать, какая информация есть в наличии, сколько ее и каких результатов она позволяет достичь. Недавно британская компания разработала алгоритм, который сможет предсказывать ваше местоположение на протяжении всех 24 часов. Программа использует данные вашего смартфона и коррелирует их с информацией от гаджетов людей, которые находятся рядом. Ошибка составляет не более 20 метров. Тщательно изучив привычки таргетинговой аудитории, маркетологи смогут планировать места для размещения рекламы и даже изменять контент на outdoor-щитах в то время, когда мимо проходят потенциальные клиенты определенной целевой группы.

Какие сферы могут выиграть от технологии?

Давайте рассмотрим, какие отрасли больше всего выигрывают от их внедрения.

Ритейл

Розничные торговцы прекрасно знают, как использовать Big Data в своем бизнесе. Они используют собранную информацию для построения долгосрочных и дружественных отношений с клиентами. А полученная прибыль, словно зеркало из амальгамы, отражает результат работы маркетолога.

Образование

Педагоги смогут модернизировать систему школьного образования, мотивировать учеников и студентов ВУЗов к более успешной работе. Также преподавателю будет проще выявить отстающих слушателей курсов, убедиться в понимании темы аудиторией и реализовать более эффективную систему оценки.

Банкинг

Каждый день банкиры сталкиваются с колоссальным объемом информации, которая поступает из бесчисленных источников. Грамотная обработка имеющихся инфопотоков позволит повысить удовлетворенность клиентов, минимизировать кредитные риски и предотвратить мошенничество (детектирование аномального поведения). Поэтому финансисты заинтересованы в поиске новых инновационных способов применения Big Data, как никто другой.

Здравоохранение

Истории болезни, планы лечения, клинические анализы, генетические исследования и рецепты врачей — все это можно объединить в одной базе данных. Аналитика собранных сведений поможет сделать новые выводы о применяемых методах терапии и улучшить уход за пациентами.

Производство

Среди всех применений Big Data особенно хочется отметить производство. В условиях жесткой рыночной конкуренции важно минимизировать расходы сырья и повысить качество продукции. Решения этих задач подскажет предикативная аналитика.

Технологии Big Data

Если вы хотите извлечь выгоду из информации, следует подумать, какие технологии Big Data следует использовать. Для этого существуют специальные инструменты и программные решения:

Hadoop — открытая программная платформа для распределенной и хранения информации на вычислительных кластерах. Она предоставляет огромную вычислительную мощность и практически неограниченные возможности для выполнения параллельных действий. MapReduce — парадигма распределенных вычислений, впервые описанная компанией Google, предназначенная для вычисления некоторых наборов распределенных задач с задействованием большого количества серверов. Лежит в основе открытого программного обеспечения Hadoop.

Среди других инструментов Big Data следует отметить: NoSql, Cloudera, GoogleRefine.

ru.datasides.com

Обновлено: 04.08.2019 — 02:36

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *