ГОРОДСКАЯ ОБЩЕСТВЕННО-ПОЛИТИЧЕСКАЯ ГАЗЕТА

КарикатураНаш постоянный автор и земляк, директор центра анализа данных CeDAWI университета «Кавказ», доцент Абзетдин Адамов недавно принимал участие в работе саммита «Хадуп» (Hadoop Summit), проходившего в США, в городе Сан-Франциско. Наш корреспондент встретилась с ним и попросила поделиться впечатлениями об этом мировом форуме.

— Вы недавно были в Сан-Франциско. Расскажите, пожалуйста, о цели вашей поездки?

— Для начала хочу поблагодарить редакцию городской газеты за интерес, проявленный к тематике высоких технологий. Уверен, что эта тема привлекает внимание молодежи и взрослых людей в нашем городе и надеюсь, благодаря Вашей газете их число будет расти.

Что касается моей поездки, в июне я был на саммите «Хадуп» (Hadoop Summit) в Сан-Франциско, а точнее, в известной Силиконовой Долине. Я был приглашен в рамках программы академического альянса со стороны компании Hortonworks, которая является одним из мировых лидеров в области вычислительных платформ для обработки больших объемов данных.

«Хадуп» — это ежегодное научное мероприятие, которое проводится в разных странах и собирает многотысячную «армию» ученых, практиков и бизнесменов, которые ведут исследования в области Больших Данных или намерены использовать их для конкурентного преимущества своего бизнеса. «Хадуп» (Hadoop) — это на самом деле название программного продукта с открытым кодом, а точнее компьютерной платформы, которая предназначена для обработки очень больших объемов данных. А почему «Хадуп»? Очень просто: так называл своего желтого игрушечного слоника сын одного из разработчиков. Именно этот слоник и стал эмблемой программного продукта. Кстати, в этом году саммит отметил свой 10-летний юбилей, в связи с этим было организовано грандиозное шоу.

 

— Какие вопросы обсуждались на саммите, и насколько они интересны для обывателя?

— Несколько слов о масштабах мероприятия, которые подчеркивают его глобальность. Главными организаторами саммита были глобальные и хорошо известные в области информационных технологий компании Hortonworks, Yahoo и Microsoft. В мероприятии принимали участие более 4-х тысяч делегатов из 37 стран. Интересно, что «Хадуп» стал самой обсуждаемой темой в социальной сети Twitter в дни саммита – это своего рода рекорд.

Для того чтобы понять степень актуальности и востребованности обсуждаемых вопросов, нужно сделать небольшой экскурс, откуда и как эта проблематика появилась.

Коммуникационные  технологии, в частности Интернет, ворвались в нашу жизнь около 20 лет назад, и успели за это короткое время изменить до неузнаваемости наш мир и нас самих. Ни одна технология за всю историю человечества не смогла овладеть умами людей так быстро и не оказала такого большого влияния на нашу жизнь, как Интернет.

Более 70% жителей нашей страны имеют доступ к сети Интернет, тогда как среднее мировое проникновение составляет чуть более 40%. Россия является одним из мировых лидеров по степени проникновения мобильной связи с уровнем в 155%, т.е. на каждого жителя нашей страны приходится в среднем 1,5 мобильных устройства (по этому показателю мы превосходим даже США, Японию, Германию, и др.). Правда, по уровню использования телефонов с расширенными возможностями (смартфонов) в 45% мы несколько отстаем от развитых стран.

Абзетдин

У моста Golden Gate в Сан-Франциско

Интернет-сервисы, веб- и мобильные приложения, повсеместная коммуникация, широко доступные сегодня и удовлетворяющие многим нашим потребностям, одновременно стимулируют производство огромного количества данных (в виде метаданных: звонков, текста, электронных писем, статусов в соцсетях, фотографий, видео, данных о местонахождении и т.д.). Интересный факт, который свидетельствует о том, как изменился мир: ежедневно человечество производит столько информации, сколько было произведено с момента зарождения цивилизации до 2003 года (т.е. за несколько тысяч лет).

На сегодняшний день человечество владеет около 7 Зеттабайт информации, а к 2020 году этот показатель возрастет до 44 Зеттабайт. Зеттабайт (Zettabyte) это число с 21 нулем, т.е. 10 в 21-й степени. Для того чтобы понять много это или мало приведем такой пример: если всю информацию в 7 Зеттабайт записать на стандартные DVD-диски (емкость которых составляет 4,7 Gb, а толщина около 1 мм) и сложить их один на другой, то высота полученного столба вдвое превысит расстояние от Земли до Луны.

Обработка больших объемов данных является сложной и многоуровневой задачей, которая не может быть решена обычными подходами и стандартными программно-аппаратными средствами. Вот почему, когда мы говорим об обработке больших данных, то подразумеваем совершенно иные подходы, алгоритмы и техническую инфраструктуру. Даже с доступной сегодня вычислительной мощностью бизнес и государственные организации испытывают трудности в управлении, поиске, анализе и визуализации данных. Более 90% этих данных неструктурированны, что значит, они не имеют предопределенную структуру и модель. Обычно, такие данные бесполезны, если не применять технологии добычи и извлечения данных, а также методы прогрессивного анализа. В то же время информация имеет цену, только если мы можем обработать и понять ее, иначе она бесполезна.

Среди обсуждаемых вопросов можно отметить следующие:

  • Открытые платформы Hadoop/Spark для Больших Данных;
  • Большие Данные в разных секторах бизнеса и экономики;
  • Технологии естественного языка – NLP и вычислительная лингвистика;
  • Жизненный цикл Больших Данных и Анализа;
  • Кто есть кто в индустрии Больших Данных;
  • Инициатива Открытые Данные.

 

— Не могли бы вы привести примеры использования Больших Данных и насколько здесь можно говорить о массовом манипулировании сознанием людей?

— Приведу несколько примеров:

 

Управление рисками в банковской среде

Хорошо известно, одной из главных статей дохода банков является предоставление кредитов клиентам. При этом самым главным риском является риск невозврата кредита. Так вот, для того чтобы управлять этим риском и уменьшить его, необходимо как можно лучше узнать потенциального клиента до выдачи ему кредита. Этому может помочь любая информация, включая размер зарплаты, наличие недвижимости и транспортного средства, уровень образования, состав семьи, состояние здоровья, оплата за коммунальные и др. услуги, размер ежемесячных расходов, количество мобильных звонков и их география, штрафы ГАИ, активность в социальных сетях и т.д. Понятно, что иметь доступ ко всей этой информации и обрабатывать ее без технологий Больших Данных невозможно.

 

Предсказание и предотвращение оттока клиентов

Используя Большие Данные и технологии машинного обучения, компании в самых разных отраслях могут предвидеть и предотвращать отток клиентов к конкурентам. Это особенно актуально для мобильных провайдеров, которые используя данные за многие годы и особые технологии, создают шаблоны поведения абонентов, в том числе, находящихся в зоне риска и готовящихся перейти к другому оператору мобильной связи. Таким образом, сравнивая поведение миллионов покупателей услуг мобильного провайдера  (клиентам каких операторов и как часто искомый абонент звонит) с шаблонами, мобильные операторы могут распознать клиентов в зоне риска еще до принятия ими решения поменять оператора. С помощью индивидуальных программ и специальных предложений они могут удержать покупателей услуг.

 

Анализ покупательской корзины

Крупные торговые сети анализируют транзакции в точках оплаты для того, чтобы выявить зависимость между разными товарами. Например, какие товары и продукты приобретаются вместе, и тем самым могут оптимизировать размещение разных товаров или проводить успешные акции по распродаже. Или выяснить, какие товары наиболее востребованы в определенное время суток, дни недели, времена года. Насколько реализация определенных товаров зависит от погоды или событий и праздников. Это позволяет оптимизировать использование складских помещений и системы доставки, уменьшая расходы до 30%.

Можно привести сотни примеров применительно практически к любым секторам экономики. Несомненно одно — технологии Больших Данных увеличивают конкурентные преимущества любого бизнеса, независимо от сектора.

Касательно негативных сторон этих технологий, как и все технологические революции, которые человечество пережило за свою историю, и технологию Больших Данных можно рассматривать как «палку» о двух концах. При использовании больших объемов информации, неизбежно актуализируются проблемы защиты персональных данных и частной жизни. Мы добровольно делимся информацией со многими сервисами, службами, торговыми и рекламными организациями, и это нас не настораживает, так как эти данные в отдельности не представляют особого интереса. Однако, если представить, что вся эта информация может быть сконцентрирована и проанализирована централизованно, то можно прийти к результатам, которые с пугающей точностью могут не только охарактеризовать человека, но даже предсказать его дальнейшие шаги и поведение в тех или иных условиях.

 

— Кто является мировым лидером в этой сфере, и какое место в этом процессе занимает Россия?

slide2— В сфере технологий Больших Данных заметно доминируют американские технологические гиганты: Google, Amazon, IBM, Facebook, Twitter, Microsoft, Hortonworks, Teradata и др. Такое доминирование связано в первую очередь с развитой исследовательской инфраструктурой и финансированием в ВУЗах, а также наличием реальной конкурентной среды в бизнесе, где востребованы любые инновации, которые могут предоставить преимущества над конкурентами. А эти составляющие в свою очередь приводят к тому, что самые светлые умы со всего мира устремляются со своими идеями в США, становясь катализатором еще большего развития.

Такое доминирование США начало беспокоить и Европейский Союз, который видит в этом угрозу для своей экономической безопасности. Эта позиция была четко озвучена на конференции, организованной Европейской Комиссией. Конференция, в которой я также принимал участие, проходила в Брюсселе в январе текущего года и была посвящена программам по финансированию исследовательских проектов в области Больших Данных.

Что касается нашей страны, то она находится в лучшем положении по сравнению с ЕС, благодаря таким отечественным компаниям как Яндекс, Mail.RU, ВКонтакте, Рамблер и нескольким молодым проектам хорошо известным в мире. Россия является одной из немногих стран в мире, где национальные Интернет-компании доминируют над глобальными мировыми гигантами в предоставлении услуг на внутреннем рынке. Однако, необходимо отметить, что это доминирование в последние годы стремительно снижается. Такая тенденция, на мой взгляд, связана с отсутствием массового интереса к этой области, что в свою очередь можно объяснить падением качества образования в ВУЗах, и недостаточной поддержкой со стороны государства фундаментальных и прикладных исследований. Кроме того, за последние годы в нашей стране принят ряд законов, которые могут препятствовать развитию технологий обработки Больших Данных в нашей стране в будущем. В частности, закон о персональных данных от 1-го сентября 2015 года обязывает всех операторов, работающих с данными, хранить личные данные российских граждан исключительно на территории РФ. С учетом технологических тенденций в мире осуществить это условие технически крайне сложно. И как результат, экономика страны может потерять многомиллиардные инвестиции, которые наверняка будут освоены в США, Китае, Индии и странах ЕС.

Есть крылатое выражение, которое гласит: «Информация – это топливо 21-го века». Данные представляют ценность только, когда они находятся в движении, смешиваются и комбинируются с другой информацией, приобретая новый смысл, делая очевидным то, что было скрыто ранее. Они бесполезны, если неподвижны и просто находятся на хранении. Поэтому, степень открытости или закрытости информации должны регулировать не государственные структуры, а бизнес и владельцы данных.

 

Сюзана САФАРБЕКОВА

№ 31, 05.08.2016

Яндекс.Погода
Декабрь 2021
Пн Вт Ср Чт Пт Сб Вс
 12345
6789101112
13141516171819
20212223242526
2728293031