29 марта 2024, пятница, 10:04
TelegramVK.comTwitterYouTubeЯндекс.ДзенОдноклассники

НОВОСТИ

СТАТЬИ

PRO SCIENCE

МЕДЛЕННОЕ ЧТЕНИЕ

ЛЕКЦИИ

АВТОРЫ

Цифровая трансформация. Как выжить и преуспеть в новую эпоху

Издательство «Манн, Иванов и Фербер» представляет книгу Томаса Сибела «Цифровая трансформация. Как выжить и преуспеть в новую эпоху» (перевод Ю. Гиматовой).

Мир стремительно меняется. Эпоха технологических открытий представляет угрозу для отраслей, компаний и человечества, но, вместе с тем, становится и огромной возможностью. Томас Сибел, крупнейший специалист в области информационных технологий, на практических примерах погружает нас в атмосферу цифровой трансформации: слияния облачных вычислений, IoT, big data и искусственного интеллекта. Книга будет интересна всем руководителям, чьим компаниям предстоит пройти процесс трансформации, а также тем, кто хочет глубже понимать происходящее в области технологий и его значение как для бизнеса, так и для планеты в целом.

Предлагаем прочитать фрагмент одной из глав книги.

 

Эволюция big data

Задолго до того, как big data стали популярной темой в деловом мире (примерно в 2005 году), специалисты считали их исключительно технической проблемой. Как отмечалось в главе 3, понятие big data возникло 20 лет назад в астрономии и геномике, большие массивы данных в которых не поддавались обработке с помощью традиционных вычислительных ресурсов. Эти традиционные системы, которые часто называют вертикально масштабируемой архитектурой, состояли из пары контроллеров и многочисленных блоков устройств хранения. Для масштабирования приходилось добавлять новые устройства хранения. После исчерпания мощности контроллеров нужно добавлять новую систему хранения данных. Такой подход требует огромных затрат и не подходит для хранения и обработки больших объемов данных.

В отличие от вертикально масштабируемой архитектуры, горизонтально масштабируемая архитектура использует тысячи или десятки тысяч процессоров, которые позволяют обрабатывать данные параллельно. Для увеличения емкости нужно поставить больше центральных процессоров, памяти и контроллеров доступа в сеть. Это гарантия того, что при масштабировании производительность не упадет. Это более гибкий и менее затратный подход, чем вертикально масштабируемая архитектура. Он идеально подходит для управления большими данными. Сейчас уже существуют технологии программного обеспечения, разработанного для горизонтально масштабируемой архитектуры и обработки big data, например MapReduce и Hadoop.

Термин «большие данные» впервые появился в октябре 1997 года в статье исследователей NASA Майкла Кокса и Дэвида Эллсворта. Статья вышла в сборнике материалов VIII конференции по визуализации Института инженеров электротехники и электроники. Авторы писали: «Визуализация бросает компьютерным системам интересный вызов. Его суть состоит в том, что объемы данных слишком велики, на них тратятся все ресурсы оперативной памяти, локального диска и даже удаленного диска. Мы называем это проблемой больших данных». К 2013 году термин стал настолько популярным и так прочно укоренился в культуре, что Оксфордский словарь английского языка включил его в свое ежегодное издание.

В 2001 году аналитик компании META Group Даг Лейни назвал три главные характеристики big data: размер (объем данных, измеряемый в байтах, гигабайтах, эксабайтах и так далее), скорость (скорость получения или изменения данных, измеряемая в байтах в секунду, сообщениях в секунду или новых полях данных, создаваемых в день) и разнообразие (в том числе форма, способ хранения и механизмы интерпретации).

Размер, скорость и вид

Big data продолжают развиваться и расти по трем измерениям — размеру, скорости и виду. Не только технические специалисты, но и топ-менеджеры должны понимать, как именно каждое из этих измерений добавляет ценности бизнес-активам.

Размер. За последние 25 лет объем данных, создаваемых в мире, заметно вырос — с 2,5 терабайта (2,5 × 1012 байт) в день в 1997 году до 2,5 эксабайта (2,5 × 1018 байт) в день в 2018 году. Этот показатель продолжит расти в ближайшем будущем. Такой же быстрый рост отмечается и на уровне корпораций. По информации Международного центра данных, в 2016 году компании в среднем хранили по 350 терабайт данных. Ожидалось, что эта цифра увеличится на 52 % в 2017 году. Теперь организации могут использовать растущие объемы как внешних данных, так и тех, что создаются внутри компании. Они служат источником информации для работы приложения с ИИ, что позволяет компаниям выявлять новые тенденции и получать более точные прогнозы.

Скорость. По мере распространения IoT данные стали генерироваться с огромной скоростью. Чем больше объем данных, тем лучше работают алгоритмы ИИ; чем выше частота обновления и генерации данных, тем больше производительность ИИ. Например, телеметрические данные временны́х рядов, производимые двигателем с интервалом в одну секунду, содержат в 60 раз больше информационной ценности, чем данные, производимые с интервалом в одну минуту. Это позволяет прогнозирующему приложению с ИИ делать более точные выводы.

Вид. Современные данные состоят из множества различных типов: изображения, видео, телеметрия, человеческий голос, рукописный текст, сетевые графики, электронные письма, текстовые сообщения, твиты, комментарии в интернете, звонки в колл-центр и обратная связь на сайте. Данные делятся на две основные категории — структурированные и неструктурированные. Структурированными данными — наборами, списками или записями — можно эффективно управлять с помощью традиционных инструментов, например, реляционных баз данных и электронных таблиц. Неструктурированные данные, в которых отсутствует схема данных, включают в себя всё остальное: тексты, книги, записи, речь, электронные письма, аудиозаписи, изображения, записи в социальных сетях и видео.

В мире преобладают неструктурированные данные. Они составляют от 70 до 90 % общего объема данных. Сегодня организации могут объединить разобщенные форматы и источники данных — как структурированных, так и неструктурированных — и извлечь из них экономическую ценность при помощи приложений с ИИ.

Например, нефтегазовая компания создала единое интегрированное хранилище данных, получаемых из своих скважин. Оно состоит из разноформатных данных, получаемых из многочисленных источников: телеметрия из архива исторических данных (транзакции из производственных систем); файлы в формате Excel, в которых содержится история геологического анализа; записи, оставленные оборудованием из предыдущей производственной системы; сведения о широте и долготе из системы геолокации, и так далее. Этот общий массив информации дополняется производственными данными из каждой скважины, архивными и актуальными фотоизображениями скважин и другими сведениями. Основная цель — применить алгоритмы ИИ ко всем данным для различных видов использования, в том числе для предиктивного обслуживания оборудования и оптимизации добычи.

Потенциал big data для современного предприятия

Big data, то есть способность собирать, хранить, обрабатывать и анализировать данные любого типа и размера на любой скорости, закладывают основу для широкого внедрения ИИ. Теперь организации могут использовать неограниченный ряд источников данных. Ценными могут оказаться данные, созданные в любом отделе компании: каждый разговор с клиентом, каждая поставка, каждый звонок потенциальному покупателю, каждое резюме будущего сотрудника, каждая заявка на поддержку и т. д.

Компании собирают и хранят данные при помощи разнообразных техник, позволяющих усовершенствовать существующие системы управления. Например, страховые компании обеспечивают сотрудников горнодобывающих компаний и отелей специальными датчиками. Они отслеживают аномальную физическую активность, что позволяет предупредить травмы и избежать исков.

Новые источники данных создаются или добавляются к уже существующим внутри компаний. Например, для запуска нового приложения по обнаружению мошенничества в итальянской энергетической компании Enel машинное обучение учитывало обратную связь по каждому проведенному расследованию. В компании исходили из того, что машинные прогнозы, подкрепленные человеческим интеллектом, будут со временем улучшаться. В поиске информации о производительности оборудования и поломках ВВС США ориентировались на данные из журналов учета ремонтных работ за последние семь лет. Они хранились отдельно от остальных систем. Сегодня архивные данные в сочетании с данными из бортовых журналов помогают разрабатывать алгоритмы предиктивного обслуживания.

Внешние данные, то есть созданные за пределами компании, подкрепляют внутренние и выявляют интересные взаимосвязи. В качестве примеров можно назвать отзывы клиентов на сайтах вроде Yelp, глобальные метеорологические данные, судовые журналы, информацию о морских течениях и температуре и ежедневные отчеты о дорожных заторах. Для ретейлеров полезными могут оказаться данные о жилищном строительстве. Они помогают смоделировать потенциальный спрос на товары в новом районе.

Для энергетической компании ценными окажутся данные о частоте попадания молний в линии электропередачи. Специалисты по data science часто творчески подходят к использованию данных. Например, на основе отзывов о ресторанах и информации о времени их работы на сайтах OpenTable и Yelp и в других открытых источниках одна энергетическая компания сумела оптимизировать свои модели машинного обучения, научив их выявлять заведения, потреблявшие много энергии после окончания рабочего дня. Это признак возможного хищения электроэнергии.

Редакция

Электронная почта: polit@polit.ru
VK.com Twitter Telegram YouTube Яндекс.Дзен Одноклассники
Свидетельство о регистрации средства массовой информации
Эл. № 77-8425 от 1 декабря 2003 года. Выдано министерством
Российской Федерации по делам печати, телерадиовещания и
средств массовой информации. Выходит с 21 февраля 1998 года.
При любом использовании материалов веб-сайта ссылка на Полит.ру обязательна.
При перепечатке в Интернете обязательна гиперссылка polit.ru.
Все права защищены и охраняются законом.
© Полит.ру, 1998–2024.