что такое алгоритм big data

Что такое «Big Data»?

Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

что такое алгоритм big data. 60e0fc0e4dcbe59c6cec3620afeb8643. что такое алгоритм big data фото. что такое алгоритм big data-60e0fc0e4dcbe59c6cec3620afeb8643. картинка что такое алгоритм big data. картинка 60e0fc0e4dcbe59c6cec3620afeb8643. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

С развитием технологий количество данных стало увеличиваться в геометрической прогрессии. Традиционные инструменты перестали покрывать потребность в обработке и хранении информации. Для обработки данных, объем которых превышает сотни терабайт и постоянно увеличивается, были созданы специальные алгоритмы. Их принято называть «big data».

Сегодня информация собирается огромными объемами из разных источников: интернет, контакт-центры, мобильные устройства и т.д. Чаще всего такие данные не имеют четкой структуры и упорядоченности, поэтому человек не может использовать их для какой-либо деятельности. Для автоматизации анализа применяют технологии «big data».

Когда появились первые большие данные?

Большие данные появились в 60-70 годах прошлого столетия вместе с первыми ЦОД (центры обработки данных). В 2005 году компании начали понимать масштабы создаваемого контента пользователями интернет-сервисов (Facebook, YouTube и др.). Тогда же начала работу первая платформа, предназначенная для взаимодействия с большими наборами данных, — Hadoop. Сегодня она представляет собой большой стек технологий для обработки информации. Чуть позже популярность начала набирать NoSQL — совокупность методов для создания систем управления большими данными.

Объем генерируемой информации стал увеличиваться с появлением крупных интернет-сервисов. Пользователи загружают фотографии, просматривают контент, ставят «лайки» и т.п. Вся эта информация собирается в больших объемах для дальнейшего анализа, после которого можно вносить улучшения в работу сервисов. Например, социальные сети используют большие данные для показа пользователям релевантной рекламы (то есть той, которая соответствует их потребностям и интересам) в таргете. Это позволяет соцсетям продавать бизнесу возможность проведения точных рекламных кампаний.

Основные свойства больших данных

В самом начале статьи мы определили три основных свойства больших данных из общепринятого определения. Давайте раскроем их более подробно:

Как с ними работают?

Большие данные несут в себе много полезной информации, на основе которой компании создают новые возможности и формируют бизнес-модели. Работа с большими данными делится на 3 этапа: интеграция, управление и анализ.

На этом этапе компания интегрирует в свою работу технологии и системы, позволяющие собирать большие объемы информации из разных источников. Внедряются механизмы обработки и форматирования данных для упрощения работы аналитиков с «big data».

Полученные данные нужно где-то хранить, этот вопрос решается до начала работы с ними. Решение принимается на основе множества критериев, главными из которых считаются предпочтения по формату и технологии обработки. Как правило, для хранения компании используют локальные хранилища, публичные или частные облачные сервисы.

Большие данные начинают приносить пользу после анализа. Это заключительный этап взаимодействия с ними. Для этого применяют машинное обучение, ассоциацию правил обучения, генетические алгоритмы и другие технологии. После анализа данных остается только самое ценное для бизнеса.

Примеры использования больших данных

В общих чертах с «big data» разобрались. Но остался важный вопрос — где их можно применять практически? Ответ: в любой сфере деятельности, которая оперирует необходимыми для анализа данными. Давайте рассмотрим несколько реальных примеров. Это позволит лучше понять, для чего нужны большие данные и как от них можно получить пользу.

В российской банковской сфере большие данные первым начал использовать «Сбербанк». На основе «big data» и биометрической системы в 2014 году они разработали систему идентификации личности клиента по фотографии. Принцип работы очень простой: сравнение текущего снимка с фотографией из базы, которую делают сотрудники при выдаче банковской карты. Новая система сократила случаи мошенничества в 10 раз.

Сегодня «Сбербанк» продолжает использовать большие данные в работе: сбор и анализ информации позволяет управлять рисками, бороться с мошенничеством, оценивать кредитоспособность клиентов, управлять очередями в отделениях и многое другое.

Еще один пример из российского банковского сектора — ВТБ24. Внедрять «big data» компания начала чуть позже «Сбербанка». Сегодня они используют большие данные для сегментации и управления оттоком клиентов, формирования финансовой отчетности, анализа отзывов в интернете и многого другого.

«Альфа-Банку» большие данные помогают контролировать репутацию бренда в интернете, оценивать кредитоспособность новых клиентов, персонализировать контент, управлять рисками и т.п.

Большие данные в бизнесе

Многие ошибочно полагают, что работа с большими данными актуальна только для банковского сектора и ИТ-компаний. Это опровергает пример «Магнитогорского металлургического комбината», который разработал сервис «Снайпер» для снижения расходов сырья в производстве. Технология собирает большие объемы информации, анализирует их и дает рекомендации по оптимизации расходов материалов.

«Сургутнефтегаз» использует специальную систему для отслеживания основных бизнес-процессов в режиме реального времени. Это помогает в автоматизации учета продукции, ценообразовании, обеспечении персонала нужными данными и т.п.

Big Data в маркетинге

Маркетологи используют большие данные для прогнозирования результатов рекламных кампаний. Также анализ помогает в определении наиболее заинтересованной аудитории. Яркий пример «big data» в маркетинге — Google Trends. В систему поступает огромное количество данных, а после анализа пользователь может оценить сезонность того или иного товара (работы, услуги).

Сложности при использовании

Где есть большие возможности, там поджидают и большие трудности. Это правило не обошло стороной big data.

Первая сложность, с которой сталкиваются компании, — большие данные занимают много места. Да, технологии хранения постоянно улучшаются, но при этом и объем данных неуклонно растет (в среднем в два раза каждые два года).

Приобретение огромного хранилища не решает всех проблем. От простого хранения данных толку не будет, с ними нужно работать для получения выгоды. Отсюда вытекает другая сложность — налаживание обработки получаемых больших данных.

Сейчас аналитики тратят 50-80% рабочего времени для приведения информации в приемлемый для клиента вид. Компаниям приходится нанимать больше специалистов, что увеличивает расходы.

И еще одна проблема — стремительное развитие больших данных. Регулярно появляются новые инструменты и сервисы для работы (например, Hbase). Бизнесу приходится тратить много времени и средств, чтобы «быть в тренде» и не отставать от развития.

Таким образом, big data — это совокупность технологий обработки больших объемов информации (сотни терабайтов и более) и сегодня мало кто отрицает их важность в будущем. Их популярность будет расти и распространение в бизнесе увеличиваться. Впоследствии разработают технологии по автоматизации анализа и с big data будут работать не только крупные компании, но и средние с маленькими.

Источник

Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

Привет, Хабр! Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате – наверняка кому-то он будет полезен.

Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.

Начинать надо от простого к сложному, поэтому первая статья – о принципах работы с большими данными и парадигме MapReduce.

История вопроса и определение термина

Термин Big Data появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года (ссылка):

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

При этом уже сейчас термин не использует только ленивый. Особенно часто не по делу термин используют маркетологи. Так что же такое Big Data на самом деле? Раз уж я решил системно изложить и осветить вопрос – необходимо определиться с понятием.

В своей практике я встречался с разными определениями:

· Big Data – это когда данных больше, чем 100Гб (500Гб, 1ТБ, кому что нравится)

· Big Data – это такие данные, которые невозможно обрабатывать в Excel

· Big Data – это такие данные, которые невозможно обработать на одном компьютере

· Вig Data – это вообще любые данные.

· Big Data не существует, ее придумали маркетологи.

В этом цикле статей я буду придерживаться определения с wikipedia:

Большие данные (англ. big data) — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

Таким образом под Big Data я буду понимать не какой-то конкретный объём данных и даже не сами данные, а методы их обработки, которые позволяют распредёлено обрабатывать информацию. Эти методы можно применить как к огромным массивам данных (таким как содержание всех страниц в интернете), так и к маленьким (таким как содержимое этой статьи).

Приведу несколько примеров того, что может быть источником данных, для которых необходимы методы работы с большими данными:

· Логи поведения пользователей в интернете

· GPS-сигналы от автомобилей для транспортной компании

· Данные, снимаемые с датчиков в большом адронном коллайдере

· Оцифрованные книги в Российской Государственной Библиотеке

· Информация о транзакциях всех клиентов банка

· Информация о всех покупках в крупной ритейл сети и т.д.

Количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.

Принципы работы с большими данными

Исходя из определения Big Data, можно сформулировать основные принципы работы с такими данными:

1. Горизонтальная масштабируемость. Поскольку данных может быть сколь угодно много – любая система, которая подразумевает обработку больших данных, должна быть расширяемой. В 2 раза вырос объём данных – в 2 раза увеличили количество железа в кластере и всё продолжило работать.

2. Отказоустойчивость. Принцип горизонтальной масштабируемости подразумевает, что машин в кластере может быть много. Например, Hadoop-кластер Yahoo имеет более 42000 машин (по этой ссылке можно посмотреть размеры кластера в разных организациях). Это означает, что часть этих машин будет гарантированно выходить из строя. Методы работы с большими данными должны учитывать возможность таких сбоев и переживать их без каких-либо значимых последствий.

3. Локальность данных. В больших распределённых системах данные распределены по большому количеству машин. Если данные физически находятся на одном сервере, а обрабатываются на другом – расходы на передачу данных могут превысить расходы на саму обработку. Поэтому одним из важнейших принципов проектирования BigData-решений является принцип локальности данных – по возможности обрабатываем данные на той же машине, на которой их храним.

Все современные средства работы с большими данными так или иначе следуют этим трём принципам. Для того, чтобы им следовать – необходимо придумывать какие-то методы, способы и парадигмы разработки средств разработки данных. Один из самых классических методов я разберу в сегодняшней статье.

MapReduce

Про MapReduce на хабре уже писали (раз, два, три), но раз уж цикл статей претендует на системное изложение вопросов Big Data – без MapReduce в первой статье не обойтись J

MapReduce – это модель распределенной обработки данных, предложенная компанией Google для обработки больших объёмов данных на компьютерных кластерах. MapReduce неплохо иллюстрируется следующей картинкой (взято по ссылке):

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

MapReduce предполагает, что данные организованы в виде некоторых записей. Обработка данных происходит в 3 стадии:

1. Стадия Map. На этой стадии данные предобрабатываются при помощи функции map(), которую определяет пользователь. Работа этой стадии заключается в предобработке и фильтрации данных. Работа очень похожа на операцию map в функциональных языках программирования – пользовательская функция применяется к каждой входной записи.

Функция map() примененная к одной входной записи и выдаёт множество пар ключ-значение. Множество – т.е. может выдать только одну запись, может не выдать ничего, а может выдать несколько пар ключ-значение. Что будет находится в ключе и в значении – решать пользователю, но ключ – очень важная вещь, так как данные с одним ключом в будущем попадут в один экземпляр функции reduce.

2. Стадия Shuffle. Проходит незаметно для пользователя. В этой стадии вывод функции map «разбирается по корзинам» – каждая корзина соответствует одному ключу вывода стадии map. В дальнейшем эти корзины послужат входом для reduce.

3. Стадия Reduce. Каждая «корзина» со значениями, сформированная на стадии shuffle, попадает на вход функции reduce().

Функция reduce задаётся пользователем и вычисляет финальный результат для отдельной «корзины». Множество всех значений, возвращённых функцией reduce(), является финальным результатом MapReduce-задачи.

Несколько дополнительных фактов про MapReduce:

1) Все запуски функции map работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

2) Все запуски функции reduce работают независимо и могут работать параллельно, в том числе на разных машинах кластера.

3) Shuffle внутри себя представляет параллельную сортировку, поэтому также может работать на разных машинах кластера. Пункты 1-3 позволяют выполнить принцип горизонтальной масштабируемости.

4) Функция map, как правило, применяется на той же машине, на которой хранятся данные – это позволяет снизить передачу данных по сети (принцип локальности данных).

5) MapReduce – это всегда полное сканирование данных, никаких индексов нет. Это означает, что MapReduce плохо применим, когда ответ требуется очень быстро.

Примеры задач, эффективно решаемых при помощи MapReduce

Word Count

Начнём с классической задачи – Word Count. Задача формулируется следующим образом: имеется большой корпус документов. Задача – для каждого слова, хотя бы один раз встречающегося в корпусе, посчитать суммарное количество раз, которое оно встретилось в корпусе.

Раз имеем большой корпус документов – пусть один документ будет одной входной записью для MapRreduce–задачи. В MapReduce мы можем только задавать пользовательские функции, что мы и сделаем (будем использовать python-like псевдокод):

Функция map превращает входной документ в набор пар (слово, 1), shuffle прозрачно для нас превращает это в пары (слово, [1,1,1,1,1,1]), reduce суммирует эти единички, возвращая финальный ответ для слова.

Обработка логов рекламной системы

Второй пример взят из реальной практики Data-Centric Alliance.

Задача: имеется csv-лог рекламной системы вида:

Необходимо рассчитать среднюю стоимость показа рекламы по городам России.

Функция map проверяет, нужна ли нам данная запись – и если нужна, оставляет только нужную информацию (город и размер платежа). Функция reduce вычисляет финальный ответ по городу, имея список всех платежей в этом городе.

Резюме

В статье мы рассмотрели несколько вводных моментов про большие данные:

· Что такое Big Data и откуда берётся;

· Каким основным принципам следуют все средства и парадигмы работы с большими данными;

· Рассмотрели парадигму MapReduce и разобрали несколько задач, в которой она может быть применена.

Первая статья была больше теоретической, во второй статье мы перейдем к практике, рассмотрим Hadoop – одну из самых известных технологий для работы с большими данными и покажем, как запускать MapReduce-задачи на Hadoop.

В последующих статьях цикла мы рассмотрим более сложные задачи, решаемые при помощи MapReduce, расскажем об ограничениях MapReduce и о том, какими инструментами и техниками можно обходить эти ограничения.

Спасибо за внимание, готовы ответить на ваши вопросы.

Источник

Технологии Big Data: как использовать большие данные в маркетинге

20 минут на чтение

Оглавление

Что такое Big Data?

Термин Big Data появился в 2008 году. Впервые его употребил редактор журнала Nature — Клиффорд Линч. Он рассказывал про взрывной рост объемов мировой информации и отмечал, что освоить их помогут новые инструменты и более развитые технологии.

Чтобы понять Big Data, необходимо определиться с понятием и его функцией в маркетинге. В наши дни пользователи генерируют данные регулярно: когда они открывают какое-либо приложение, ищут информацию в Google, совершают покупки в интернете или просто путешествуют со смартфоном в кармане. В результате возникают огромные массивы ценной информации, которую компании собирают, анализируют и визуализируют.

Big Data буквально переводится на русский язык как «Большие данные». Этим термином определяют массивы информации, которые невозможно обработать или проанализировать при помощи традиционных методов с использованием человеческого труда и настольных компьютеров. Особенность Big Data еще и в том, что массив данных со временем продолжает экспоненциально расти, поэтому для оперативного анализа собранных материалов необходимы вычислительные мощности суперкомпьютеров. Соответственно, для обработки Big Data необходимы экономичные, инновационные методы обработки информации и предоставления выводов.

Но зачем прилагать столько усилий для систематизации и анализа Big Data? Аналитику Больших данных используют, чтобы понять привлекательность товаров и услуг, спрогнозировать спрос на рынке и реакцию на рекламную кампанию. Работа с Big Data помогает фирмам привлечь больше потенциальных клиентов и увеличить доходы, использовать ресурсы рационально и строить грамотную бизнес-стратегию.

А это значит, что аналитики, умеющие извлекать полезную информацию из больших данных, сейчас нарасхват. Научиться этому можно, даже если вы никогда не работали в IT. Например, «Факультет аналитики Big Data» от GeekBrains предлагает удобные онлайн-занятия и десяток кейсов в портфолио. Кстати, первые шесть месяцев обучения бесплатно. Успешно прошедших курс обязательно трудоустроят – это прописано в договоре.

Разница подходов

Функции и задачи больших данных

Big Data характеризует большой объем структурированных и неструктурированных данных, которые ежеминутно образуется в цифровой среде. IBM утверждает, что в мире предприятия ежедневно генерируют почти 2,5 квинтиллиона байтов данных! А 90% глобальных данных получено только за последние 2 года.

Но важен не объем информации, а возможности, которые даёт её анализ. Одно из основных преимуществ Big Data — предиктивный анализ. Инструменты аналитики Больших данных прогнозируют результаты стратегических решений, что оптимизирует операционную эффективность и снижает риски компании.

Big Data объединяют релевантную и точную информацию из нескольких источников, чтобы наиболее точно описать ситуацию на рынке. Анализируя информацию из социальных сетей и поисковых запросов, компании оптимизируют стратегии цифрового маркетинга и опыт потребителей. Например, сведения о рекламных акциях всех конкурентов, позволяют руководство фирмы предложить более выгодный «персональный» подход клиенту.

Компании, правительственные учреждения, поставщики медицинских услуг, финансовые и академические учреждения — все используют возможности Больших данных для улучшения деловых перспектив и качества обслуживания клиентов. Хотя исследования показывают, что еще почти 43% коммерческих организаций до сих пор не обладают необходимыми инструментами для фильтрации нерелевантных данных, теряя потенциальную прибыль. Поэтому сегодня на рынке наметился курс на модернизацию бизнес-процессов, освоение новых технологий и внедрение Big Data.

Блокчейн и Биг Дата: потенциал объединенной технологии

Блокчейн — это децентрализованная система транзакций, где каждую транзакцию проверяет каждый элемент сети. Такая система гарантирует неизменность и невозможность манипуляции данными.

Криптовалюты и другие технологии блокчейн становятся все более популярными. Только в Японии почти 50 банков вступили в партнерские отношения с Ripple, сетью блокчейнов с открытым исходным кодом и с третьей по величине рыночной капитализацией криптовалютой в мире. Для банков сотрудничество обеспечит мгновенные безрисковые транзакции по низкой цене. Интерес к подобным операциям проявляют финансовые структуры в других странах, что означает дальнейшее развитие новых технологий в банковской сфере.

Использование блокчейна открывает новый уровень аналитики Big Data. Такая информация структурирована, полноценна и безопасна, так как ее невозможно подделать из-за сетевой архитектуры. Анализируя ее, алгоритмы смогут проверять каждую транзакцию в режиме реального времени, что практически уничтожит мошенничество в цифровой сфере. Вместо анализа записей о махинациях, которые уже имели место, банки могут мгновенно выявлять рискованные или мошеннические действия и предотвращать их.

Технология блокчейн применима не только к финансовому сектору. Неизменяемые записи, контрольные журналы и уверенность в происхождении данных — всё это применимо в любых бизнес-сферах. Уже сейчас компании внедряют блокчейн при торговле продуктами питания, а с другой стороны — изучают перспективы технологии при освоении космоса. Ожидается, что будущие решения в сфере Big Data и блокчейн радикально изменят способы ведения бизнеса.

Машинное обучение

Сегодня во многих отраслях внедряют машинное обучение для автоматизации бизнес-процессов и модернизации экономической сферы. Концепция предусматривает обучение и управление искусственным интеллектом (ИИ) с помощью специальных алгоритмов. Они учат систему на основе открытых данных или полученного опыта. Со временем такое приложение способно прогнозировать развитие событий без явного программирования человеком и часов потраченных на написание кода.

Например, с помощью машинного обучения можно создать алгоритм технического анализа акций и предполагаемых цен на них. Используя регрессионный и прогнозный анализы, статистическое моделирование и анализа действий, эксперты создают программы, которые рассчитывают время выгодных покупок на фондовом рынке. Они анализируют открытые данные с бирж и предлагают наиболее вероятное развитие событий.

При работе с Большими данными машинное обучение выполняет сходную функцию: специальные программы анализируют внушительные объемы информации без вмешательства человека. Все, что требуется от оператора «научить» алгоритм отбирать полезные данные, которые нужны компании для оптимизации процессов. Благодаря этому аналитики составляют отчеты за несколько кликов мыши, высвобождая своё время и ресурсы для более продуктивных задач: обработки результатов и поиск наиболее эффективных стратегий.

В динамично развивающемся мире, где ожидания клиентов всё выше, а человеческие ресурсы всё ценнее, машинное обучение и наука о данных играют решающую роль в развитии компании. Цифровая технологизация рабочего процесса жизненно необходима для сохранения лидирующих позиций в конкурентной среде.

Источник

Big data. Математика на службе биологии

Автор сообщества Фанерозой, биотехнолог, Людмила Хигерович.

что такое алгоритм big data. ui6q07lntadvhcuqhq7f4tuqlse. что такое алгоритм big data фото. что такое алгоритм big data-ui6q07lntadvhcuqhq7f4tuqlse. картинка что такое алгоритм big data. картинка ui6q07lntadvhcuqhq7f4tuqlse. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.
Так или иначе, каждый человек, использующий масс-медиа, краем уха слышал о “биг дата”. Однако что это такое на самом деле, за границами ИТ мало кто представляет. И еще меньше людей знают о том, насколько сильно наш сегодняшний мир, каким мы его знаем, зависит от этого малопонятного термина. При этом речь идет не только об обработке больших потоков данных новостей или запросов браузера, или социальных сетей. Сегодня мы расскажем вам о том, как технологии Big Data помогают расширять границы науки.

Для понимания глубины процесса, нам придется ознакомиться с самим понятием “больших данных”, краем глаза поглядеть на историю этого явления, а также узнать, по каким принципам и правилам оно работает.

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.
К сожалению или к счастью, в этом посте мы не будем рассматривать популярную тему с хранением и обработкой персональных данных пользователей и потребителей, хотя беглая пробежка по запросам поисковика показала, что это — наиболее частая сопутствующая тема в статьях о Big Data. Но не переживайте, краем глаза мы этого все же коснемся. Возможно…

Кроме того, мы попытаемся рассказать о данной сфере как можно более понятным языком. А это неминуемо ведет к упрощению некоторых понятий, равно как предмет в учебнике для школьников упрощает термины, использующиеся в Большой науке. Если вы сведущи в big data и заметили у нас неточность — милости просим дополнить нашу статью в комментариях. Если же нет — надеемся, что вы узнаете из нашей статьи что-то новое и интересное.

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

Рождение Колосса

Несмотря на то, что многие статьи в интернете в один голос твердят, что датой рождения термина big data является 3 сентября 2008 года, день выхода спецвыпуска британского научного и научно-популярного журнала Nature, посвященного целиком и полностью перспективам развития технологий работы с большими объемами данных, в том числе экспериментальных, реальное рождение термина произошло намного раньше.

В 1998 году главный ученый компании Silicon Graphics Джон Мэши сделал презентацию, в которой рассказывал о растущем потоке данных и необходимости разработки методов работы с ними. Там же он впервые употребил термин Big data в том смысле, в котором мы его применяем сейчас. Однако эта презентация была адресована узкому кругу коллег-информатиков, и потому широкой огласки не получила.

Однако фактически накопление и работа с данными, подходящими под этот термин, началась задолго до этого. В 40-х годах с развитием НТП и появлением новых вычислительных систем впервые в научных кругах стали обсуждаться проблемы накопления, хранения и извлечения данных. Тогда же вычислительные машины начали применяться в научных целях — сбор и обработка больших объемов статистической информации.

Для тех, кто скажет “какие, к черту, проблемы данных в 40-х годах?!”

Даже если не упоминать ранние механические приборы, в штучном формате создаваемые для автоматизации узких вычислений, включая трехсторонние счеты, “греческий компьютер” со встроенной астрономической картой, астролябией и шестереночным калькулятором, и программируемые с помощью веревок механические куклы и пылесосы эпохи Возрождения, вычислительные машины сопровождают человека уже больше столетия.

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.
что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

Первые же электронные ЭВМ разрабатывались еще в начале 20 века.
В 1930-х годах доктор Конрад Эрнст Отто Цузе, немецкий инженер, вел опытно-конструкторские работы по усовершенствованию громоздких и малофункциональных ЭВМ.

В 1941 он собрал первый компьютер, обладающий всеми свойствами современного компьютера: Z3, так называлось чудо техники, которое функционировало на базе телефонных реле и перфорированной пленки, а вычисления и программирование проводилось в формате двоичного кодирования. Во время Второй мировой войны он убедил военных дать ему возможность продолжать исследования, и даже открыл собственное производство ЭВМ. За три года он усовершенствовал свою машину, и на практике показал, что программируемые ЭВМ можно использовать в практических целях — с помощью Z3 проводились расчеты оптимальной формы крыльев для самолетов, а также обтекаемости ракет.

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

В 1946 году Цузе закончил работу над аппаратом Z4, а в 1948 опубликовал работу о созданном для него первом структурированном высокоуровневом языке программирования — Планкалкюль (нем. Plankalkül — «запланированные вычисления»).

С 1950 по 1960-е года Цузе и его фирма производили самые совершенные на тот момент компьютеры, постоянно улучшая производительность. К 1967 году его фирма поставила более 250 компьютеров, включая аппаратуру для оптической промышленности, авиа- и приборостроения, а также специальные измерительные и вычислительные устройства. Кроме того, Zuze KG создавали и специальные вычислительные машины, ставшие прообразом серверных вычислительных машин современных институтов прикладной математики и информатики, и первые компьютеры, использующие магнитные носители информации.


что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

Позднее из-за финансовых трудностей компания Цузе была перекуплена компанией Siemens AG, а сам изобретатель стал ее консультантом в технических вопросах.


С распространением компьютеров, увеличились рост и объем обрабатываемой информации, как и объем хранимой информации, а вместе с тем — потребность в использовании компьютеров для извлечения и обработки еще большего объема информации. Замкнутый круг, с каждой итерацией (проходом), наращивающий собственный объем. В это же время, в 40 — 50-х годах прошлого века, впервые возникло такое понятие, как e-Science, на котором мы подробнее остановимся позже.

Таким образом появились большие вычислительные мощности, которые ставили на службу научно-технического прогресса. Однако с распространением и развитием ЭВМ их стали применять не только в целях промышленности и исследований, но и ради комфорта. Поначалу это выражалось в составлении прогнозов, проектировании зданий, эргономичной мебели и одежды, и, конечно же, интернета.
что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

Big Data

Итак, что же сегодня представляет собой big data?

Big data или “большие данные” — общее название крупных пакетов данных разной природы, состава и характера. Они могут быть как структурированными (например, данные о температуре, давлении и влажности в определенном регионе за некий период времени), так и недифференцированным набором числовых и буквенных символов, чисел или даже файлов. Например, обычное содержимое вашего жесткого диска могло быть типичными big data, если бы подросло раз этак в тысячу)

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.
В широком смысле — это в принципе все, что связано с производством, хранением и обработкой больших объемов данных. По объему биг дейтэ условно делят на данные определенной природы (данные пользователей, эмпирические данные определенного эксперимента, финансовые данные предприятия, данные Адронного коллайдера и т.п.), по региону (данные Европы, мировые данные), а также по другим критериям, необходимым для конкретной задачи.

Каков же объем данных, где граница больших данных и маленьких?
Проблема в том, что еще пару-тройку лет назад большим считался объем информации “весом” в терабайт (около 1000 гб), десять лет назад уже большинство компьютеров мира имело такой объем памяти как базовый (на отечественный рынок они пришли несколько позднее), пять лет назад появились игры, которые в принципе имели объем, сравнимый с одной десятой терабайта, а сами объемы жестких дисков и вычислительные мощности рядового ПК могли быть сравнимы с серверными шкафами институтов начала второго тысячелетия. Сегодня эти показатели выросли на порядки и еще продолжают расти.

Для наглядности приведем средние величины “мирового объема данных”, которые привели аналитики ISB (отечественной IT компании). Почему средние? Потому что никто точно не знает, и, вероятно, никогда не узнает реального объема всех данных нашей цивилизации.

В узком смысле, big data — это “железо”, физическое обеспечение работы с большими объемами информации, включающее разработку, создание, техническое обслуживание и программное обеспечение для оборудования, на котором осуществляется работа с big data.

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

Прикладная big data

Больших, чем обычно — обычно в значении более крупных объемов по сравнению с необходимым для минимального функционирования человека, среднего предприятия или общества прошлых цивилизационных формаций.
Мы не уверены, насколько правомерно расшифровывать именно так, однако в СМИ часто прибегают к подобному определению на дилетантском уровне.


При этом информатики отмечают три необходимых аспекта, которые отличают технологии big data от всех прочих технологий:

Три V или три основополагающих принципа работы с big data
Были впервые представлены в 2001 году компанией Meta Group, на тот момент одной из крупнейших фирм, специализирующихся на хранении и обработке информации. При этом, изначально VVV не соотносилось непосредственно с big data. Скорее, это было преподнесено в рамках технологических проблем накопления данных и как часть концепции “центрального хранилища данных” для предприятий, в силу своей работы оперирующих большими потоками информации.

Набор VVV состоит из следующих признаков.

Итак, мы кратенько пробежались по особенностям и принципам работы с big data, и даже затронули проблемы, с этим связанные (увеличение объема данных, опасность технического отказа, оптимизация доставки, обеспечение). Перейдем наконец к непосредственно научной стороне вопроса.

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

E-Science. Сухая наука

В естественных науках, особенно в биологии и смежных с ней, существует такое условное разделение, как “сухая наука” и “мокрая наука”. Особенно острым это разделение кажется в тех отраслях, где есть работа непосредственно с эмпирическими данными — т.е. данными, полученными непосредственно в ходе реального (не путать с виртуальным или мысленным) эксперимента или наблюдения in vivo (вживую, в природе).

Мокрая наука как раз и занимается сбором эмпирических данных и проведением опытов. “Мокрые ученые” выращивают плесень в пробирках и выводят бактерии, производящие лекарства, они же занимаются селекцией животных и растений и ездят в экспедиции в джунгли Амазонки. Другими словами, собирают материал в виде физических образцов и статистических данных.

Сухая наука — это та часть, которая занимается математической обработкой данных, полученных мокрой наукой. “Сухие ученые” сидят в теплых кабинетах, греясь от серверных шкафов и день за днем стирая глаза о монитор компьютера, систематизируя и обрабатывая “километры и килограммы” данных.

Конечно, на практике это далеко не всегда разные люди. Большая часть ученых успешно совмещает эти две роли, самостоятельно собирая материал и обрабатывая его, облекая в формат научного труда. Однако это не отменяет того факта, что существуют институты, специализирующиеся только на обработке научных данных.

Выше мы уже рассказывали, что машинная обработка научных сведений начала развиваться чуть ли не одновременно с появлением ЭВМ. Использование вычислительных машин в научных целях получило название e-Science.

E-Science или “электронная наука”

Это не информатика, как Вы могли бы подумать, а обработка больших пакетов электронных данных, полученных в ходе научных экспериментов и наблюдений. Впервые во всеуслышание термин был применен Джоном Тейлором, генеральным директором Управления науки и технологии Соединенного Королевства аж в 1999 году рамках презентации программы по финансированию научных исследований. Тогда же и было определено, что для обеспечения возможности использовать большие вычислительные мощности научными подразделениями требует и дополнительного финансирования, либо аренды институтами и исследовательскими группами чужих вычислительных мощностей. Так вплоть до сегодняшнего дня выстраиваются очереди к суперкомпьютерам крупнейших научно-технических институтов мира. Для справки, в мире сегодня всего 313 суперкомпьютеров, большая часть из которых расположена в Китае и США. При этом научно-исследовательских институтов по миру тысячи, в них сотни и тысячи кафедр и десятки тысяч подразделений и исследовательских групп. Теперь представьте длину очереди к каждому суперкомпьютеру!

Если вам кажется, что обработка научных данных не выглядит такой уж трудной задачей, то вот маленький пример.

Геном кишечной палочки состоит из одной кольцевидной хромосомы. Около 88% ее объема — кодирующие последовательности (“смысловые участки”, гены). Эти 88% содержат 4288 до 5500 цистронов (генов, т.е. участков, ответственных за синтез одного белка). Самый большой цистрон содержит 2383 кодона (триплета, ключевого для определенной аминокислоты), или 7149 пар нуклеотидов. При этом остальные 12 процентов генома не пусты — они не содержат генов, но выполняют регуляторные функции.

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

Если перевести весь геном кишечной палочки в вид буквенного кода по 4 основаниям-нуклеотидам, то получится примерно 4,6 Мб информации. По современным меркам сущий пустяк, однако какой полезный объем — для экономии места концы одних генов являются началом других!

Но кишечная палочка — модельный организм для исследования грамоотрицательных бактерий. Это значит, что она изучена настолько, насколько позволяет сегодняшний уровень науки. Именно с ней сравнивают геном всех исследуемых организмов. Поскольку каждый ее ген известен, а также известно большинство возможных модификаций (ведь даже в организмах разных людей кишечная палочка может значительно отличаться), ее геном используют как образец для секвенирования и анализа других геномов. Казалось бы, 4,6 мегабайт информации — не такой уж большой объем. Но 4,6 мегабайт в рамках генома — это от 4,5 до 5,6 миллиона пар нуклеотидов! Попробуй, сравни без машинной обработки! А ведь кишечная палочка — еще не самая “богатая” на гены бактерия…

Поэтому для сравнения участков ДНК были созданы специальные системы и библиотеки, о которых мы поговорим ниже.

E-Science выросла на необходимости обработки больших, подчас даже огромных объемов данных, хотя и не всегда big data в их прямом значении, подобных содержанию генома или данным о передвижении и распределении ареалов тысяч особей определенных групп птиц. Величина исходных данных и их однородность предъявляют определенные требования к своей обработке. Так, для вычислений и анализа используются сетевые среды с высоким горизонтальным распределением — то есть, увеличение производительности достигается за счет наращивания технических единиц обработки (“процессоров” или вовлеченных серверов). Этот метод также называют грид-вычислением.

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

E-Science однако не сводится к одной только обработке статистических данных. Большая часть исследовательской деятельности в области электронной науки сосредоточена на разработке новых вычислительных инструментов и инфраструктур для поддержки научных открытий. Из-за сложности программного обеспечения и требований к внутренней инфраструктуре в проектах электронной науки обычно участвуют большие группы, которые разрабатываются и управляются исследовательскими лабораториями, крупными университетами или правительствами.

Для удобства работы e-Science консолидировалась в инфраструктуры или консорциумы, разделенные по региону, специализации в методах обработки и преимущественному направлению науки. Крупнейшими консорциумами являются Worldwide LHC Computing Grid, федерация с различными партнерами, включая Европейскую грид-инфраструктуру, Open Science Grid и Nordic DataGrid Facility.

Open Science Grid — крупнейший открытый ресурс, объединяющий интерфейсы более чем 100 общенациональных научных кластеров, а также 50 интерфейсов с географически распределенными кэшами хранения и 8 сетей кампусов университетов и институтов мира. Области науки, пользующиеся преимуществами Open Science Grid, включают:

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

Вот такая она, электронная наука и большая дата. Надеемся, что вам было интересно.

Всего хорошего и не болейте!

что такое алгоритм big data. image loader. что такое алгоритм big data фото. что такое алгоритм big data-image loader. картинка что такое алгоритм big data. картинка image loader. Термин «большие данные» или «big data» начал набирать популярность с 2011 года. Сегодня его хотя бы раз слышал каждый. Проблема в том, что часто понятие используют не по определению. Поэтому давайте подробно разберемся, что это такое.

Balazka, Dominik; Rodighiero, Dario (2020). «Big Data and the Little Big Bang: An Epistemological ®evolution». Frontiers in Big Data. 3: 31.

«China: Big Data Fuels Crackdown in Minority Region: Predictive Policing Program Flags Individuals for Investigations, Detentions». hrw.org. Human Rights Watch. 26 February 2018. Retrieved 4 August 2018.

Min Chen, Shiwen Mao, Yin Zhang, Victor C.M. Leung. Big Data. Related Technologies, Challenges, and Future Prospects. — Spinger, 2014. — 100 p.

Bell, G.; Hey, T.; Szalay, A. (2009). «COMPUTER SCIENCE: Beyond the Data Deluge». Science. 323 (5919): 1297–1298

Bohle, S. «What is E-science and How Should it Be Managed?» Nature.com, Spektrum der Wissenschaft (Scientific American), www.scilogs.com/scientific_and_medical_libraries/what-is-e-science-and-how-should-it-be-managed

«DNAstack tackles massive, complex DNA datasets with Google Genomics». Google Cloud Platform. Retrieved 1 October 2016.

«The Government and big data: Use, problems and potential». Computerworld. 21 March 2012. Retrieved 12 September 2016.

Леонид Черняк. Свежий взгляд на Большие Данные // Открытые системы.СУБД. — 2013. — № 7. — С. 48–51.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *