Skip to content

Instantly share code, notes, and snippets.

@mazurov
Last active October 10, 2018 11:04
Show Gist options
  • Save mazurov/c60d95dc3a40ee45b344f4333284b582 to your computer and use it in GitHub Desktop.
Save mazurov/c60d95dc3a40ee45b344f4333284b582 to your computer and use it in GitHub Desktop.
Mazurov Highload++ abstract
Как масштабировать обработку большого количества аналитических данных
Hive является одним из основных инструментов обработки данных в Criteo, где каждый день сотни аналитиков и тысячи автоматизированных программ запускают Hive запросы. В докладе обсуждается эволюция платформы Hive в Criteo от подверженной ошибкам установки на выделенных серверах до самой лучшей в своем классе архитектуры, способной к самовосстановлению, автоматическому масштабированию для управления растущей нагрузкой.
Полученная платформа основана на системе управления кластерами Mesos, которая позволяет Criteo масштабироваться по требованию, рациональнее использовать ресурсы и без проблем развертывать новые версии Hive. В докладе подробно описывается архитектура данных Criteo. Cлушатели узнают как компания решила проблемы безопасности, мониторинга, планирования, тестирования и балансировки нагрузки на нескольких уровнях.
Criteo обладает одним из самых больших Hadoop кластеров в Европе. Основными продуктами компании являются системы для точного таргетирования и повторного вовлечения покупателей с помощью динамической баннерной рекламы в веб, мобильных браузерах и приложениях.
Доклад рассчитан на разработчиков имеющих базовые знания о Hive и Mesos/Marathon.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment