Для выполнения анализа данных с помощью языка Python установим дистрибутив Anaconda с официального сайта https://www.anaconda.com/distribution/ (рис. 1.1).
Individual Edition
Firstname | Lastname | Age |
---|---|---|
Priya | Sharma | 24 |
Arun | Singh | 32 |
Sam | Watson | 41 |
Таблица 1., Показывает возраст бла бла бла
With over 25 million users worldwide, the open-source Individual Edition (Distribution) is the easiest way to perform Python/R data science and machine learning on a single machine. Developed for solo practitioners, it is the toolkit that equips you to work with thousands of open-source packages and libraries.
Рис. 1.1. Персональная редакция Anaconda
А теперь какие-то inline
формулы
На момент написания пособия актуальная версия Anaconda Individual Edition для Python 3.9. Однако в пособии используется немного более ранняя версия для Python 3.7. Кроме open source версии Anaconda, есть и другие: коммерческая, командная и платформенная. Они предоставляют более широкие возможности по работе с данными и используют разные тарифные планы.
В дистрибутив Anaconda входит виртуальная среда по работе с данными Jupyter Notebook. Этот инструмент - интерактивная среда разработки, позволяющая сразу увидеть результат исполнения кода на языке Python. Запускать код на исполнение можно небольшими блоками, можно дополнять код текстовыми блоками Marcdown, что делает исследовательскую работу с данными еще более удобной.
Возможность использовать для аналитики данных язык
Очень часто в платформенных, комплексных решениях для аналитиков данных или исследователей данных (data scientists) поддерживаются оба языка Python и R. Так, облачное решение RStudio Cloud [1] также позволяет писать код на двух языках (разумеется, не в одном
скрипте) и кроме проектов RStudio на языке
Рис. 1.2. RStudio Cloud
Вернемся к Anaconda. Это дистрибутив Python и R, который включает:
- пакеты для анализа данных (предустановленные и легко подключаемые) на языках Python и R;
- управление библиотеками, зависимостями и средами с помощью собственного менеджера Conda;
- библиотеки для настройки моделей машинного обучения и глубокого обучения: scikit-learn, TensorFlow и Theano;
- библиотеки для анализа данных, управления масштабируемостью и производительностью Dask, NumPy, pandas и Numba;
- возможности визуализации данных с помощью библиотек Matplotlib, Bokeh, Datashader и seaborn;
- библиотека для работы с математическими и статистическими моделями SciPy;
- Spyder (IDE/редактор) и Jupyter.
а еще листы могут быть вот такие:
- пакеты для анализа данных (предустановленные и легко подключаемые) на языках Python и R;
- управление библиотеками, зависимостями и средами с помощью собственного менеджера Conda;
- библиотеки для настройки моделей машинного обучения и глубокого обучения: scikit-learn, TensorFlow и Theano;
- библиотеки для анализа данных, управления масштабируемостью и производительностью Dask, NumPy, pandas и Numba;
- возможности визуализации данных с помощью библиотек Matplotlib, Bokeh, Datashader и seaborn;
- библиотека для работы с математическими и статистическими моделями SciPy;
- Spyder (IDE/редактор) и Jupyter.
Экосистема Anaconda представлена на рис. 1.3.
Рис. 1.3. Возможности Anaconda
При установке Anaconda необходимо обратить внимание на следующие параметры: если не устанавливаете программу для всех пользователей (в Windows для этого нужны привилегии Администратора) выберите вариант установки «Только я» (Just Me). В качестве папки для установки Anaconda выберите путь, который не содержит имен папок с пробелами в названии (таких как, например, Program Files) и не содержит не английских символов юникода (например, русских букв). В противном случае при подключении пакетов могут возникнуть проблемы интеграции.
Выберите, нужно ли добавлять Anaconda в переменную окружения PATH. Рекомендуется не делать этого, потому что это может повлиять на работу других программ (рис. 1.4).
Рис. 1.4. Диалоговое окно инсталляции Anaconda
B Anaconda есть возможность работать с Jupyter Notebook. Notebook состоит из блоков кода или текста и имеет расширение .ipynb. Создать новый файл можно с домашней страницы (http:// localhost:8888/tree#), которая открывается в браузере при запуске Jupyter Notebook (компьютер пользователя - локальный хост, выход в интернет не требуется). При выборе доступного языка Python 3 (рис. 1.5) открывается новый notebook (рис. 1.6).
Рис. 1.5. Создание нового notebook