This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Предобработке данных аналитик посвящает массу времени: иначе удовлетворительное решение поставленной задачи неосуществимо. | |
Чему вы научитесь | |
Познакомитесь с распространёнными видами «мусора в данных» и специальными методами Pandas для борьбы с ним. | |
Сколько времени это займёт | |
2 часа = 5 уроков от 2 до 30 минут. | |
Постановка задачи | |
Продолжаем работать с данными Яндекс.Музыки — оцениваем качество данных и повышаем его до готовности к анализу. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Когда данные очищены от мусора, можно приступить к самому интересному — расчётам и презентации результатов заказчику. | |
Чему вы научитесь | |
Принципам группировки и сортировки данных, расчёту статистики и формированию наглядного отчёта об исследовании. | |
Сколько времени это займёт | |
1,5 часа = 5 уроков от 1 до 25 минут. | |
Постановка задачи | |
Завершаем анализ данных Яндекс.Музыки, выполняем поставленную менеджером задачу и сдаём отчёт. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Проект представляет собой единую большую задачу. Он состоит из нескольких заданий и скрытых тестов к ним. Двигаясь от задания к заданию, вы пишете код, выполняете его, оцениваете результат. Последовательно решённые задания соединяются в общий аналитический проект. Прогресс выполнения заданий отображается внизу, на шкале 1 - 2 - … - N. | |
Для упражнения перейдите сейчас в Jupyter Notebook, расположенный справа. Найдите ячейки, относящиеся к заданию 1. Выполните требуемые действия и нажмите Проверить задание (внизу справа), чтобы увидеть, как всё работает. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Самостоятельный проект — это практическая проверка знаний, приобретённых вами на вводном курсе. Каждый раздел посвящён отдельной стадии анализа данных с экскурсом в основы Python. Ещё эту работу можно добавить в портфолио. Вы начинаете собирать это портфолио прямо сейчас. | |
Проект выполняется в пять этапов: | |
Постановка задачи | |
Получение данных | |
Предобработка данных | |
Анализ данных | |
Оформление результатов | |
Для каждой части описаны шаги выполнения c теоретическим приложением. В Jupyter Notebook эти шаги связаны между собой выводами и результатами. | |
Вы закрепите применение операторов и методов языка Python (и его библиотеки Pandas) на разных стадиях анализа данных. Кроме того, получите первый опыт оформления в Jupyter Notebook проекта, которым можно поделиться. | |
Если возникнут сложности, всегда можно воспользоваться навигацией по пройденным урокам, а также шпаргалками. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Здесь расходятся пути к двум профессиям Яндекс.Практикума — аналитику и специалисту по Data Science. Ничего страшного, если сейчас вы передумаете и переведётесь на другую программу. Вводный курс обеих профессий одинаков. | |
В чём же разница? | |
Аналитик данных исследует «боли» бизнеса и помогает принимать решения. Затем в дело вступают разработчики. Если классических алгоритмов недостаточно, нужно машинное обучение. Это математические модели: они формируют предсказания на основе исторических данных. Тогда нужен специалист по Data Science, который знает и анализ данных, и математику, и машинное обучение. | |
Примеры задач аналитика данных: | |
Ритейл-сеть хочет найти районы с большой плотностью населения и маленьким количеством супермаркетов. | |
Мобильному оператору нужно провести A/B-тестирование двух вариантов текста рекламной рассылки. | |
Интернет-магазину требуется построить дашборд конверсий по источникам трафика. | |
Примеры задач, где нужно машинное обучение: | |
Банк хочет автоматически прогнозировать платёжеспособность клиента. |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
#In the code below I have marker labels which now is located close to these markers. What is the way to make customise destination between marker and it's label? I want to put labels a little bit far from markers now. | |
import plotly.express as px | |
import plotly.graph_objs as go | |
import pandas as pd | |
rows=[['501-600','15','122.58333','45.36667'], | |
['till 500','4','12.5','27.5'], | |
['more 1001','41','-115.53333','38.08'], | |
] |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
#Marker colors | |
fig=px.scatter_geo(df,lon='longitude', | |
lat='latitude',color='bins', | |
opacity=0.5,size='data', | |
projection="natural earth", | |
color_discrete_sequence=px.colors.qualitative.Light24) |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
#Now this part of code gives me figures for each cells on each map region, even on these which has no data at all. How to show it only for regions which has values in initial table? | |
import matplotlib as mpl | |
import matplotlib.pyplot as plt | |
import geopandas as gpd | |
import pandas as pd | |
... | |
variable = 'price' |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
#In the code below I have marker labels on the map itself. | |
# I put this piece of code: | |
# float(d) + 5 for d in df["longitude"]], | |
# lat=[float(d) + 0 for d in df["latitude"]] | |
# to make these labels close to the markers. But in case of resizing of map these labels looks weird. | |
# I believe that it is possible to put into condition of labels position not only absolute values | |
# as it is now, but some sort of dependency between labels coordinates and values in data. | |
import plotly.express as px | |
import plotly.graph_objs as go |
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
import plotly.graph_objs as go | |
import pandas as pd | |
rows=[['501-600','15','122.58333','45.36667'], | |
['till 500','4','12.5','27.5'], | |
['more 1001','41','-115.53333','38.08'], | |
] | |
colmns=['bins','data','longitude','latitude'] | |
df=pd.DataFrame(data=rows, columns=colmns) |