Skip to content

Instantly share code, notes, and snippets.

@dsibi
dsibi / 1. Раздельный сбор информационного мусора
Last active May 7, 2024 06:16
yandex_python_data_analyst_6_Предобработка данных
Предобработке данных аналитик посвящает массу времени: иначе удовлетворительное решение поставленной задачи неосуществимо.
Чему вы научитесь
Познакомитесь с распространёнными видами «мусора в данных» и специальными методами Pandas для борьбы с ним.
Сколько времени это займёт
2 часа = 5 уроков от 2 до 30 минут.
Постановка задачи
Продолжаем работать с данными Яндекс.Музыки — оцениваем качество данных и повышаем его до готовности к анализу.
@dsibi
dsibi / 1. Принимаемся за статистику
Last active March 12, 2025 07:51
yandex_python_data_analyst_7_Анализ данных и оформление результатов
Когда данные очищены от мусора, можно приступить к самому интересному — расчётам и презентации результатов заказчику.
Чему вы научитесь
Принципам группировки и сортировки данных, расчёту статистики и формированию наглядного отчёта об исследовании.
Сколько времени это займёт
1,5 часа = 5 уроков от 1 до 25 минут.
Постановка задачи
Завершаем анализ данных Яндекс.Музыки, выполняем поставленную менеджером задачу и сдаём отчёт.
@dsibi
dsibi / Задание 1. Что такое проекты в Jupyter
Last active April 11, 2020 09:43
yandex_python_data_analyst_8_Используем Jupyter Notebook
Проект представляет собой единую большую задачу. Он состоит из нескольких заданий и скрытых тестов к ним. Двигаясь от задания к заданию, вы пишете код, выполняете его, оцениваете результат. Последовательно решённые задания соединяются в общий аналитический проект. Прогресс выполнения заданий отображается внизу, на шкале 1 - 2 - … - N.
Для упражнения перейдите сейчас в Jupyter Notebook, расположенный справа. Найдите ячейки, относящиеся к заданию 1. Выполните требуемые действия и нажмите Проверить задание (внизу справа), чтобы увидеть, как всё работает.
@dsibi
dsibi / Добро пожаловать в самостоятельный проект
Last active February 11, 2024 15:37
yandex_python_data_analyst_9_Самостоятельный проект: Музыка
Самостоятельный проект — это практическая проверка знаний, приобретённых вами на вводном курсе. Каждый раздел посвящён отдельной стадии анализа данных с экскурсом в основы Python. Ещё эту работу можно добавить в портфолио. Вы начинаете собирать это портфолио прямо сейчас.
Проект выполняется в пять этапов:
Постановка задачи
Получение данных
Предобработка данных
Анализ данных
Оформление результатов
Для каждой части описаны шаги выполнения c теоретическим приложением. В Jupyter Notebook эти шаги связаны между собой выводами и результатами.
Вы закрепите применение операторов и методов языка Python (и его библиотеки Pandas) на разных стадиях анализа данных. Кроме того, получите первый опыт оформления в Jupyter Notebook проекта, которым можно поделиться.
Если возникнут сложности, всегда можно воспользоваться навигацией по пройденным урокам, а также шпаргалками.
@dsibi
dsibi / 1. Разница между профессиями
Created April 11, 2020 19:21
yandex_python_data_analyst_10_Выбор профессии
Здесь расходятся пути к двум профессиям Яндекс.Практикума — аналитику и специалисту по Data Science. Ничего страшного, если сейчас вы передумаете и переведётесь на другую программу. Вводный курс обеих профессий одинаков.
В чём же разница?
Аналитик данных исследует «боли» бизнеса и помогает принимать решения. Затем в дело вступают разработчики. Если классических алгоритмов недостаточно, нужно машинное обучение. Это математические модели: они формируют предсказания на основе исторических данных. Тогда нужен специалист по Data Science, который знает и анализ данных, и математику, и машинное обучение.
Примеры задач аналитика данных:
Ритейл-сеть хочет найти районы с большой плотностью населения и маленьким количеством супермаркетов.
Мобильному оператору нужно провести A/B-тестирование двух вариантов текста рекламной рассылки.
Интернет-магазину требуется построить дашборд конверсий по источникам трафика.
Примеры задач, где нужно машинное обучение:
Банк хочет автоматически прогнозировать платёжеспособность клиента.
@dsibi
dsibi / Labels align.py
Last active May 22, 2020 06:16
Meteors
#In the code below I have marker labels which now is located close to these markers. What is the way to make customise destination between marker and it's label? I want to put labels a little bit far from markers now.
import plotly.express as px
import plotly.graph_objs as go
import pandas as pd
rows=[['501-600','15','122.58333','45.36667'],
['till 500','4','12.5','27.5'],
['more 1001','41','-115.53333','38.08'],
]
@dsibi
dsibi / Marker colors.py
Last active May 22, 2020 06:17
Meteors
#Marker colors
fig=px.scatter_geo(df,lon='longitude',
lat='latitude',color='bins',
opacity=0.5,size='data',
projection="natural earth",
color_discrete_sequence=px.colors.qualitative.Light24)
#Now this part of code gives me figures for each cells on each map region, even on these which has no data at all. How to show it only for regions which has values in initial table?
import matplotlib as mpl
import matplotlib.pyplot as plt
import geopandas as gpd
import pandas as pd
...
variable = 'price'
@dsibi
dsibi / scratch_M_CalcLabels.py
Created May 27, 2020 15:06
Meteors Meteors
#In the code below I have marker labels on the map itself.
# I put this piece of code:
# float(d) + 5 for d in df["longitude"]],
# lat=[float(d) + 0 for d in df["latitude"]]
# to make these labels close to the markers. But in case of resizing of map these labels looks weird.
# I believe that it is possible to put into condition of labels position not only absolute values
# as it is now, but some sort of dependency between labels coordinates and values in data.
import plotly.express as px
import plotly.graph_objs as go
@dsibi
dsibi / Hover.py
Last active June 2, 2020 12:49
Meteors
import plotly.graph_objs as go
import pandas as pd
rows=[['501-600','15','122.58333','45.36667'],
['till 500','4','12.5','27.5'],
['more 1001','41','-115.53333','38.08'],
]
colmns=['bins','data','longitude','latitude']
df=pd.DataFrame(data=rows, columns=colmns)