Skip to content

Instantly share code, notes, and snippets.

@pavlozt
Created September 22, 2023 18:42
Show Gist options
  • Save pavlozt/cde4ea1c98bde9dca8791df0b5736178 to your computer and use it in GitHub Desktop.
Save pavlozt/cde4ea1c98bde9dca8791df0b5736178 to your computer and use it in GitHub Desktop.
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"id": "87ed0375",
"metadata": {},
"source": [
"# Допустимость расчета процентилей арифметически."
]
},
{
"cell_type": "markdown",
"id": "e09a3231",
"metadata": {},
"source": [
"## Гипотеза\n",
"\n",
"В некой задаче мониторинга SLA собираются данные о среднем, процентилях, количестве наблюдений.\n",
"Возможно, было бы удобно расчитывать общее SLA как 95-ый процентиль таким же способом, как расчитывается общее среднее из нескольких средних в каждой группе. Интуитивно выглядит разумно\n",
"\n",
"Начнем сразу с самого сильного допущения - используем только нормальное распределение."
]
},
{
"cell_type": "code",
"execution_count": 1,
"id": "de686beb",
"metadata": {},
"outputs": [],
"source": [
"import pandas as pd\n",
"import numpy as np\n",
"import matplotlib.pyplot as plt\n",
"%matplotlib inline"
]
},
{
"cell_type": "markdown",
"id": "bba64957",
"metadata": {},
"source": [
"Сгенерируем три распределения. \n",
"\n",
"У двух сервисов среднее время ответа около 1.0, а один из них будет \"сбойный\", где время ответа увеличено до 3.0 ."
]
},
{
"cell_type": "code",
"execution_count": 2,
"id": "055059c5",
"metadata": {},
"outputs": [],
"source": [
"std_dev = 0.5\n",
"n_samples = 100000\n",
"\n",
"p1 = np.random.normal(1, std_dev, size=(n_samples))\n",
"p2 = np.random.normal(1, std_dev, size=(n_samples))\n",
"p3 = np.random.normal(3, std_dev, size=(n_samples)) # сбойный сервис, среднее - 3 секунды "
]
},
{
"cell_type": "code",
"execution_count": 3,
"id": "f0844ac2",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"(100000,)"
]
},
"execution_count": 3,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# промежуточный контроль формы массива\n",
"p1.shape"
]
},
{
"cell_type": "markdown",
"id": "8383b660",
"metadata": {},
"source": [
"Склеим все данные в один массив"
]
},
{
"cell_type": "code",
"execution_count": 4,
"id": "9e524220",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"(300000,)"
]
},
"execution_count": 4,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"all_of_three=np.concatenate((p1, p2, p3))\n",
"all_of_three.shape"
]
},
{
"cell_type": "markdown",
"id": "2b1e0ddc",
"metadata": {},
"source": [
"Визуализируем распределения гистограммой"
]
},
{
"cell_type": "code",
"execution_count": 5,
"id": "1e33db8b",
"metadata": {},
"outputs": [
{
"data": {
"image/png": "",
"text/plain": [
"<Figure size 640x480 with 1 Axes>"
]
},
"metadata": {},
"output_type": "display_data"
}
],
"source": [
"plt.hist(p1, bins=100,alpha=0.5);\n",
"plt.hist(p2, bins=100,alpha=0.5);\n",
"plt.hist(p3, bins=100,alpha=0.5);"
]
},
{
"cell_type": "markdown",
"id": "6a2d06b9",
"metadata": {},
"source": [
"## Операции со средним\n",
"Сначала убедимся, что арифметика со средними вполне рабочая.\n",
"\n",
"Хотя изначально генерировали распределения с заранее известным средним значением, в будущем нам будет проще оперировать произвольными распределениями."
]
},
{
"cell_type": "code",
"execution_count": 6,
"id": "387e5247",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"1.0022367082527037 1.0009226486855023 3.0004910344986926\n"
]
}
],
"source": [
"avg1=p1.mean()\n",
"avg2=p2.mean()\n",
"avg3=p3.mean()\n",
"print(avg1,avg2,avg3)"
]
},
{
"cell_type": "markdown",
"id": "8af33d23",
"metadata": {},
"source": [
"Каково среднее от всей группы значений?"
]
},
{
"cell_type": "code",
"execution_count": 7,
"id": "789cb681",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1.6678834638122997"
]
},
"execution_count": 7,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"all_of_three.mean()"
]
},
{
"cell_type": "markdown",
"id": "2b672c5a",
"metadata": {},
"source": [
"Среднее вычисленное по \"формуле\":"
]
},
{
"cell_type": "code",
"execution_count": 8,
"id": "827f1a79",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"1.6678834638122997"
]
},
"execution_count": 8,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"(avg1+avg2+avg3)/3"
]
},
{
"cell_type": "markdown",
"id": "bccb54aa",
"metadata": {},
"source": [
"Фориула рабочая. Вычислять среднее можно."
]
},
{
"cell_type": "markdown",
"id": "b0355e79",
"metadata": {},
"source": [
"## Операции с процентилями\n",
"\n",
"Рассчитаем 95-ый процентиль отдельно для каждого сервера"
]
},
{
"cell_type": "code",
"execution_count": 9,
"id": "ed376457",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"1.8300305126852614 1.8234658388246632 3.817641528329571\n"
]
}
],
"source": [
"perc95_p1=np.percentile(p1, 95)\n",
"perc95_p2=np.percentile(p2, 95)\n",
"perc95_p3=np.percentile(p3, 95)\n",
"print(perc95_p1,perc95_p2,perc95_p3)"
]
},
{
"cell_type": "markdown",
"id": "9b2408e7",
"metadata": {},
"source": [
"Честный расчет 95 процентиля по всему массиву:"
]
},
{
"cell_type": "code",
"execution_count": 10,
"id": "e6409fb2",
"metadata": {},
"outputs": [
{
"data": {
"text/plain": [
"3.5176817359815047"
]
},
"execution_count": 10,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"np.percentile(all_of_three,95)"
]
},
{
"cell_type": "markdown",
"id": "382dd8c8",
"metadata": {},
"source": [
"Расчет по \"формуле\":"
]
},
{
"cell_type": "code",
"execution_count": 11,
"id": "e24855fe",
"metadata": {},
"outputs": [
{
"name": "stdout",
"output_type": "stream",
"text": [
"2.490379293279832\n"
]
}
],
"source": [
"calculated_all_of_p95=(perc95_p1+perc95_p2+perc95_p3)/3\n",
"print(calculated_all_of_p95)"
]
},
{
"cell_type": "markdown",
"id": "df612a7e",
"metadata": {},
"source": [
"Впрочем, показатель все равно довольно сильно вырос и его все еще можно использовать как индикатор по другим названием."
]
},
{
"cell_type": "markdown",
"id": "63b6c445",
"metadata": {},
"source": [
"# Вывод\n",
"Так не работает. \n",
"\n",
"И даже не близко. Нужно исследовать границы допустимости."
]
},
{
"cell_type": "code",
"execution_count": null,
"id": "77a4252f",
"metadata": {},
"outputs": [],
"source": []
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3 (ipykernel)",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.11.3"
}
},
"nbformat": 4,
"nbformat_minor": 5
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment