Экзамен по анализу данных

методы построения регрессионных моделей

Регрессия, это процесс оценки отношений между переменными. Для того, чтобы строить регрессионную модель, существует несколько методов.

Каждый метод анализирует введённые данные, и даёт в выводе параметры одной функции, которая приближает данные. Можно потом использовать эту функцию чтобы делать прогнозы с новыми данными, например.

Методы

Алгоритм полного перебора

Алгоритм полного перебора порождает все возможные подмножества признаков. Алгоритм последовательно строит модели-претенденты неубывающей сложности.

Параметры каждой модели настраиваются методом наименьших квадратов по обучающей выборке. Наилучшая модель выбирается исходя из минимума ошибки на контрольной выборке. При больших измерениях время работы алгоритма недопустимо велико.

Генетический алгоритм

Алгоритм состоит из итеративно повторяемых шагов. Из текущего множества (популяции) отбирается заданное число лучших моделей (особей). C помощью операций скрещивания и мутации происходит порождение новых особей. Процесс повторяется, пока не выполнится условие останова.

Метод группового учета аргументов

Алгоритмы МГУА воспроизводят схему массовой селекции, согласно которой последовательно порождаются и выбираются модели возрастающей сложности. При этом используются критерии, предложенные в рамках МГУА.

Шаговая регрессия

Шаговыми методами называются методы, заключающиеся в последовательном удалении или добавлении признаков согласно определенному критерию.

Гребневая регрессия

Метод заключается во введении дополнительного регуляризующего слагаемого в минимизируемый функционал (строго говоря, этот метод не является методом выбора признаков, так как не указывает, какие признаки следует исключить из модели).

Ступенчатая регрессия

Алгоритм ступенчатой регрессии состоит в последовательном добавлении признаков, наиболее коррелирующих с вектором регрессионных остатков.

Метод наименьших углов

На каждом шаге алгоритма LARS (Least Angle Regression) происходит изменение вектора параметров модели так, чтобы доставить добавляемому признаку наибольшую корреляцию с вектором регрессионных остатков.

Оптимальное прореживание в линейной регрессии

Оптимальное прореживание — метод упрощения структуры регрессионной модели. Основная идея прореживания: элементы модели, которые оказывают малое влияние на ошибку аппроксимации (3), можно исключить из модели без значительного ухудшения качества аппроксимации.

Как может быть использован IoT в интеграции с SAP Manufacturing Execution

SAP ME используется для управления ресурсами предприятия, связанными с производством. Он позволяет предприятиям связывать, управлять и контролировать, весь цикл жизни своего имущества. Благодаря этой системе, менеджеры и руководители могут быстро принимать решении, зная всё о том, что происходит в заводе, и зная состояние всех машин.

Но для того, чтобы управлять и связывать все эти информации, надо их в начале получать. В этом помогает SAP Leonardo Connected Assets, который позволяет собрание данных датчиков, которые есть в объектах из IoT.

Можно например использовать IoT для того, чтобы:

уменьшить затрат времени на исправлении ошибок в заводе, так как связанные объекты позволяют быстро найти место, где проблема находится.
Улучшить безопасность завода, получая уведомления в системе SAP ME когда что-то происходит
оценить качество продуктов, автоматизируя измерение характеристиков производства
анализировать (и потом улучить) эффективность работы машин и сотрудников
сохранять данные о производстве

Ракурсы и состав CDS

CDS (Core Data Services), это инфраструктура для определения и запрашивания структурных данных. Она позволяет описывать модели данных на более продвинутом уровне. CDS - часть языка программирования ABAP (Advanced Business Apllication Programming) и базы данных SAP HANA, хотя CDS в HANA и CDS в ABAP немного разные.

CDS состоит из трёх основных компонента

DDL (Data definition language) : язык, позволяющий описывать формат и состав данных нашей предметной области. С его помощью можно создавать таблицы, представления, и типы данных. Он похож на SQL, но добавляет возможность прикреплять семантические данные к описанию данных.
QL (Query Language): Язык для запрашивания данных. Позволяет делать запросы к базе данных.
EL (Expression language)

Язык CDS похож на SQL и с ним можно моделировать любые информации, предметы, и процессы реального мира.

lovasoa/Экзамен по анализу данных.md