Скажем у меня есть большой набор документов представленных векторами, например эмбеддингами. Я хочу применить к ним SVD преобразование для уменьшения размерности, а именно, выбора нового базиса состоящего из меньшего количества векторов. Этот базис я планирую использовать потом для новых приходящих векторов и их представлениея в этом новом базисе, и таким образом получая вектор меньшей размерности чем тот что "пришел". Как мне это сделать?
Да, это классический подход, известный как Анализ Главных Компонент (Principal Component Analysis, PCA), где SVD является одним из основных методов его вычисления.
Вот пошаговая инструкция, как это сделать:
Шаг 1: Обучение (построение базиса на основе имеющихся документов)