- Текущие проекты
- zedzek.com - перевод текстов
- Собранные данные:
- Пары переводов
kbd
-rus
, вручную собранные из разных источников:- ~65 тыс. проверенных
- ~35 тыс. непроверенных
- Пары переводов
- Задачи:
- Извлечь пары переводов из двуязычных книг (
Нартхэр
и т.д.). Выровнять их, вручную или с помощью моделиClaude 3 Opus
- Проверить непроверенные пары вручную или с помощью
Claude 3 Opus
- Найти больше источников с параллельными текстами
- Добавить синтетические данные: Перевести ~100 тыс.+ предложений, выбранных из одноязычного текста с
kbd
иady
наrus
с помощью модели Claude 3 Opus (и, возможно, предстоящих моделей Gemini-1.5 Ultra, GPT-5, Llama-3 и пр.) - Обучить модели на переведенных данных:
- Дообучить модели
m2m-100
/nllb
на парах переводов - Поэкспериментировать с дообучением моделей
llama-2
/llama-3
на одноязычных данных + парах переводов. См. ALMA.
- Дообучить модели
- Опубликовать обновленные датасеты и обученные модели в открытый доступ на Huggingface.
- Добавить датасет в OPUS corpus
- Извлечь пары переводов из двуязычных книг (
- Текущие проекты
- adiga.ai - чатбот, генерация текста
- Собранные данные:
- ~17 млн слов одноязычного текста на
kbd
- ~17 млн слов одноязычного текста на
- Задачи:
- Самостоятельно собрать из интернета больше одноязычного текста на
kbd
иady
(web crawl). - Или добавить
kbd
иady
в проект OSCAR - проект по созданию одноязычных наборов данных из Common Crawl. Common Crawl - открытый набор данных сканирования веб-страниц (более 250 миллиардов страниц). - Собрать данные чатов из
adiga.ai
- Перевести наборы данных с инструкциями на черкесский с помощью модели Claude 3 Opus или дообученных моделей
m2m-100
/nllb
. Например датасет OpenHermes-2.5 - Обучить модели на полученных данных:
- Поэкспериментировать с дообучением моделей
llama-2
/llama-3
- Поэкспериментировать с дообучением моделей
- Самостоятельно собрать из интернета больше одноязычного текста на
- Направления:
- Распознавание речи (ASR)
- Синтез речи (TTS)
- Перевод аудио-аудио
- Текущие проекты
- 2 обученные ViTS модели для синтеза речи vits-kbd-male - мужской и женский голоса
- Собранные данные:
- ~6 часов речи-текста на кабардинском (kbd), Мурат Сохов и прочие
- ~12 часов речи-текста на кабардинском (kbd) из аудиокниги, Щихухэр иджыри мэкI
- Задачи:
- Собрать больше данных речь-текст:
- Получить уже обработанные данные из разных источников (напр. Gukhel и пр.)
- Вручную транскрибировать видео/аудио с YouTube и т.п.
- Обучить модели на собранных данных:
ViTs
для TTSWhisper
для ASR
- Поэкспериментировать с другими моделями
- Для speech-to-speech translation см. напр. seamless-m4t
- Собрать больше данных речь-текст: