Skip to content

Instantly share code, notes, and snippets.

@qunash
Created March 23, 2024 13:27
Show Gist options
  • Save qunash/bde4ce15982e418dedcdf1154da3848e to your computer and use it in GitHub Desktop.
Save qunash/bde4ce15982e418dedcdf1154da3848e to your computer and use it in GitHub Desktop.

Доска и дорожная карта adiga.ai

Перевод текста

  • Текущие проекты
  • Собранные данные:
    • Пары переводов kbd-rus, вручную собранные из разных источников:
      • ~65 тыс. проверенных
      • ~35 тыс. непроверенных
  • Задачи:
    • Извлечь пары переводов из двуязычных книг (Нартхэр и т.д.). Выровнять их, вручную или с помощью модели Claude 3 Opus
    • Проверить непроверенные пары вручную или с помощью Claude 3 Opus
    • Найти больше источников с параллельными текстами
    • Добавить синтетические данные: Перевести ~100 тыс.+ предложений, выбранных из одноязычного текста с kbd и ady на rus с помощью модели Claude 3 Opus (и, возможно, предстоящих моделей Gemini-1.5 Ultra, GPT-5, Llama-3 и пр.)
    • Обучить модели на переведенных данных:
      • Дообучить модели m2m-100/nllb на парах переводов
      • Поэкспериментировать с дообучением моделей llama-2/llama-3 на одноязычных данных + парах переводов. См. ALMA.
    • Опубликовать обновленные датасеты и обученные модели в открытый доступ на Huggingface.
    • Добавить датасет в OPUS corpus

Генерация текста

  • Текущие проекты
    • adiga.ai - чатбот, генерация текста
  • Собранные данные:
    • ~17 млн слов одноязычного текста на kbd
  • Задачи:
    • Самостоятельно собрать из интернета больше одноязычного текста на kbd и ady (web crawl).
    • Или добавить kbd и ady в проект OSCAR - проект по созданию одноязычных наборов данных из Common Crawl. Common Crawl - открытый набор данных сканирования веб-страниц (более 250 миллиардов страниц).
    • Собрать данные чатов из adiga.ai
    • Перевести наборы данных с инструкциями на черкесский с помощью модели Claude 3 Opus или дообученных моделей m2m-100/nllb. Например датасет OpenHermes-2.5
    • Обучить модели на полученных данных:
      • Поэкспериментировать с дообучением моделей llama-2/llama-3

Аудио

  • Направления:
    • Распознавание речи (ASR)
    • Синтез речи (TTS)
    • Перевод аудио-аудио
  • Текущие проекты
    • 2 обученные ViTS модели для синтеза речи vits-kbd-male - мужской и женский голоса
  • Собранные данные:
  • Задачи:
    • Собрать больше данных речь-текст:
      • Получить уже обработанные данные из разных источников (напр. Gukhel и пр.)
      • Вручную транскрибировать видео/аудио с YouTube и т.п.
    • Обучить модели на собранных данных:
      • ViTs для TTS
      • Whisper для ASR
    • Поэкспериментировать с другими моделями
    • Для speech-to-speech translation см. напр. seamless-m4t
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment