Скачиваем `Whisper.cpp` (https://github.com/ggerganov/whisper.cpp):

```
cd /tmp
brew install gh
```

(если эта команда дала ошибку, у вас не установлен https://brew.sh)

```
gh repo clone ggerganov/whisper.cpp
cd whisper.cpp
bash ./models/download-ggml-model.sh base
bash ./models/download-ggml-model.sh medium
make
```

Скачаем с Ютуба ролик в качестве примера для распознавания русской речи. Для этого берём короткий ролик Екатерины Шульман на пару минут, [id = f0RCGMCphUM](http://youtube.com/watch?v=f0RCGMCphUM) , и выцепляем из него аудиодорожку в формате WAV:

```
brew install yt-dlp ffmpeg
yt-dlp -x --audio-format wav -o test.wav -- f0RCGMCphUM
```

Конвертируем аудиофайл в формат 16 bit WAV:

```
ffmpeg -i test.wav -ar 16000 -ac 1 -c:a pcm_s16le test_16bit.wav
```

Запускаем распознавание полученного файла `test_16bit.wav` (используем модель `medium`, если охота - можно `base`, она попроще, но качество распознавания на сложной речи будет хуже)

```
./main -f test_16bit.wav -l ru -m models/ggml-medium.bin 
```

Оно задумывается и начинает выплёвывать:

```
main: processing 'test_16bit.wav' (1990600 samples, 124.4 sec), 4 threads, 1 processors, lang = ru, task = transcribe, timestamps = 1 ...
[00:00:00.000 --> 00:00:03.440]   приправим нашу беседу, цитата Бродского.
[00:00:03.440 --> 00:00:05.440]   Вот что он писал.
[00:00:05.440 --> 00:00:08.400]   Вот смотрите, кот.
[00:00:08.400 --> 00:00:12.720]   Коту совершенно наплевать, существует ли общество память
[00:00:12.720 --> 00:00:15.480]   или отдел идеологии при ЦК.
[00:00:15.480 --> 00:00:19.160]   Также, впрочем, ему безразличный президент США,
[00:00:19.160 --> 00:00:20.520]   его наличие или отсутствие.
[00:00:20.520 --> 00:00:23.800]   А чем я хуже этого кота?
[00:00:23.800 --> 00:00:28.120]   Вот как вы думаете, если бы сделать так,
```