Що це означає: Training the model should look familiar, except for two things. The scheduler gets called every time a batch is fed to the model. We're avoiding exploding gradients by clipping the gradients of the model using clip_grad_norm_.
Це означає, що процес навчання моделі буде схожий на звичний, але з двома важливими відмінностями:
- Планувальник швидкості навчання (scheduler) викликається після кожного батчу даних. Це дозволяє динамічно змінювати швидкість навчання протягом процесу тренування, що може покращити конвергенцію та запобігти перенавчанню.
- Градієнти моделі обрізаються за допомогою clip_grad_norm_. Це запобігає вибуху градієнтів (exploding gradients), коли градієнти стають занадто великими, що може призвести до нестабільності навчання. Обрізання градієнтів допомагає забезпечити більш плавне та стабільне навчання.
Коротше кажучи, ці два механізми спрямовані на оптимізацію процесу навчання та запобігання потенційним проблемам, які можуть виникнути під час тренування.
![image](https://gis