Eu: então além da matriz com os embeddings de um token eu ainda preciso passar essa máscara de entrada para uma LLM? isso é comum em todos os modelos de LLM?
deepseek: Sim, além da matriz de embeddings dos tokens, você geralmente precisa passar uma máscara de atenção (attention mask) para o modelo. Isso é comum na maioria dos modelos de LLM modernos, especialmente aqueles baseados em arquiteturas Transformer, como BERT, GPT, T5, entre outros.
- Ignorar Tokens de Preenchimento:
- A máscara de atenção informa ao modelo quais tokens são reais e quais são tokens de preenchimento (padding).
- Isso é crucial porque os tokens de preenchimento não têm significado semântico e não devem influenciar o processamento do modelo.