A proposta do paper publicado pelo Google chamado Titans, propõe uma arquitetura diferente das tradicionais baseadas em transformers e modelos de linguagem de grande escala. Depois de concluir a leitura, esses são os principais pontos que destaquei:
Transformers e suas limitações:
Transformers usam o mecanismo de self-attention
para calcular as relações entre todos os tokens de uma sequência (por exemplo, "o gato pulou sobre o cachorro"). Isso resulta em uma complexidade quadrática, ou seja, é computacionalmente caro para sequências longas. Outra limitação é que os transformers não diferenciam explicitamente entre memória de curto e longo prazo; todos os tokens interagem igualmente.
A proposta dos Titans:
Na arquitetura Titans introduz um sistema de memória dual inspirado no "funcionamento do cérebro humano":