Ето как става това:

  1. Tokens – как текстовият низ се превръща в поредица от цели числа
  2. Embedding – как тези числа придобиват смисъл
  3. Positional encoding – как моделът знае в какъв ред са дошли токените
  4. Attention – как токените споделят информация помежду си
  5. Multi-head attention – как моделът проследява много видове взаимоотношения едновременно
  6. Feed-forward network – къде се намира голяма част от съхранената структура на модела
  7. Residual stream и Layer normalization – какво прави дълбоките мрежи подходящи за обучение
  8. Next token prediction – какво всъщност извежда моделът и как работи цикълът на генериране
  9. Архитектура и заучени тежести – какво е общо за съвременните големи езикови модели (LLM) и в какво се различават