Ето как става това:
- Tokens – как текстовият низ се превръща в поредица от цели числа
- Embedding – как тези числа придобиват смисъл
- Positional encoding – как моделът знае в какъв ред са дошли токените
- Attention – как токените споделят информация помежду си
- Multi-head attention – как моделът проследява много видове взаимоотношения едновременно
- Feed-forward network – къде се намира голяма част от съхранената структура на модела
- Residual stream и Layer normalization – какво прави дълбоките мрежи подходящи за обучение
- Next token prediction – какво всъщност извежда моделът и как работи цикълът на генериране
- Архитектура и заучени тежести – какво е общо за съвременните големи езикови модели (LLM) и в какво се различават
You must log in or # to comment.

