300к в нс
@ml_300knsОчередной личный блог о попытках в машиновое обучение
Посты канала (20)
- Как вы наверное заметили стрима не было) Это связано с двумя факторами: - мне тупо не хватило ресурса сесть прогать в п… 13.01.2023
- 🎄 Всех с наступающим новым годом! 🎄 Для меня это пока самый значимый год: женился, начал усиленно заниматься DL, устр… 31.12.2022
- Пост без текста 22.11.2022
- Новогодний стрим Не так давно я закрыл первую домашку из шадовского курса по плюсам — рейтрейсер, потратил огромную куч… 22.11.2022
- Ну все, я теперь официально сотрудник Yandex.Research. Появилось небольшое ощущние, что можно было больше отдыхать лето… 07.11.2022
- С Днем Знаний! 🔔 Под праздник как раз есть классная новость: университет Карнеги-Меллона открывает набор на бесплатный… 01.09.2022
- Пост без текста 21.08.2022
- Пост без текста 21.08.2022
- Typical Decoding for Natural Language Generation 📎 paper Вторая статья про Typical, это опять же метод выбора набора х… 29.07.2022
- The Curious Case of Neural Text Degeneration 📎 paper Сейчас будет про 2 статьи о методах семплинга из LM. Все знают ти… 29.07.2022
- FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness 📎 paper Одна из любимых статей за последне… 29.07.2022
- Editing Factual Knowledge in Language Models 📎 paper В данной статье показан способ отучить модель врать. Выглядит все… 29.07.2022
- Transformer Feed-Forward Layers Are Key-Value Memories (статья #14) https://arxiv.org/abs/2012.14913v2 Обычно очень мно… 18.07.2022
- Пост без текста 18.07.2022
- Полученные патерны расклассифицировали на поверхностные (shallow) и смысловые (semantic), ну и что-то промежуточное меж… 18.07.2022
- Пост без текста 18.07.2022
- Значения как распределения на токенах У нас есть E - матрица превращающая представления на выходе всей сети в распредел… 18.07.2022
- Пост без текста 18.07.2022
- Далее самым интересным было измерение того, откуда именно приходит ответ, из residual или ffn (картинка ниже)? Agreemen… 18.07.2022
- Пост без текста 18.07.2022