Rosmine (@rosmineb.bsky.social)

So much learning in re-reading old banger papers e.g. Adafactor includes - new low rank matrix approximation algorithm (used for second moment) - detecting when Adam second moment is out of date - better beta_2 schedules - analysis of model training stability arxiv.org/pdf/1804.04235

loading . . .

https://arxiv.org/pdf/1804.04235