DGX Sparkと「nanochat」でゼロから丸一日学習させてLLMを自作してみた

DGX Sparkと「nanochat」でゼロから丸一日学習させてLLMを自作してみた
BRANK

nanochatとはOpenAI共同設立者、元テスラディレクターであり。バイブコーディング・コンテキストエンジニアリングといった言葉を生み出したAndrej Karpathy氏が公開したソフトウェアです。 DGX Sparkです。1petaFLOPのAIパフォーマンスと128GBのメモリがあればnanochatを実用的な速度で学習できるかもしれないということで、DGX SparkによるLLMのゼロからの学習を試してみました。なお、DGX SparkはNVIDIAさんから貸与いただいたものを使用しています。nanochatの学習結果結論から言うと、DGX Sparkでほぼ丸一日（21時間）学習させることで、ある程度対話可能なLLMを作ることができました。以下学習したモデルを動かしたところです。 Spark自体の価格は一旦記憶喪失になって忘れてください）。nanochatoをゼロから学習させる方法簡単に再現できるように、学習の方法を書きます。学習の流れnanochatの学習の流れは、リポジトリのspeedrun.shを確認すると以下のようになっていることが分かります。トークナイザの学習(tok_train)事前学習(base_train)中間学習(mid_train)教師ありファインチューニング(chat_sft)LLM、世の中のほとんどの学習はファインチューニングなのですが、…

zenn.dev 7 days ago

Open page

https://zenn.dev/karaage0703/articles/aedade69a9463f