自宅のRTX3060で小さなLLMを自作してみた
BRANK

こちらのイベントに参加するためのネタとして自宅のPC(RTX3060)で青空文庫のデータセットを使ってトークナイザーを自作しGPT-2アーキテクチャの42.1Mのモデルでの事前学習をやってみました。 = load_dataset("globis-university/aozorabunko-clean", split="train") filtered_dataset = raw_dataset.filter(lambda row: row["meta"]["文字遣い種別"] == "新字新仮名") print(filtered_dataset) print(f"Filtered dataset size: {filtered_dataset.num_rows:,} entries") およそ1万件のデータになります。Dataset({ features: ['text', 'footnote', 'meta'], num_rows: 10246 }) Filtered dataset size: 10,246 entries トークナイザー青空文庫のデータのみで学習を行うということもあり既存のトークナイザーを使うより専用のものを使用した方が良いだろうと考え自作することにしました。SentencePiece を直接呼び出し unigram モデルを学習しています。一般的なCPUですが10分ほどで作成が完了しました。spm.SentencePieceTrainer.train( sentence_iterator=corpus_iterator(filtered_dataset), model_prefix=str(OUTPUT_DIR / "aozora_spm_gpt2"), model…

zenn.dev
Related Topics: AI