はじめに

Google Colabの無料枠（T4 GPU）のみを使い、小規模な言語モデルをゼロから構築しました。データ準備・トークナイズ・モデル実装・学習・テキスト生成までの全工程を一気通貫で行っています。

本記事の詳細は Qiitaの記事をご覧ください。

技術スタック

項目	内容
フレームワーク	PyTorch
モデルアーキテクチャ	Transformer（Causal Self-Attention、4層、256次元）
トークナイザ	SentencePiece（BPE、語彙数4,000）
実行環境	Google Colab（T4 GPU）
学習データ	日本文学3作品（約49万文字）
モデルサイズ	約524万パラメータ

ChatGPTのようなLLMがなぜ動くのかを理解するため、小規模なTransformerモデルをゼロから実装しました。