ChatGPTで遊びたいが、GPT-2でカスタムモデルを生成

2023.02.15

■概要
ChatGPTで遊んでみたいが、API経由のみ。
APIは従量課金なので、ローカル環境でいじりたい、ファインチューニングしたい。

その前身モデルであるGTP-2であれば、日本語の事前学習モデルが公開されており自由に使える。
今回はrinna社様の「japanese-gpt2-medium」を有難く使わせていただく。

青空文庫からデータをダウンロードし、追加学習させる。
「japanese-gpt2-medium」+「青空文庫データ(吾輩は猫である)」でモデルを生成し、文章を出力してみる。

■準備
・Python実行環境作成。
・開発機に「GeForce RTX 2070」を積んでおり、CUDAのバージョン「11.3.1」をインストールし、その他各種ライブラリをインストール。
色々エラーが出るので頑張る。

■テスト用入力文字列
「猫とは」

■生成結果
・猫とは、意訳をすれば獣《けもの》である。いわんや人間の面識のない動物であるから、少しでも人間と出くわすとすれすれに逃げてしまう。それでもなお一匹残らず、しかも手分けして時々出目《でたらめ》の策を講じた。策略を講じた結果を比べるために比較しなければならない。下覧のため全体像を挙げて見ると決して表側《おもてがわ》から

・猫とは、人間が愛着の念の中で放逐《ほうちつ》した、人間が愛着の念から放逐した以上はもう獣と云う字は使用不能《じゅしょうぶのう》である。かくのごとく冷酷非情なる動物ではあるがそのぶん人間の労苦と苦労とを知っており、人間の事情に疎《かたよ》いところがある。これは西洋で猫と一口に云っても外人が好むものと日本の猫が好むものとに

・猫とは、たしかに相《そう》なものと感じられ、私共《わたし》はこの人間を猫にしたくなった。こう云う個性ある人間はやはり神の子《こまご》だ。それを猫の人間と呼ぶのだから面白くないか」と細君は独《ひと》り言《ごと》のように断言する。 「いよいよだ」と主人は泣きながら云う。 「あの子が学校へ行ったものだから。叔父さんの御蔭

■感想
日本語の学習モデルを1から作るのは大変なので、公開モデルを有難く使わせていただくのが吉。
自社にあったモデルにするため、追加の学習データを用意し、カスタムモデルを作っていくのが現実的。

例えば
・自社製品に関する説明文を学習させる
・FAQを学習させる

これらを用意できれば、膨大なコストをかけずに自社にあったカスタムモデルを生成できる。
ただ追加の学習データが少ないと意図した出力にならないので、その辺りの調整に時間がかかると思われる。

最新記事

過去の記事一覧