私たちのチームは最近、LMUMunichの研究者であるTimoSchickとinrichSchützeによって開発された自然言語処理(NLP)モデルの深層学習トレーニング手法であるPattern-Exploiting Training(PET)について議論しました。
以下はarXivに寄稿した彼らの論文の一部です。

"In this work, we show that performance similar to GPT-3 can be obtained with language models whose parameter count is several orders of magnitude smaller. This is achieved by converting textual inputs into cloze questions that contain some form of task description, combined with gradient-based optimization; additionally exploiting unlabeled data gives further improvements."

(翻訳)「この作業によって、パラメータ数が数桁小さい言語モデルだけでGPT-3と同様のパフォーマンスが得られることを示した。これは、テキスト入力を何らかの形式のタスクの説明を含むクローズ質問に変換し、 グラデーションベースの最適化と並行することを可能とし、ラベルのないデータを活用することで、より一層改善される。」

GPT-3は、明らかにAI業界の最も革新的な成果の一つであり、使途に制限はありません。(無限大です。)
問題は、トレーニングです。パラメータは、AIモデルの調整と調整に使用される変数です。 より多くのパラメータでAIモデルを訓練すればするほど、当然、その結果は、より良くなります。GPT-3モデルには、1,750億のパラメーターと22のグラフィックプロセッサーが必要であり、トレーニングには460万ドルから1200万ドルの費用がかかります。

研究者たちは、GPT-3よりもはるかに効率的な代替のトランスNLPモデルを提案しました。 このモデルは、GPT-3のパラメーターのごく一部である2億2300万のパラメーターのみを使用して、SuperGLUEベンチマークテストでGPT-3を上回りました。

Performance of ALBERT with PET/iPET and GPT-3 on SuperGLUE for 32 training examples. ALBERT with PET/iPET outperforms GPT-3 even though it has three orders of magnitude fewer parameters.

研究チームは、PETの方法を簡単に事前に訓練されたALBERTモデルと結合してPETがpattern-verbalizerペア(PVPs)をクローズスタイル質問に変換し、別のモデルの組み合わせを訓練させて再公式化できるようにしました。

Application of a PVP p = (P, v) for recognizing textual entailment: An input x = (x1, x2) is converted into a cloze question P(x); qp(y | x) for each input is derived from the probability of v(y) being a plausible choice for the masked position.

PET/ iPETが、GPT-3が使用されたパラメータの0.1%のみを使用して、SuperGLUEの特定パフォーマンスベンチマークでGPT-3を上回ったことは注目すべきことです。これは、他のタスクでGPT-3を上回ることができるという意味ではありませんが、AI研究がより負担の少ない環境で、様々な試みができるという道を開き示しました。
SchickとSchützeは、GitHubでPETコードFewGLUEデータセットをオープンソース化しています。

参考までにPET / iPETに関する私たちのチームのセミナーを公開しております。

私たちのAIチームでは、AIの限界・可能性を押し上げる優秀な人材を求めています。 AIの未来に対して情熱をお持ちのがいらっしゃいましたら、jobs@allganize.aiまでメールでご連絡ください!