Lesson 6

機械学習、深層学習の最新の応用事例

Lesson 6 Chapter 1
自然言語処理

AIがどんな分野でどのように用いられているのかについては Lesson 5 で説明した通りですが、 Lesson 6 では、機械学習や深層学習において用いられているいくつかの技術別に、なるべく最新の応用事例を紹介します。 最先端のAIについて学ぶことで、AI技術の未来を見据えたビジョンを持つことができるでしょう。

自然言語処理の分野では、2022年11月末に OpenAI によって発表された「ChatGPT」(https://openai.com/blog/chatgpt)が大きな話題を読んでいます。 ChatGPT は GPT-3.5 という大規模言語モデル(LLM)によって動く対話型AIです。 それ以前までの対話型のAI(チャットボット)に比べ、驚くほどに人間らしい会話ができるだけでなく、 文章の要約や、要望に応じたコーディング、さらには物語の創作など、対話型AIとして高い汎用的性能を誇っています。 ただし ChatGPT の出力はすべて正しいという訳ではなく、間違っていることをあたかも正しいことであるかのように発言するなどの欠点があります。

ChatGPT は現在無料で公開されており、有料版では GPT-3.5 の改良版である GPT-4 が用いられている「ChatGPT Plus」を利用することができます。 また現在、他のいくつかの企業も LLM の開発およびそれを用いたアプリケーションの発表を行っており、 Google による「Bard」(https://bard.google.com/)、Microsoft による「BingAI」(Bingで利用可能)があります。

Lesson 6 Chapter 2
音声認識

音声認識の分野での最新のAIの例として、「Whisper」(https://openai.com/research/whisper)があります。 Whisper は、OpenAI が2022年9月に発表した自動音声認識モデルです。 Transformer というモデルが用いられていて、ウェブから収集した68万時間に及ぶ多言語・多タスクの教師ありデータで学習することで、アクセント、背景雑音、専門用語に対する頑健性を向上させているといい、 音声からの文字起こしを高い精度で自動で行うことができます。 WER(Word Error Rate)という、簡単に言うと音声認識の分野ではどれくらいの単語を聞き取れなかったかの割合を示す指標において、スペイン語やイタリア語、英語においては5%未満という高い性能を示しています。 その一方、ネパール語などにおいては WER が45%近くになっています(データの出典:https://github.com/openai/whisper/blob/main/language-breakdown.svg)。

Whisper は現在、有用なアプリケーションを構築するための基盤として、また頑健な音声処理に関するさらなる研究のために、モデルと推論のコードがオープンソースとして提供されています。

Lesson 6 Chapter 3
画像生成

画像生成における最新のAIの応用例として、「Stable Diffusion」(https://stablediffusionweb.com/)があります。 Stable Diffusion は、ミュンヘン大学のCompVisグループによって2022年9月に発表された画像生成AIです。 潜在拡散モデル(拡散モデルという、ノイズから初めてだんだんノイズを除去していくことで画像などを生成するモデルの一種)が用いられたAIで、テキストを入力することで、それに応じた画像を自動で生成(text2img)します。 入力するテキストを工夫することによって高品質な画像を得ることができます。 またそれだけでなく、既存の画像を元にして新しい画像を作るという機能(img2img)も用意されており、例えば自分で描いた絵を読み込ませてAIに修正してもらうなどの使い方があります。

2022年11月には機能の改善・追加がされた「Stable Diffusion 2.0」がリリースされており、オープンソースとして公開されています。 また画像生成AIとしては、Midjourney による「Midjourney」(https://www.midjourney.com/home/?callbackUrl=%2Fapp%2F)もあります。 これは Discord(https://discord.com/)のサーバーを介して使うことができ、Stable Diffusion と同様、テキストを入力することで画像を生成させることができます。

生成モデルに関する著作権の問題

Chapter1で述べた ChatGPT や先ほど述べた Stable Diffusion などのような、 (何らかの入力(例えばテキスト)を受け取りそれに対して)画像やテキストを自動で生成するようなモデルは生成モデルと呼ばれます。 近年の生成モデルは精度が向上してきている一方で、その生成された画像やテキストはそのAIが学習した画像やテキストを元にしているという考え方から、 これらの生成モデルは著作権を侵害しているのではないかという批判が起きています。
AIの進化が早く、それに対応するための法整備などが間に合っていないという現状もあり、これから先、著作権などについて生成モデルの扱いがどのようになるのかは定かではありませんが、 AIを使う側の人も作る側の人も、AIが社会にもたらす変化や問題についてしっかりと議論する責任があることを忘れないようにしましょう。

プロンプトエンジニアリング

生成モデルがどのようなテキストや画像を生成するかは、どんなモデルを使うかということの他に、入力(プロンプト)をどのようにするかということに大きく依存しています。 そのようなことから、高い品質のテキストや画像を生成するためにプロンプトを工夫することをプロンプトエンジニアリングと呼ぶようになってきています。