2023年8月31日、IPAから生成AIに関するサンプル問題が3問ほど公開されました。「3問だけ?」という気持ちも多少ありつつ、ならばしっかり解説していこうと思います。
なお、サンプル問題のPDFにはIPAの出題意図なども記載されておりますので、まだ確認していないという方は、ぜひそちらもお目通しください。
また、前回の冒頭の繰り返しになりますが、シラバスVer 6.2が適用されるのは2024年4月からになります。それまでに合格された方にとっても、今後の学習や基本情報など上位試験への予習としてお役に立てば幸いです。
問1 生成AIの特徴を踏まえて,システム開発に生成AIを活用する事例はどれか。
ア 開発環境から別の環境へのプログラムのリリースや定義済みのテストプログラムの実行,テスト結果の出力などの一連の処理を生成AIに自動実行させる。
イ システム要件を与えずに,GUI上の設定や簡易な数式を示すことによって,システム全体を生成AIに開発させる。
ウ 対象業務や出力形式などを自然言語で指示し,その指示に基づいてE-R図やシステムの処理フローなどの図を描画するコードを生成AIに出力させる。
エ プログラムが動作するのに必要な性能条件をクラウドサービス上で選択して,プログラムが動作する複数台のサーバを生成AIに構築させる。
生成AIの特徴は、なんといっても人語を介して新たなコンテンツを生成できる点です。したがって正解はウです。
アは、やるとしたら生成AIではなく通常のAIに任せたりサポートしてもらうことになるでしょう。プログラムやテストプログラムの生成であれば生成AIの出番です。
イは、出だしが「システム要件を与えて~」となっていれば正解でした。ただ、実際にやろうとすると大変だろうなぁ、とは思います。
エは「サーバの生成」と「生成AI」を引っ掛けた文章です。サーバの生成という表現は、サーバの構築や作成とほぼ同義です。イメージとしては、クラウドなどの仮想環境において、あらかじめ用意しておいた「サーバ構築の素」をコマンド一つで展開してサーバを用意するような場合に生成という表現を使いがちです。
この「サーバ構築の素」のように、とある環境をまるごとパッケージングして再利用するのに便利なのがコンテナというしくみです。ITパスポートでもコンテナ型仮想化として試験に登場しますので覚えておきましょう。
問2 生成AIが,学習データの誤りや不足などによって,事実とは異なる情報や無関係な情報を,もっともらしい情報として生成する事象を指す用語として,最も適切なものはどれか。
ア アノテーション
イ ディープフェイク
ウ バイアス
エ ハルシネーション
まったく予備知識がない場合、ディープフェイクを選びそうになる問題です。ディープフェイクは、人が意図的にコンピュータに指示を出して、実際の画像や映像を加工して作り出した精巧な偽物の生成物のことです。
正解はエのハルシネーションですが、予習した人にとっては、語感の似ているアノテーションも「これだったかな?」と迷うかもしれません。
アノテーションは注釈の意味で、元データに対して付加的に加える情報や指示のことをいいます。プログラムのソースコード中に記述するものを指すことが多いのですが、AI分野では、教師あり学習においてAIに与える正解パターン(正解データ)のことをアノテーションと呼ぶことがあります。
バイアスは偏りや偏見、先入観を意味します。
問3 AIにおける基盤モデルの特徴として,最も適切なものはどれか。
ア “AならばBである”といったルールを大量に学習しておき,それらのルールに基づいた演繹的な判断の結果を応答する。
イ 機械学習用の画像データに,何を表しているかを識別できるように“犬”や“猫”などの情報を注釈として付与した学習データを作成し,事前学習に用いる。
ウ 広範囲かつ大量のデータを事前学習しておき,その後の学習を通じて微調整を行うことによって,質問応答や画像識別など,幅広い用途に適応できる。
エ 大量のデータの中から,想定値より大きく外れている例外データだけを学習させることによって,予測の精度をさらに高めることができる。
アはエキスパートシステムの説明です。エキスパートシステムでは、コンピュータが判断するためのルールを人間が逐一入力して知識ベースを構築する必要があります。人力で構築するAIの到達点の一つと言っては過言かもしれませんが、機械学習が実用化される以前は、このような形でAIの実用化が模索されていました。
イは教師あり学習の説明です。「なにが正解か?」という正解データを一緒に与えて学習するので「教師あり」なわけです。ここで、注釈として付与した情報のことをアノテーションと呼びます(問2の選択肢アですね)。
逆に、正解をあらかじめ用意しない機械学習を教師なし学習といいます。人が気づけない(思いつかない=学習の指示が出せない)ような特徴や構造を抽出できたり、教師あり学習のように膨大な正解データを用意する必要がないメリットがあり、今後の精度向上が期待されています。以前の記事で用語解説した敵対的生成ネットワーク(GAN)などもこの一種です。
ウが正解です。なお、以前の記事では学習済みモデルという用語で説明しましたが、それとこの問題の基盤モデルは同じものを指しています。「基盤(ベース)となる学習済みのモデル」というわけです。
エの記述はおそらくでたらめです。この記述とは逆に、大きく外れているデータを無視してある程度の誤差の範囲内のデータだけを学習させる手法として正則化があります。過学習対策の一つです。
最後に
以上となります。少し膨らまして周辺知識も盛り込んでみましたがいかがでしたでしょうか。これからどんどん進化していく分野かと思いますので、試験とは関係なしに注目していきたいですね。それではまた!
\おすすめ/技術評論社ITパスポート本はこちら
とにかく短期間集中!24時間の学習時間で合格を目指したい
ITパスポート最速合格術
「AとくればB」方式と節ごとの確認問題で効率良く学習したい(猫にも癒やされたい)
かやのき先生のITパスポート教室
絵解き解説で読み進めたい、苦手なIT用語もイメージできるようになりたい
キタミ式イラストIT塾 ITパスポート