生成AI【ChatGPT】の実力調査!小学校6年生の算数の問題を解いてみた!

コンピューター

調査員のCrevette(くるべっと)です。

今回は生成AIの”ChatGPT”の実力調査を行いました。

小学校6年生の算数にて調査を行っております。

このブログの内容の動画も作成しています。
YouTubeはこちら↓

ChatGPTとは

ChatGPTについてですが、Chat GenerativePre-trainedTransformerの略です。

Chatはテキストベースの対話システムです。

Generativeは”生成”という意味ですが、与えられたテキスト情報から新しいテキストを生成する事を意味します。

Pre-trainedは事前に訓練されたという意味ですが、大規模なデータセット(例として動物園のデータセットは各動物の名前,種類,年齢,体重などの情報リスト)で事前に訓練されていることを意味します。

簡単に言うと、対話が得意で、文章を生成する能力を持つ、事前に多くのデータで訓練されたコンピュータープログラムです。

Transformerの説明は致しませんが、”言葉を理解し、対話を生成し、新しい文章を作り出す為の技術”だと思って下さい。

この内容は、ChatGPTに自身の自己紹介をして貰った文章を少し書き替えたものです。


開発元は米国のOpenAIです。

ChatGPT(chat.openai.com)の訪問数は2023月11月合計で17億回です。ちなみに”Yahoo!JAPAN”(yahoo.co.jp)の訪問数が19億回なのでこれに迫る数です(Similarweb(https://www.similarweb.com/)にて調査)。

プランは下記の3つです(2023年12月25日 現在)。

①Free:テキスト認識のみ ”GPT‐3.5”を使用(無料)
②Plus:テキストと画像認識やプラグインが使用可能 ”GPT-4”を使用(有料)
③Enterprise:大規模ビジネスや組織向け(無制限高速) ”GPT-4”を使用(有料)

GPT-3.5”や”GPT-4”は大規模で汎用的な言語モデルです。これは”ChatGPT”が自動車だとするとエンジンと考えれば良いと思います。

今回は、①の”Free”(無料)を使用して調査致しました。

ChatGPTの”Free”プランで調査

調査の経緯

調査の経緯です。”ChatGPT”を個人で使用していると間違った回答が多い為、試しに算数の問題を解いてみることにしました。

算数を選択した理由は、知識を問う問題であれば普通にGoogleなどの検索エンジンを使用すれば良いですがAIならば知識を使った応用問題を解けないと意味がないと考えたからです。

6年生の問題を選んだ理由は、小学校の問題位は100点取って欲しいという個人的な希望です。1年生の問題で100点を取っても小学校の算数の問題は解けると判断できないので最も難しいと思われる6年生を選びました。

①ChatGPTの実力把握
②知識レベルの問題ではなく応用問題で確認(実際は知識を問う問題も出題)
③小学校の問題位は100点取って欲しい

 

Freeプラン(GPT-3.5)について

 

Freeプランを使用する場合の注意点を簡単に記載致します。これはライセンスや利用規約の話ではなく質問した内容の回答をできるだけ正確に得る為の注意点です。

➀トレーニングデータの更新は遅いです(今回の調査時は2021年9月までのもの)。二年位前の古いデータを使用しているので特に時間の経過にて変化するもの、例えば法律などやさまざまなルールに関しては注意が必要です。2023年12月28日時点では、2022年1月までのデータに更新されておりましたが算数のデータは大幅に変化していないと思われます。日本語の認知力は上がっている可能性はあります。

②文脈を正確に理解できないことや誤った情報が提供されることがあります。

③これは”②”の補足になりますがGPT-3.5は英語に焦点をあてたモデルで他の言語に関しては限定的です。と言っても日本語で使用していても違和感は全くありません。英語で特に高い性能を発揮すると考えておけば良いと思います。

④同一チャット内では学習はしますが他のチャットへ反映されません。と言っても同一チャット内でも忘れることは何度もあります。何度教えても覚えないことも多々あります。

⑤同一チャット内で学習したことを忘れたり、全く学習しないこともある(”④”の説明文の重複)。

ということで、生成された内容のチェックが必須になります。

生成された内容のチックは必須(二年位前のトレーニングデータを使用)

調査方法

 

調査方法です。
➀ChatGPTのFreeプランを使用して小学校6年生の算数の問題20問を解いて頂き一問ずつ採点を行って間違っている場合は指摘します。

②20問すべて同一のチャット内で行います。また最初に”算数の問題”と明記しました。

③一問5点の100点満点で集計。間違ってはいないが小学校6年生の算数の問題の回答としては不完全なものは3点とします。

④テキストしか使用できないので図形や表の問題は除きます。

⑤関連する問題が連続する場合でも問題文を省略致しません。

(例)

一問目:2時間で60km走る自動車の時速は?

二問目:この(一問目の)自動車の分速は?  ✕

二問目:2時間で60km走る自動車の分速は?〇

①小学校6年生の算数の問題20問を出題

②全問同一チャット内で出題

③100点満点で集計

④テキストでの問題のみ出題(画像は使用不可)

⑤連続した関連問題でも問題文を省略しない

 

調査結果

問題と結果

出題した問題と結果を提示します。ちょっと古いですが出題日は2023年9月18日です。問題の回答は答えだけでなく計算式や理由なども回答して貰っています。

結果は正解は〇、不正解は✕、不完全な回答は△です。

正解以外の問題を別途詳しく説明致します。全問回答を見たい方は添付ファイルを参考にして下さい。ChatGPTのチャットのリンクを共有可能ですがチャット内で関係ない話をしていますのでリンクは貼りません。

全問回答(.pdf)

以上、全20問です。”下さい”を実際は”ください”と記載している問題もありますが漢字に修正しています。

結果集計

結果の集計です。●が正解で▲が不完全な回答です(”問題と結果”では〇△で記載していますが同じです。)。

比例と反比例の問題は通常は表で出題される問題ですが表は認識できないので文章に直して書いています。

角柱の体積ですが6年生の算数では円柱の体積の問題もあります。ここに書いていませんが出題すると正解しました。

合計点は81点です。100点を期待した方が多いと思いますが残念な結果です。ただし、出題の仕方が原因である可能性もありますので間違った問題を中心に確認してみましょう。

不正解(不完全な回答含む)の問題確認

不正解結果の確認です。△の不完全な回答の問題も含みます。

不正解結果①

まず、第一問目が△でしたが、最初に「算数の問題です。」と説明しましたので小学生向けの回答でない場合は間違っていなくても不完全な回答として△としました。

「算数の問題です。」に対して

「もちろん、算数の問題を解決するのを手伝います。どのような問題がありますか?お尋ねの問題を教えてください。」

という返答なので算数の問題だと理解したと判断します。

(問題①)
1本の直線を折り目にして2つに折ったとき、折り目の両側の部分が完全に重なる図形を何と言いますか?
(回答)
1本の直線を折り目にして2つに折ったとき、折り目の両側の部分が完全に重なる図形は「対称図形」または「対称形」と言います。

これは、間違っていませんが「線対称な図形」が正解なので、これに対して

対称図形ではありますが、対称な図形は何種類かあります。問題をもっとよく読んで答えて下さい。

と返答。するととんでもない返答が来ました。

申し訳ありません、もう一度お答えいたします。1本の直線を折り目にして2つに折ったとき、折り目の両側の部分が完全に重なる図形は「折り鶴」または「折り紙の鶴」と言います。これは対称図形の一種であり、折り紙の伝統的な作品の一つです。

算数の問題と言ったのにまさかの「折り鶴」または「折り紙の鶴」という回答でした。そこで

違います。算数の問題と言いました。もう一度考えて下さい。

と返答。すると返答は

申し訳ありません、誤った回答を提供しました。もう一度考え直します。

1本の直線を折り目にして2つに折ったとき、折り目の両側の部分が完全に重なる図形は「線対称」または「線対称な図形」と言います。

という返答で正解しました。流石に、「折り鶴」という回答は小学生でも間違っていると気が付くと思いますが小学生が使用することに少し危うさを感じました。

不正解結果②

次は問題⑧です。分数の問題ですがチャットでは

と算数で書くように打てないので”/”(スラッシュ)を使うかどうか迷いましたが2月3日(2/3)と勘違いされたら困るので、漢字と平仮名で書いてみました。×(かける)も✕(バツ)と認識されると困るので平仮名で書きました。

問題⑧
三分の二かける五分の七は?計算式も書いてください。
と質問すると
(回答)
三分の二かける五分の七を計算する式は以下のようになります。

と、同様な書き方で回答が来たので理解していると思いましたが・・・続きは

(3/2)×(5/7)

分数同士を掛ける場合、分数同士を掛けて分母同士を掛けます。

「(3/2)×(5/7)」と分子と分母が逆です。計算方法は「分数同士を掛ける場合、分子同士を掛けて分母同士を掛けます。」と正しい回答ですが当然、分母と分子が逆なので15/14という間違った回答でした。”/”は分数として使えることはわかりました。

回答が間違っているのでノーヒントで再度考えて貰いましたが次も全く同じ回答でした。その後、同じやり取りを6回繰り返しても同じ回答しか来ませんでした。

そこでちょっと意地悪をして嘘の情報を含めて間違いを指摘してみました。途中のやり取りは省略しています。

これで6回同じ回答で、全部間違いです。私の質問の仕方が悪かったのだと思います。「三分の二かける五分の七は?」を書き換えると「(2/3)×(5/7)」です。何が間違っているか分かりましたか?

と、あえて”5分の7”の部分を”7分の5”のままにして指摘しました。すると、それに気が付かず嘘の指摘のまま計算して来ました。

申し訳ありません、おっしゃる通り、質問の仕方が間違っていました。おっしゃる通り、正しい表現は”(2/3)×(5/7)=10/21”です。正しい計算結果は以下の通りです。

(2/3)×(5/7)=10/21
ー省略ー

最後に正しく指摘したところ、ようやく正しい回答が返って来ました(回答省略)。

不正解結果③

次は問題⑨です。分数の割り算です。

前の問題で学習してると思い、あえてまた”/”を使わずに書いてみましたが残念ながら全く学習していませんでした。
「三分の二わる五分の七は?計算式も書いてください。」と記載しましたが、また逆の(3/2)÷(5/7)という式を書いてきました。省略しますが当然回答は間違いでした。

使用上の注意の項目で

④同一チャット内では学習はするが他のチャットへ反映されない
⑤同一チャット内で学習したことを忘れたり、全く学習しないこともある

と説明しました。④は事前にChatGPTに聞いた回答ですが同一チャット内でも学習しないので⑤を追加したわけです。

その時の質問の内容です。

チャット中にあなたに間違いを指摘した場合には修正されますが、別のチャットを新たに行った場合や
過去に行ったチャットで同じ質問をした場合はやはり間違える可能性は高いですか?

回答は次の通りです。

はい、その通りです。私は各チャットセッションや質問を個別のコンテキストとして扱います。つまり、過去のチャットでの間違いを指摘された場合には、そのチャット内での修正が行われますが、新しいチャットセッションや過去のチャットで同じ質問が再度行われた場合、同じ間違いを繰り返す可能性があります。私は各質問に対して新たに回答を生成するため、過去の対話から学習することはできません。

の回答でしたが、実際は同一チャット内で学習したことも同一チャット内で忘れてしまうのか?きちんと学習していないのか?同じ誤りを繰り返すことがあります。その為、⑤を追記しました。

不正解結果④

次は問題⑮です。分数で”/”が使用できることは確認済みなので今回は”/”を使用して質問しました。

あと、自分の質問チャットはさっきまで英語で”You”となっていましたがいつの間にか平仮名で”あなた”に変更されていました。キャプチャした日が違うだけで質問日は同じです(Webを日本語に翻訳したわけでもありません。)。

さて問題ですが

問題⑮
1/1000の縮図があります。この縮図で1cmの長さは実際は何cmですか?
(回答)
1/1000の縮図では、実際の対応する長さが縮小されています。したがって、1cmの長さは実際には
1/1000 cmに縮小されます。これは、ミリメートル(mm)で表現すると、0.001 mm(1ミリメートルの千分の1)に相当します。

上記の通りですが、「1/1000の縮図では、実際の対応する長さが縮小されています。」まであっています。

これは簡単に言うと縮図では実際の長さより短く書かれているということになります。つまり縮図の長さより実際の長さの方が長いことになります。よって1cmの千倍の1000cmまたは10mが正解ですが、1cmを1/1000にするという間違った説明をしています(人間が実際にやってしまいそうなミス)。

しかも1cmの1/1000は0.001cmなのになぜか単位をmmに変えていますので1cmの1/1000どころか1/10000にしています。

とりあえず、ノーヒントで「間違いです。再度考えて下さい。」と返答しました。

すると、今回は正解しました。最初の回答はどんな理由で間違えたのでしょうか?理由についてはいつもはっきりとした回答は来ないので毎回不思議に思ってしまいますが、人間ぽっくて面白いですね。

不正解結果⑤

次は問題⑯です。

問題⑯
対応する角の大きさがそれぞれ等しく、対応する辺の長さの比がすべて等しくなるように大きくした図を何と言いますか?

この問題の正解は、”拡大図”ですが”相違図形”という回答でした。この回答ですと”拡大図”も”縮図”も両方含みます。問題に”大きくした図”と明記していますから本来なら”×”としたいのですが甘く採点して”△”にしました。

この回答には、「間違いです。もう一度、問題をよく読んでください。」と返答しましたが再度同じ回答でした。そこで、”大きくした図”であることを強調して間違いを指摘すると、正解となりました。

正解結果①

このままだとChatGPTの印象悪くなりますので、正解した問題を2問紹介致します。

問題⑫
正方形の水槽の中の水を一定の割合で抜いていきます。抜き始めてから4分後に水槽の水の深さをはかったら深さが8cmでした。9分後にはかったら深さが4cmでした。この水槽の水は最初は何cmあったでしょうか?

この問題は、聞いてすぐにわからない人もいると思いますが、ChatGPTは正解しています。考え方ですが4分後も9分後も水を抜くスピードが同じなので最初の水の深さを”H”として4分後と9分後の水の抜けるスピードを計算する式をイコールとして水の深さ”H”を計算します。ポイントだけ要約して回答を記載致します。

(回答)
最初の水の深さを「H」としましょう。4分後に水の深さが8cmになったということは、4分間でH – 8 cmだけ水が抜かれたということです。

ここまで何を言ってるかまとめます。
H:元の(水の)深さ とすると

(水の)抜けた深さ=元の(水の)深さ-残っている(水の)深さ

(水の)抜ける速さ=抜けた(水の)深さ÷(水を)抜いた時間

(水の)抜ける速さは4分後も9分後も一定

これより方程式を書くと次の通りです。

(H-8)/4=(H-4)/9

H=11.2

途中の計算は省略致しましたが正解です。式自体は難しくありませんが文章をきっちり理解していることが流石AIという感じです。

正解結果②

次は、それほど難しい問題ではありませんが、AIが人間の言葉をちゃんと理解していることがわかる問題です。

問題⑬
同じ甘さのアイスコーヒーを2つ作ります。一つ目はアイスコーヒー100mlにガムシロップを一つ入れました。アイスコーヒー200mlにガムシロップを何個入れれば最初のアイスコーヒーと同じ甘さになりますか?

質問の書き方ですが、「ガムシロップの濃度が同じコーヒーを作るには・・・」のように”濃度”という言葉を使わないとわからないかな?と思いながらあえて”同じ甘さ”という言葉で聞いています。後、ガムシロップが甘い物だと理解していないと答えがわからない可能性があるとも思いました。

(回答)
最初のアイスコーヒーは100mlにガムシロップ1つを入れていると言われています。この情報をもとに、同じ甘さを持つアイスコーヒーを作るためには、アイスコーヒー200mlにいくつのガムシロップを入れる必要があるかを求めましょう。

回答の最初は上記の通りですが、ガムシロップが甘いものだと認識しているようです。”濃度”と書く必要もありませんでした。

正解は、コーヒーの量が2倍なのでガムシロップも2倍必要で2個になりますが、きちんとガムシロップの濃度を計算して回答しています。

最初のアイスコーヒーは100mlに1つのガムシロップを入れています。つまり、1mlに対して1/100のガムシロップが含まれています。この比率を使って、200mlのアイスコーヒーに必要なガムシロップの個数を計算できます。

200mlのアイスコーヒーに必要なガムシロップの個数 = 200ml × (1/100) = 2

したがって、アイスコーヒー200mlには2つのガムシロップを入れる必要があります。最初のアイスコーヒーと同じ甘さになります。

細かい説明は省きますが100mlのコーヒーには1mlあたり1/100個のガムシロップを含んでいるので200mlならその200倍のガムシロップが必要ということで200×(1/100)で2個という計算です。素晴らしいですね。

以上で問題の結果は終わりです。この内容でChatGPTの良し悪しが伝わったか疑問ですがFreeプランは誰でも無料で使用できますので一度使用してみると良いと思います。

まとめ

今回は調査と呼べるほどのことはしていませんので簡単にまとめて終わります。

ChatGPTの使用に関しては

・日本語が苦手な人と話す感覚で質問する
・間違った回答を平然としてくるので回答が決まっている質問は控える
・時間が経過すると変化するものも質問は控える(法律など)
・生成してもらった文章は必ずチェックする
・今後の発展に期待する
・学校の宿題は自分で行う

以上です。

否定的コメント予測

否定的コメント予測ですが今回はChatGPTにした質問結果を記載しているだけなので省略します。強いて言うなら「まとめがいい加減!」でしょうか???あと、「ChatGPTへの質問日が古い!(2023年9月18日)」ですかね?

最後に・・・

本件、実は記事にするつもりはなかったのですが、これからChatGPTを使ってみようと考えている人の参考にはなるかなと思い、悪い使い方の例のつもりで書きましたが決して使わない方が良いと言う話ではありませんので誤解のないようにお願致します。

以上です。

コメント