偏差値４７．３の人工知能って成績悪い？開発者目線で解説

おもしろかったら友だちとシェアしよう！

東大合格を目指す人工知能「東ロボくん」が話題となっています。

東京大学合格を目指して国立情報学研究所などが開発した人工知能が、去年に比べて学力を伸ばし、ことしは予備校の模擬試験で国公立大学を含む４７０余りの大学に合格できる成績となりました。
研究グループはプロジェクトを通じ、「人工知能の可能性と限界を明らかにしたい」と意気込んでいます。

NHK NEWS WEB 「東ロボくん」進化模試の結果は　ーより引用

「人工知能なんだから入試データをたくさんつめればいいのに」とか思っていませんか？確かに問題と答えをセットにしてデータを持たせればそれで満点がとれるでしょう。

ですが、このプロジェクトでやろうとしているのはそういう事ではありません。ちゃんと問題を読み解いて答えを導く。そういう事をやろうとしているようです。

文章解析システム開発などの経験から試験を正解に導くことの難しさを解説したいと思います。

日本語の壁

システム開発者にとって日本語というのは非常にやっかいです。文章を単語単位に分解するだけでも容易ではありません。「○○の××」といった助詞ひとつとってもコンピューターには問題なのです。

例えば「今日の出来事」といった文章があった場合には助詞の「の」を目印に「今日」と「出来事」に分けて単語を抽出し「の」で意味付けするといったことができます。

では「もののけ姫の映画」では？この場合「もののけ姫」という映画があったという事実をデータとして知らなければすべての「の」を助詞として捉えてしまい文章が成り立ちません。

他にも文章の流れによって読み方を変えなければいけない単語などが日本語には多数存在します。また、句読点がない場合などのファジーな文章構造を含有している言語ですので日本語はコンピューターにとって難しい言語のひとつとされています。

文章の意味を理解する

これもコンピューターにはなかなか難しい問題です。コンピューターには感情を読み取ることは当然できません。人間は自分の持っている経験などに照らし合わせて文章中の主人公に感情移入して読み取りますが、コンピューターにはそんな経験などなくデータとして打ち込まれたところで照らし合わせることが困難なのです。

「わたしが転んだら、お母さんが心配して泣いた」

こんな経験を持った人がいたとしましょう。

「少女が転んだ時、親友の少年は泣きました。なぜでしょう？」

この問にこの人は「心配したからだ」と答えると思います。少年は親しい仲であり、自分の経験則の母親と同様の心情であるはずだ、と思うからです。

では同様の経験則を打ち込んであるコンピューターの場合はどうでしょう？

親友とは親しい友だちであり、少年は幼い男性であると認識します。これはまるで「お母さん」ではありません。この時点でコンピューターには答えがなくなってしまいます。親しい事が重要であり、親しいという事は転んだ少女に対して自分のいろいろな経験則をあてはめ心配する存在であるという事です。コンピューターには想像する力はないのですべてプログラミングとデータによって決められていなければ答えはだせないのです。

親友という曖昧な言葉を、親族同様と捉える事も友人と同等と捉えることも決められた通りにしか出来ません。また、泣いたという事実に対して親友がどのような経験則を持っているか、そしてどのような事態が経験則として一般的なのかを知らないとなぜ泣いたのかが決定できません。「転んだ時、心配したから泣いた」「転んだ時、舞い上がったホコリが目に入ったから泣いた」「転んだ時、自分の思惑どおりに事が進まなかったから泣いた」といった想像をすることができないのです。

このような事からコンピューターに意味を理解させることは非常に困難なのです。

なぜ膨大な試験の統計データを使わないのか？

たくさんの試験データから類似問題を抽出し、答えを統計的に導き出す。確かにこの方法なら完全に問題を理解しなくても大まかな単語比較で類似検索が可能であり、正解率は格段に上がるかと思います。

ですが、そうではありません。作ろうとしているのは「人工知能」であり、「試験解読プログラム」ではないはずです。

統計で問題をといても７割正解できても３割間違えます。これをなぜ間違えたのかを正すには統計データと抽出方法を増やす他には出来ません。３年かかって集めたデータであれば不足要素があれば新たに揃えるために３年近くかかってしまいます。そして与えられたデータしかありませんから不足要素がなにであるかを考えることもコンピューターには出来ないのです。要素の特性を理解していないと当然新しい抽出方法を考えることもできません。

このような事態を解決できるだけの速度と柔軟性を揃えた人工知能を開発できれば統計で答えを導き出すことはできるはずですが、それは正確に文章を読み解くことが出来た後の話になります。

なぜなら、そのような膨大なデータはインターネット上にしか存在せず、それを全て読み取るのは文章解読が正確にできなければ意味がないからです。

まとめ

このような事から人工知能に人間と同じように試験を受けさせることは非常に難しいことなのです。おわかりいただけましたでしょうか？

※今回の解説は人工知能開発の難しさを挙げる例であり、「東ロボくん」の現状のスペックを表したものではありません。

出典: NHK NEWS WEB; ロボットは東大に入れるか？

MemCode

偏差値４７．３の人工知能って成績悪い？開発者目線で解説

日本語の壁

文章の意味を理解する

なぜ膨大な試験の統計データを使わないのか？

まとめ

注目記事

SNSでフォロー

日本語の壁

文章の意味を理解する

なぜ膨大な試験の統計データを使わないのか？

まとめ

注目記事

関連記事

SNSでフォロー