分類とは、画像に何が写っているか判別した上で分類することです。分類には、物体分類とシーン分類の2種類があります。
物体分類とは、画像の中の物体そのものを判別して分類することです。「人」や「犬」、「りんご」のように、写っている物体そのものをカテゴライズします。
シーン分類とは、画像の中にある物体そのものに注目するのではなく、画像全体に注目した分類です。「街」や「草原」、「空」のように、画像全体を通して何の風景なのかをカテゴライズします。
全体としての画像認識の手順については後述しますが、分類を行う手順において特に重要なのが分類を目的とした画像の準備です。AIがより適切に画像を分類するためにも、判別したい画像は何を表すのか、正しい分類を学習させる必要があります。
学習した画像を、AIがピクセルのパターンで特徴づけることによって、画像を適切に認識し分類するのが、分類の大まかな仕組みです。
分類を活用した画像認識はいろいろとありますが、身近なところだと、SNSで活用されている人物への自動タグ付け、同じ人物などをカテゴライズしてフォルダを自動作成する写真アプリの自動フォルダ分けなどがあります。
Image recognition
AIの画像認識で業務効率化が進む!
活用事例と今後の展望
更新日: 2024/06/19

AIの画像認識なら atma におまかせください
AI~システムまで 一気通貫でご対応
AI部分の協力だけではなく、システム部分も一気通貫でご協力させていただきます。
AI開発の スペシャリストが多数在籍
大学院で研究経験のあるアカデミックなスタッフや高度な開発技術を持つスタッフを多く抱えており研究開発のご支援も可能。
クラウド活用したサーバ負荷 対策、セキュリティ対策も
クラウドの活用にも多数実績があり、サーバ負荷対策、セキュリティ対策にも多数経験があります。
ABOUT
AIの画像認識について
AI(人工知能)とは、人が無意識あるいは意識的に行っている判断を機械で表現することです。一般的には、人が行う業務の一部を自動化するための、機械学習を含むシステムのことをいいます。
処理をルール化して、ルールの中で処理を行うシステムは現在でも広く活用されていますが、AIが発展してきたことによって、より広範囲において業務の自動化が可能になりました。
AIでできることには、音声認識、自然言語処理、レコメンデーションなど、さまざまなものがあります。今回取り上げる「画像認識」も、AIでできることのひとつです。
ここでは、画像認識とは何かということから、画像認識の仕組みや歴史、活用事例、今後の課題と今後の進化まで、AIと画像認識について解説していきます。
AIの画像認識とは?
画像認識とは、何が写っているか判別することをいいます。
カメラのレンズや写真を通して何が写っているか判別する技術など、一般にもAI技術によるサービスが普及したことによって近年話題になることも増えましたが、昔から存在するトピックです。
画像認識に関しては、コンピュータにさまざまな画像を学習させて精度を高めていく機械学習をイメージする方も多いかもしれませんが、機械学習でなくても画像認識はできます。
たとえば、工場で行う商品の最終外形チェック(商品の形が崩れていないか確認すること)です。黒っぽいところと白っぽいところを、黒の割合が〇%以上なら0のように、0と1に分けて定義づけすることで画像認識できます。
しかし、定義づけも万能ではありません。カメラが傾いたり、光が弱かったり、別の工場で撮影を行ったりなど、少しでも条件を逸脱すると、定義に当てはまらなくなり、画像認識ができなくなります。
一方で、明示的な定義をもとにせず、画像データの対応関係からパターンを獲得するのが機械学習です。機械学習の一つであるディープラーニングは、パターン獲得能力に秀でていて、画像認識領域におけるブレイクスルーを起こし現在でも最高の認識性能を誇ります。
AIの画像認識についてお悩みでしたら
お気軽にご相談ください
資料請求・無料相談
お電話でのお問い合わせ
phone
06-4300-7713
平日10:00-18:00
AIの画像認識ができること
AIによる画像認識を活用してできることは、画像の分類、予測、セグメンテーションです。それぞれの概要と活用の例を簡単に紹介します。
- 分類expand_more
- その他の推論expand_more
- セグメンテーションexpand_more
AIの画像認識についてお悩みでしたら
お気軽にご相談ください
資料請求・無料相談
お電話でのお問い合わせ
phone
06-4300-7713
平日10:00-18:00
AIの画像認識はどのような仕組みでできている?
AI(人工知能)といっても、人がものを認識して判別するのと同じように、AIも感覚的に画像を認識して識別できるわけではありません。
人が行う認識を模したといっても、人のように無意識で判断はできないためです。機械で処理できるように、画像認識を行うためのプロセスを明確にしなくてはなりません。
AIの場合は感覚的に認識するのではなく、人が作ったプロセスを踏んで、画像認識を行うのが基本的な流れです。
具体的にはどのような仕組みが画像認識には必要で、どのような流れで画像認識が行われるのでしょうか。AIが画像認識を行う仕組みを順に説明していきます。
1.画像から対象物の特徴を抽出する
AIは、人のように目で見て画像を認識できません。AIが画像認識の基準にするのはデータです。
画像を機械的に認識すると、画像の最小単位であるドットに色情報が付与された「ピクセル」が集まってできた集合体になります。つまり、ピクセルから取得できるデータから、画像を認識するのです。
AIで画像認識を行うには、まず、画像の特徴と答え(何の画像か)をセットでコンピュータにインプットする必要があります。インプットする際に人間の側で行うのが、特定の画像を認識させるためにどのような特徴を抽出するかです。
特徴の抽出と表現すると、黒の部分が〇%あれば▲▲のように具体的に特徴を定義するイメージがあるかもしれません。
ルールベースのシステムでは、〇%なら~のように具体的に定義します。しかし、このような定義づけをすると、物体を認識するために必要に応じてルールを追加していかなければならず、場合によっては定義づけを際限なく行わなければならない状況も考えられます。
AIとルールベースの違いは、特徴の抽出をひとつひとつ行わなくて良いことです。AIによる画像認識は、ルールベースとは異なり、画像全体に共通する特徴を抽出します。
AIによる画像認識は、さまざまな特徴がある中で、どの画像でもこうすれば特徴をある程度は捉えられる、という方法を当てはめるイメージです。
どの画像に対しても対処できるように、画像全体で認識するのではなく、画像を局所的に分析して特徴をつかめるように、特徴量を決めます。
特徴量にはさまざまなものがありますが、広く知られているのがホグ特徴量(HOG特徴量)です。
ホグ特徴量では、画像を適当な大きさに切り出し、その中の各ピクセルを、周りのピクセルの輝度や色の変化度合でヒストグラム(データの分布を階級別に分けて表現したもの)化します。ヒストグラムを見てその画像の特徴を把握しようとする方法です。
ホグ特徴量のほかにも、人の認識に役立つハールライク特徴量などがあります。
つまり、AIであっても、ホグ特徴量を与えるなどして、コンピュータに対してこのように計算するという数式は人が与えなければなりません。
人が考えた条件をコンピュータに読み込ませることは、ルールベースでもAIによる画像認識でも同じといえます。ルールベースとAIが異なるのは、読み込ませるルールの観点です。
ルールベースは対象物ひとつひとつを判断できるように細かく設計していきますが、AIはさまざまな画像に対応できるように具体的な数値などではなく、全体的な考え方を特徴量として抽出します。
細かな定義を置かないからこそ、ルールベースより柔軟な認識が可能になるのです。
2.画像のデータを学習する
AIの画像認識の基準になる、特徴と答えのセットをコンピュータにインプットさせたら、次に行うのはデータの学習です。認識させたい画像のデータを並べて、学習用のデータを読み込ませます。
AIにデータを学習させなければならないのは、特徴と答えをインプットさせた状態では、そこにルールが存在するだけで、対象物の特徴までは把握できないためです。
学習のフェーズでは、データを取り込ませることによって、人が抽出した特徴の中で何が重要かをAIが学習します。
一般的には、画像を読み込ませるほど、AIによる画像認識の精度は高いです。そのため、この段階で、必要なデータをある程度用意しておく必要があります。
ただし、学習させるデータが適切なものでないと、いくら数を読み込ませても画像認識の精度は上がりません。学習用データの取り込みを行う前段階として、必要に応じて、ある程度の画像の処理が必要です。
画像の処理とは、ノイズの除去、ゆがみの除去、明るさや色合いの調整、輪郭の強調、などを表します。画像をクリアな状態にして、対象物を認識しやすくすることです。
AIは万能?の誤解
画像認識を含むAIの機械学習(人が行う業務の一部を自動化すること)については、一度データを学習させれば、その後も適宜AIが適切に処理してくれるとの誤解もあります。
実際は、対象物の概念が変わらない間は学習データに応じた精度の処理が行われますが、対象物の概念が更新された場合は適切に処理できません。基本的に、学習データをアップデートするようには作られていないためです。
作り込む段階で、学習データの更新が行われるように、あらかじめ設定することはできるものの、設定しない限り、AI自らが新しいデータを学習することはありません。つまり、このフェーズにおいて学習させたデータが、AIが判断に使用するすべてになります。例えば、電話を固定電話の画像で学習させていた場合、新しく学習させないとスマートフォンを電話として処理できません。
このように対象物の概念が変わった場合、これまで読み込ませたデータは古いものになり、新たな特徴に対して適切に判断できないため、人が手を加えて、新しい概念を再学習させなければなりません。
3.対象物を識別する
画像認識を行うための学習データのインプットが終わったら、入力画像を特徴量データへ変換します。変換したデータから、機械学習のデータに則り対象物を識別するのが、画像認識の仕組みです。
つまり、画像認識を行うには、特徴量と答えのインプット、学習データのインプット、特徴量データへの変換が必要ということになります。
ただし、すべての画像認識において学習データのインプットが必要なわけではありません。認識する対象によっては、学習フェーズを飛ばすこともあります。
学習が必要ないのは、たとえば、画像の中に何かが写っているかどうかを判別するようなケースです。対象物の有無については差分を検出するだけで良いため、AIに学習させなくても実行できます。
このような学習を必要としない画像認識は、性能が読みやすいため、すぐに実行や予測ができる点で、学習を必要とするものより、実装までの期間が比較的早いです。
学習が必要な画像認識は不確実性が多い部分もありますが、学習が必要ないものは不確実性がほぼないため、すぐに実行に移せる点もポイントといえるでしょう。
従来型の画像認識が良い場合
画像認識はディープラーニングを活用して行われることもあります。
ここで説明した、特徴量と答えのインプット、学習データのインプット、対象物の認識、による画像認識の流れを従来型とすれば、従来型を採用した方が良いのは学習量が少なくなるケースです。
学習量が多いか少ないかは認識対象により異なります。たとえば2次元(平面)の図形のような簡単な画像だと認識しやすいため、多くの画像データを必要としません。
一方、3次元(立体)の複雑な画像だと、さまざまな部分で判別しなければならないため、簡単な画像の認識と比べて、より多くの画像データを必要とします。
しかし、AI開発の初期段階においては、収集できる学習データが少ないケースがよく見られ、ディープラーニングだと特徴量を抽出するのに十分な学習が行えません。
このように、学習データが少ないために、ディープラーニングでは適切に画像を認識できない可能性がある場合において、従来型の画像認識の技術が採用されることが多いです。
従来型の画像認識のコスト感
AIによる画像認識を導入する場合、ディープラーニングを取り入れるか、それとも従来型で処理するかで分かれます。
コスト的な面で見ると、一概にはいえないものの、ディープランニングの方が計算のボリュームが大きくなりやすいことから、従来型の方がコストはかかりにくいです。
学習データが少ない場合は従来型が適していると説明しましたが、画像認識の精度はそこそこで良く、できるだけコストを抑えて開発をしたい場合も従来型が向いています。
AIの画像認識についてお悩みでしたら
お気軽にご相談ください
資料請求・無料相談
お電話でのお問い合わせ
phone
06-4300-7713
平日10:00-18:00
AIの画像認識とディープラーニング
ディープラーニングとは、人の脳のシステムを構築するニューロンを模して作られたニューラルネットワークの名前をいいます。ニューラルネットワークの中でも、20~30程のレイヤーで構築された複雑なネットワークがディープラーニングです。
なお、ニューラルネットワークは、AIの機械学習の領域に含まれる手法のことを指します。
AIの画像認識は、従来からの方法だけに限らず、ディープラーニングによる認識も可能です。
ここまで紹介した画像認識のやり方は、特徴量を抽出して、特徴量と答え(=物体の名前など)をセットで学習させ、さらに学習データのインプットが必要だと説明しました。
しかし、ディープラーニングによる画像認識では、2ステップ踏む必要はありません。人の手で特徴量を抽出しなくて良いためです。ディープラーニングによれば、特徴量抽出とデータ学習が同時に行われるため、画像を取り込むことで直接AIに学習させることができます。
ディープラーニングを取り入れることで、画像ごとに特徴量を算出するのではなく、画像のセットごとにより良い特徴量を、学習とセットで抽出できるためです。
従来型では、研究に研究を重ねて考え出された、ホグ特徴量やハールライク特徴量を使用すると説明しましたが、このような汎用的な特徴量を使用する必要もないのが、ディープラーニングといえます。
画像をより高い精度で認識できるのは?
AIによる画像認識には、従来からの方法と、ディープラーニングによる方法があります。このうち、画像認識の精度が高いのはディープラーニングです。
ディープラーニングの精度が従来からの方法よりも高いのは、認識対象に対して特徴量が最適化されるためです。ホグ特徴量などを使った従来のやり方は、対象物に特化した方法ではなく、どの画像にも汎用的に使える関数から算出するため、精度に差が生まれるのです。
学習データにできる画像がたくさんある場合で、AIの機能を上げたい、あるいは高精度のAIを導入したいと考えるなら、ディープラーニングによる画像認識が適しています。
導入当初は従来の方法でAIを取り入れた場合であっても、AI開発会社と相談することで、運用の途中でディープラーニングによる画像認識に変えることは可能です。
ディープラーニングによる画像認識のコスト感
次に、ディープラーニングのコストについてです。どれだけ間にニューラルネットワークのモデルを入れて複雑なものにするか、モデルにもよりますが、従来の方法よりディープラーニングの方が、コスト負担が重くなる可能性があります。
一般的に使われるディープラーニングのモデルとホグ特徴量では、計算量はディープラーニングが多いためです。
AIによる画像認識を可能にする計算式が多いということは、それだけサーバーの容量が必要になるということ。使用状況次第では、よりスピーディーな処理が求められることから、強力なサーバーも必要で、その分、サーバーコストがかかります。
サーバーコストにかかる費用などから考えると、従来の方法より、ディープラーニングの方が、コスト負担が増加する可能性が高いでしょう。
AIの画像認識の歴史と今日の発展
AIの画像認識が一気に注目を集めたのは、2012年のことです。AIが自発的に猫を認識することが実証された、という理由から画像認識が広く知られることになりました。
ただし、AIによる猫の画像の認識は、これまでの研究が実ったというだけであって、2012年に突然、この考えが生まれたわけではありません。画像認識のアルゴリズム(処理の手順、ひとまとまりのプログラムのようなイメージ)自体はもっと以前から存在していました。
CNN(Convolutional Neural Network:コンボリューショナル・ニューラル・ネットワーク)というニューラルネットワークを使った、画像処理の基本的な構造も、猫の認識以前からあるものです。
しかし、アルゴリズムは存在していても、AIによる猫の認識が話題になる以前は、実現するのが困難な状況でした。その一つが勾配消失問題です。ディープラーニングでは、現地点からどちらに向かっていけば良いのかという勾配が、猫の認識以前の考えだと、途中で消失する現象が起きていたためです。
勾配が消失すると、コンピュータはどこに向かって処理を進めていけば良いかわからなくなるため、学習がストップしてしまいます。考えとしては存在していても、それを実現に移すことが長い間できないでいました。
ちなみに、AI全体に関しては、もっと昔から存在しています。1950年代には、AIの研究が行われていました。さらに、実用段階にまでもっていけなかったものの、画像認識の一種である顔認証の考え方自体は、1960年代には存在し、研究も行われていたといいます。
AIの画像認識が発展した背景
AIの研究が始まって以降、AIの波は何度か訪れました。2000年代以降から現在にかけては、第3次AIブームといわれています。第3次AIブームの中心にあるのが、機械学習の領域にあるディープラーニングです。
特に、画像認識に関しては、2012年が大きな分岐点となりました。2012年に、Googleが、AIが自発的に猫を認識したと実証したためです。
Googleの、AIによる猫の認識が発表される以前は、人が「猫とはなにか?」を定義する必要がありました。人が概念を与えない限り、コンピュータが正しく処理できないでいたのです。
しかし、Googleの発表した猫の認識は、これまでの画像認識の考えを大きく変えるものでした。人が猫の概念をAIに学習させなくても、さまざまなパターンの、膨大な量の猫の画像をインプットさせることにより、AIが自ら学習と分析を繰り返して猫を認識するに至ったのです。
人が条件を与えないゼロの状態から、AIが自ら学習を経て対象物を認識するまでの過程は、当時は衝撃的なものでした。
それでは、なぜGoogleのAIによる猫の認識が成功したのでしょうか。
理由は、2000年代にさらなる研究が行われたニューラルネットワークが、ディープラーニングと呼ばれる多層で複雑な処理を可能にするものに発展を遂げたこと。そして、ハード的な技術革新によりGPUが進化したことがあげられます。
AIによる自発的な画像認識から今日の発展
AIによる画像認識の発展は、ディープラーニングとGPUの活用で、画像認識の技術が大きく向上したことが大きいです。これにより、膨大なデータの処理と膨大な量の計算ができるようになりました。
さらに、さまざまな方法による機械学習のやり方の確立、技術的基盤の確立、仮説検証が立てやすくなったことから、多くの技術者の関心を集めるようになります。
Googleの猫の認識以降、だれもがプログラミングしやすい環境ができたことで、PDCAが早く回るようになり、技術も広く普及するようになりました。
今日の画像認識の技術の発展スピードが速いのは、このような流れで、だれでも活用できるようになったことで多くの人が試行錯誤を重ね、さまざまなAIのモデルを作り出してきたためです。
AIの画像認識についてお悩みでしたら
お気軽にご相談ください
資料請求・無料相談
お電話でのお問い合わせ
phone
06-4300-7713
平日10:00-18:00
AIの画像認識はさまざまな場所で活躍している
AIによる画像認識は、だれもがプログラミングしやすい基盤ができたことで、急速に広まっていったと説明しました。私たちが普段利用するようなアプリケーションを始め、ビジネスの場面においても、さまざまな業界でAIの画像認識が広く活用されています。
具体的にどのような業界でどのような活用がされているのか、業界ごとに活用の事例を見ていきましょう。
- 医療・介護expand_more
- 警備業expand_more
- 製造業expand_more
- 小売業expand_more
- 農業expand_more
AIの画像認識が抱えている課題
ここまで、AIの画像認識の概要と事例を取り上げてきました。実際、さまざまな分野の、さまざまな課題の解決策として活用されていることから、AIの画像認識に大きな希望をもたれた方もいるかもしれません。
業務効率化や人の作業をサポートする手段として注目されるAIの画像認識ですが、問題点もあります。AIの画像認識を導入する段階で問題に上がりやすいのが、問題設定の仕方や物理的な課題です。
問題の設定の仕方
AIの画像認識については、完成物の精度が期待していたほど高くなかったという事象が発生することがあります。学習データが判断のもとになるため、ある程度の誤差があるのは通常です。
しかし、完成物が期待値を大きく下回る場合、開発者側の問題設定が原因の可能性があります。
たとえば、学習段階ではきれいな写真をデータとして読み込ませたものの、実際のオペレーションではきれいな写真が撮れず、うまく判別できない、というようなことです。
なぜ、上の事象のようなことが起きるのでしょう。原因は、開発者側が最後のゴールを考えておらず、システムを作ること自体をゴールに考えてしまったためです。
実際にシステムを運用することを考えて設計しないと、システムが思うように動かず、冒頭のように期待した精度が発揮されないことにつながります。
問題設定については、システムの初期段階から、正確に練り上げることが重要です。
atma では、このような実際のオペレーティングとのかい離が起きないように、実際に使うときのことを考えて設計をしています。
物理的な問題
AIの開発において、さまざまな物理的な問題が発生することがあります。たとえば、以下のようなことです。
・学習データに必要な画像が不足しており実装できない
・リアルタイムで撮影したいのにWi-Fi環境が整備されていない
・AIの精度確保のためスペックの高いカメラを設置したことで多大なコストがかかってしまう
・全体として費用対効果があわない
ほかにも、理論上はAIの導入が問題なくても、実際のオペレーションと合わないケースも考えられます。たとえば、AIによる診断のために、診断の都度、物体を特定の場所に移動させなければならず、実務上のオペレーションに問題があるケースです。
このような物理的な問題、実務上の問題は、それぞれの会社の事情もありますし、さまざまなパターンが考えらえます。
それでは、物理的な問題は、どのようなことで回避、または解決できるでしょうか。
それは、AIの導入を考えている依頼者側が、このような物理的な問題やオペレーション上の問題が発生する可能性があることを理解しておくことがひとつです。また、AI開発会社に何でも丸投げしないことが重要といえます。
必要な情報を開発会社と細部まで共有して、しっかりと話をする機会を設けることで、開発の前に気づける部分は多いです。物理的問題を把握したうえで、どのようにしていけば良いかという具体的な話もできます。
AIによる画像認識の導入を考えるなら、依頼者側の理解、適切に相談にのってくれる開発会社とのパートナーシップが重要です。
今後、AIの画像認識はどう進化していく?
AIの画像認識はどう進化していくのか、性能の面だと、セグメンテーションなどAIの画像認識を利用した、自動運転の実用化が期待されています。ほかにも、画像認識の応用が進めば、人があまりやりたがらない仕事を機械に代替させることもできるでしょう。
なお、ディープラーニングによって機械学習の性能は向上しましたが、なぜ性能が上がったのか、機械学習の中身に関する部分は解明できていない部分もあります。そこで、近年注目されているのが、AIモデルの説明・解釈可能性(Explainable ・Interpretable AI)です。
AIモデルの解釈が進み、人とAIの判断の違い、あるいは判断が一致する部分が解明されれば、人がどのように思考しているのかがわかります。エクスプレイナブルが進めば、より高度な意思決定に役立てられる日が来るかもしれません。
AIの画像認識についてお悩みでしたら
お気軽にご相談ください
資料請求・無料相談
お電話でのお問い合わせ
phone
06-4300-7713
平日10:00-18:00
AIの画像認識は、ルールベースや汎用的な手法による画像認識から、ディープラーニングによる画像認識まで進化を遂げてきました。特に、ディープラーニングは、機械自体が特徴量を抽出して判断できることから、一気に注目が集まりました。
2012年に猫の画像をAI自身が認識できるようになったことを起点に、現在では、さまざまな分野のさまざまな工程にAIの画像認識が応用されています。今後も、自動運転など、より複雑で難しい分野の実用化が期待される技術です。
ビジネス面におけるAIの画像認識は、大企業に限らず、中小企業などでも導入が広がってきています。AIの導入を考えるなら、まずは自社の問題の洗い出しから着手し、AI導入が効果的か検討してみると良いでしょう。
お問い合わせ
数多くの開発・導入実績を持つ atma
のスタッフが個別にお話を伺います。
お電話やWeb会議でも対応可能です。