AI技術が発展した現在、チャットボットや画像認識など特定の分野に特化したAIを自社で開発することは、選択肢の1つとして十分に考えられます。しかしAI開発には、手作業でできる量ではないほどのアノテーションが必要になります。
そこで本記事では、アノテーションを比較するためのポイントや、アノテーションを簡単に行えるようになるアノテーションツールを紹介します。
目次
アノテーションとは、AIに学習させるための教師データを作成すること
AIが情報を認識するためには、タグ付けされた画像・音声・文章などのデータ=教師データが必要です。例えばAIにバナナの画像を認識させたい場合、大量のバナナの画像に「バナナ」とタグ付けして教師データを作成します。これをAIに読み込ませれば、AIの中でバナナと呼ばれるものの法則性(黄色か緑で皮のある曲線系の果物)が構築され、学習していないバナナの画像であっても「バナナ」と認識することができるようになります。こうした教師データの作成をアノテーションと呼びます。
この教師データは量が必要なのはもちろん、その内容も重要です。もしバナナの教師データの中に1本のバナナしかなければ、3本房のバナナをAIは「バナナ」として認識できません。あるいは黄色いバナナしかなければ、熟していない緑色のバナナはAIにとって「バナナ」ではないと判定されます。AIに人間と同じような認識を求めるなら、その言葉が示すほぼ全てのパターンを学習させる必要があります。
アノテーションについての詳しい内容は、以下の記事もご参照ください。
アノテーションツールとは、アノテーションを自動化・効率化するツールのこと
アノテーションはAIの自社開発・使用には不可欠ですが、必要な質と量を考えると手作業で行うのは膨大な時間がかかります。このアノテーションを効率化・自動化するためのツールが、アノテーションツールです。
アノテーションツールの主な機能
- 対象の抽出:データから学習させる対象となる部分を抽出します。画像から自動で対象の物体を抽出し、音声を自動でテキスト化することで、タグ付けを素早く簡単に行えるようになります。
- 自動アノテーション:対象の抽出に加え、タグ付けまでを全て自動で行います。タグ付けの精度は完璧とは言えませんが、後から人力で修正することも可能です。
- データの追加:1つの画像に対して、反転やぼかしなどを加えてデータ数を増やします。1つのデータから数パターン学習させられるうえ、元データのタグ付け情報をそのまま使えるため、作業も簡単です。
- データの出力:作成した教師データを特定のデータ形式で出力します。対応可能な形式はツールごとに異なります。
- 画像へのコメント:タグ付けした画像へコメントを付けられます。複数人でアノテーション作業をする場合、作成された教師データへのコメントを残すことで、方向性や良し悪しなどの認識を共有しやすくなります。
- 進捗管理機能:アノテーション作業の進捗状況を確認できます。作業スケジュールを立てるのに役立ちます。
- アノテーション代行:この機能は厳密にはツールではなくサービスですが、アノテーションを代行してもらうこともできます。こうしたサービスは大量のクラウドワーカーと契約していることが多いため、ツールを使っても社内の人数では対応しきれないような膨大なデータ量を必要とする場合に役立ちます。
アノテーションツールを選ぶ際のポイント
目的・抽出方法と適しているか
ツールを選ぶ際は、どのような目的のためにAIを作りたいのか、それにはどのようなデータを用意する必要があるのかをまず確認します。ツールごとに得意なデータの種類が異なるので、集めたいデータに適した抽出方法を持つツールを選びましょう。
操作・導入のしやすさ
アノテーション作業は基本複数人で行うため、誰でも操作しやすいような操作性が望ましいでしょう。また、クラウド型を選べば複数人で作業状況を共有するのも簡単です。ローカル型は企業外にデータが漏れにくいという利点がありますが、導入が難しいのが難点です。
進捗管理機能の有無
進捗管理機能があるとスケジュール管理の面で便利です。またタグ付けしたデータにコメントできる機能があれば、フィードバックや意思疎通が素早く行えます。どちらも複数人で作業する場合はぜひ欲しい機能です。
委託対応が可能か
目的のAIを開発するためにどのくらいのデータ量が必要なのかをあらかじめ確認しておきましょう。あまりに膨大なデータ量が必要な場合、委託も視野に入れる必要があります。
アノテーションツール6選
LabelBox
「LabelBox」は、画像・動画・音声・テキストのアノテーションに対応しています。特に画像については物体検出、タグ付け、関節検出などの機能を有し、様々な形でのデータ抽出が可能です。また、一部機能と使用量を制限したトライアル版を無料で使うこともできます。
公式サイト:https://labelbox.com/
FastLabel
「FastLabel」は画像・動画・テキスト・音声・3次元(3D)のアノテーションに対応しています。クラウド型で作業管理機能も搭載されているため、複数人での作業に役立ちます。有料版のみの機能ですが、AI自動アノテーションや代行を依頼することもできます。
公式サイト:https://aismiley.co.jp/product/fastlabel/
VoTT
「VoTT」は画像・動画のアノテーションに対応しており、トラッキング機能による動画のタグ付けができるのが特徴です。UIは直感的でわかりやすく、複数の出力形式に対応しています。無料で使うことができますが、メンテナンスが終了しているので今後の継続的な使用には向かない点は注意が必要です。
公式サイト:https://github.com/microsoft/VoTT
V7
「V7」は画像・動画のアノテーションに対応しています。AIによる自動アノテーション機能により、手作業より速く画像や動画の識別を行えるのが特徴です。アノテーション済み画像の確認やフィードバックコメントの付与も可能なほか、進捗管理機能も搭載しています。
公式サイト:https://www.v7labs.com/
Annotorious
「Annotorious」は画像のアノテーションに対応しています。GitHub社が無料で公開しているオープンソースなので、誰でもダウンロードできてカスタマイズも自由にできます。用途に合わせて自分で調整する必要があり、出力形式も指定する必要があります。
公式サイト:https://annotorious.github.io/
harBest for Data
「harBest for Data」はツールではなくサービスで、クラウドワーカーによるアノテーション代行を依頼できます。画像・動画・文章・音声のアノテーションに対応しており、予算に応じて作業者のスキルを限定することも可能です。
業務効率を上げる営業・マーケティングツール「MA・SFA・CRM」
無料でダウンロードするために
以下のフォーム項目にご入力くださいませ。