SeaActとは？Webでのユーザビリティを自然言語で指示、完結

大久保米造

2年前

新時代のテクノロジーSeaActが登場し、ウェブ上の作業が革新されます。自然言語でWeb操作を簡単に指示し、タスクを完結させる能力でビジネスはより効率化されます。

SeaActとは？

SeaActは、ウェブサイト上でのタスクを自然言語で指示に従って実行する革新的なAIウェブエージェントです。SeaActは、ウェブページを分析してアクションプランを作成し（「Action Generation」）、その後ウェブサイトの具体的なHTML要素にこれを適用して実際のアクションを実行します（「Action Grounding」）。

参照：公式Git「https://github.com/OSU-NLP-Group/SeeAct」

どこが開発？

名前	所属	専門分野・研究内容
Boyuan Zheng	オハイオ州立大学教員	自然言語処理、機械学習、人工知能。言語エージェントと多モーダル性に焦点
Boyu Gou	オハイオ州立大学修士課程	AIエージェント、大規模言語モデル（LLM）の研究
Jihyung Kil	オハイオ州立大学研究者	自然言語処理、マルチモーダル学習
Huan Sun	オハイオ州立大学教員	自然言語処理、機械学習、人工知能。質問応答、知識ベース、データマイニングに焦点
Yu Su	オハイオ州立大学教員	自然言語処理、機械学習、人工知能

オハイオ大州立大学の方がメインとなって進めるAIプロジェクトです。

VCなどからの出資は？

2024年1月時点でVCからの出資情報はありませんが、ブラウザを持つITプラットフォーム企業にとっては有力なAI技術といえます。出資などが期待できるのではないでしょうか。

SeaActの仕組み

アクショングラウンディングは、自然言語で記述されたアクション（ここでは「Find Your Truck」ボタンをクリックする動作）を、ウェブサイトの環境内で実行可能なアクションに変換するプロセスです。このプロセスを完遂するために、SeaActは以下の3つのアプローチを使用します。

テキストチョイス（Textual Choices）

HTMLテキストで表された要素の候補から、モデルは目的の要素のインデックス番号を生成する必要があります。

イメージアノテーション（Image Annotation）

画像に境界ボックスとインデックスラベルが追加され、モデルは目的の要素の左下にあるラベルを生成する必要があります。

エレメントアトリビュート（Element Attributes）

モデルは目的の要素のテキストとタイプを予測する必要があります。

SeaActのメリット

高い適応性
オラクルグラウンディングメソッドの効率
タスク難易度に応じたパフォーマンス

SeaActの使用によるメリットは、主に正確なタスク完了のための高度なアクショングラウンディング技術にあり、特に簡単なタスクにおいては他のモデルを上回る可能性を示しています。ただし、難易度が高くなるにつれて、他のモデルとの差が縮まるため、SeaActのアルゴリズムや学習データの改善が必要になる可能性があります。

高い適応性

「Easy」カテゴリのタスクでは、SeaAct-Oracleが最も高い成功率を示しており、簡単なタスクに対して非常に効果的であることがわかります。

オラクルグラウンディングメソッドの効率

オラクルグラウンディングメソッドを使用することで、SeaActは異なるウェブサイトの半数のタスクを成功裏に完了できることが示されており、適切な情報を与えられた場合の高いパフォーマンスを示唆しています。

タスク難易度に応じたパフォーマンス

難易度が上がるにつれて、SeaAct-Choicesの成功率は低下しますが、「Hard」タスクにおいても一定の成功率を維持していることから、複雑なタスクに対するある程度の適応力を有していることが見受けられます。

SeaActの活用事例

計画立案
コンテンツ推論
エラー訂正
綿密なスクリーンショット分析

計画立案

まるで熟練のナビゲーターのように、GPT-4Vはユーザーがウェブサイトで何を探しているのかを把握し、それに応じた道筋を描き出します。例えば、ユーザーが「最新の映画情報を探す」という要望を出せば、GPT-4Vは映画のカテゴリーへ直行するルートを提案します。

コンテンツ推論

GPT-4Vは現在のページ内容から次の一手を見越します。たとえば、オンラインショッピングカートにアイテムを追加した後に、ユーザーがおそらく「チェックアウト」を望むと読み取り、そのためのオプションを提案するのです。

エラー訂正

ユーザーが誤った情報を入力した際、GPT-4Vはそのエラーを見つけ出し、即座に修正を促します。これは、オンラインフォームで間違った電話番号を入力したときに、正しい形式を教えてくれるスマートな助け手のようなものです。

綿密なスクリーンショット分析

GPT-4Vは、詳細なスクリーンショットを分析して、ウェブサイトが自動で設定したドロップオフ日を見つけるといった、テキスト履歴では見逃されがちな情報も見逃しません。あたかも探偵が微細な手がかりを見つけ出すかのように、GPT-4Vはウェブページの深層を読み解きます。

SeaActのエラーには注意

画像アノテーションによるアクションのグラウンディングは、ウェブページ上でユーザーの意図したアクションを実行するためにAIが画像の特定の部分を識別し、関連するコマンドを生成するプロセスです。このプロセスにおけるエラーには主に次の3つのタイプがあります。

誤ったアクション生成

AIが生成したアクションが実際にユーザーが求めていたタスクと異なる場合です。たとえば、ユーザーが「ログイン」を意図しているにも関わらず、AIが「登録」のアクションを生成してしまうケースがこれにあたります。

枠とラベルの捏造

AIがウェブページ上に存在しない要素に枠を描き、ラベルを割り当ててしまうエラーです。これは、AIが視覚的情報を誤解している場合に発生します。例えば、特定の製品画像を識別する代わりに、全く関係のない画像に枠を描き、それを製品と誤認識してしまう場合です。

正しいラベルとのリンク失敗

AIが正しい要素を特定しながらも、その要素を間違ったラベルと関連付けてしまうエラーです。これは、多くの場合、要素が密集しているウェブページ上で発生しやすいです。例えば、ボタンに正しい機能（「保存」）があるにもかかわらず、隣接する無関係なラベル（例えば「キャンセル」）をその機能に関連付けるケースがこれにあたります。

まとめ

SeaActによって、ウェブインタラクションは新たな段階に進みます。クリックやマウス指示ではなく、言葉による指示でウェブタスクを解決することで、私たちはより直感的でスムーズなオンライン体験を享受できるようになります。