Deepgram「Aura」が顧客の電話対応すらもAIで自動化

大久保米造

2年前

音声認識技術は、私たちの生活に革命をもたらしています。スマートスピーカーからカスタマーサポートまで、この技術は多くの産業で活用されています。

そして、Deepgramが新たな音声認識ツール「Aura」を発表しました。この記事では、「Aura」の詳細、使用例、技術的な側面、市場への影響について深掘りします。

「未来を語る声、今ここに。」

Deepgramとは？

Deepgramの運営会社は、2017年に米国で設立されたDeepgram Inc. です。創業者兼 CEO は、Eitan Isaacson 氏です。

音声とテキストの処理に特化した AI プラットフォームを提供する企業です。2017年に米国で設立され、現在は世界各国に拠点を置いています。Deepgram のプラットフォームは、音声認識、音声合成、音声分析などの機能を提供しています。

Auraは何がスゴイ？

音声認識型 AI アシスタント
音声翻訳
音声ナレーション
音声分析

Deepgramのプラットフォームの中心となる機能がAuraです。Auraは、音声とテキストの処理に特化した AI モデルです。Auraは音声とテキストの処理に優れた、汎用性の高い AI モデルです。今後、さまざまなアプリケーションで活用されることが期待されています。

Auraの特徴

音声認識の精度が高い
音声合成の自然さが高い
音声分析の精度が高い

Auraはさまざまなアプリケーションで活用することができます。

AURAは誰でも使える？

2023年12月時点でWL待ちです。

※他のDeepgramのプロダクトには使用ができるものがあります。

WLへのリンク：https://deepgram.com/product/text-to-speech

Auraは無料？

	Pay As You Go	Growth ($4k-10k / year)	Enterprise
初期費用	$200の無料クレジット	なし（事前購入クレジット）	お問い合わせ
料金体系	後払い、最低利用料金なし	年間事前支払い、実際の使用量に応じたクレジット利用	カスタムプラン
サポート	Discord、サポート	Discord、サポート	優先サポート、プライベートクラウド、専用サポートチーム

無料プランが用意されています。「Pay As You Go」が無料プランですが、$200ドル以上の使用には課金が必要です。

Deepgramの「Aura」のモデル

Deepgram 「Aura」は、Language AI Models と Audio Intelligence の 2 つの機能を提供しています。Language AI Models は、Text-to-Speech と Speech-to-Text の 2 つの機能を提供しています。

Text-to-Speech は、人間のような音声で、リアルタイムに音声合成を行うことが可能です。Speech-to-Text は、音声を正確にテキストに変換するために、大規模な音声データセットを学習した AI モデルを使用しています。

Text-to-Speech

Deepgram の Text-to-Speech 機能は、人間のような音声で、リアルタイムに音声合成を行うことが可能です。

Deepgram は、人間の声を学習した AI モデルを使用して、テキストを音声に変換します。この AI モデルは、音声のイントネーションや発音を学習しているため、人間のような自然な音声を生成することができます。

Deepgram の Text-to-Speech 機能は、速度とコストにも優れています。速度については、リアルタイムに音声合成を行うことが可能です。そのため、会話型 AI や音声アシスタントなどのアプリケーションで、リアルタイムに音声を生成することができます。

コストについては、他の音声合成サービスと比較して、より安価に利用することができます。

Speech-to-Text

Deepgram は、音声を正確にテキストに変換するために、大規模な音声データセットを学習した AI モデルを使用しています。この AI モデルは、音声の音色やイントネーションを学習しているため、音声を正確にテキストに変換することができます。

また、Deepgram の Speech-to-Text 機能は、速度とコストにも優れています。

速度については、他の音声認識サービスと比較して、より高速に音声をテキストに変換することができます。

コストについては、他の音声認識サービスと比較して、より安価に利用することができます。

Audio Intelligence

Deepgram は、音声または動画を分析して、重要な部分を抽出します。この抽出には、AI 言語モデルを使用しています。AI 言語モデルは、音声または動画の内容を理解して、重要な部分を判断することができます。

そのため、Deepgram の Audio Summary 機能は、音声または動画の重要な部分を短時間で要約することができます。

「Aura」の使用例

「Aura」についての具体的な使用事例がないため、ここでは考察を進めます。

ビジネスシーン

カスタマーサポート
会議の文字起こし

カスタマーサポート

AI音声認識ツールは、顧客からの電話やチャットの内容をリアルタイムでテキスト化し、それに基づいて迅速な対応を行うことができます。

会議の文字起こし

会議やプレゼンテーションの内容をリアルタイムでテキスト化し、後で参照したり、議事録として保存したりすることができます。

日常シーン

音声アシスタント
自動字幕生成

音声アシスタント

スマートフォンやスマートスピーカーの音声アシスタントは、ユーザーの音声コマンドを認識し、情報の検索やタスクの実行を行います。

自動字幕生成

動画やオーディオコンテンツの字幕を自動的に生成することができます。これは、聴覚障害のある人々や、音声を聞くことができない環境にいる人々にとって有用です。

教育シーン

言語学習
授業の文字起こし

言語学習

AI音声認識ツールは、学習者の発音を評価し、フィードバックを提供することができます。これにより、学習者は自分の発音を改善することができます。

授業の文字起こし

授業や講義の内容をリアルタイムでテキスト化し、後で復習したり、ノートとして保存したりすることができます。

「Aura」の技術的な側面

「Aura」の学習アルゴリズムは、Adamと呼ばれるアルゴリズムを使用しています。Adamは、ニューラルネットワークの学習に広く使用されているアルゴリズムです。

データセット

「Aura」の学習には、テキスト、音声、画像などのさまざまなデータセットが使用されています。テキストデータセットには、映画の台本やニュース記事など、さまざまな種類のテキストが含まれます。音声データセットには、人間のスピーチや音楽など、さまざまな種類の音声が含まれます。画像データセットには、人間の顔や風景など、さまざまな種類の画像が含まれます。

モデル

「Aura」は、Transformerと呼ばれるニューラルネットワークモデルを使用しています。Transformerは、自然言語処理や機械翻訳などの分野で広く使用されているモデルです。

「Aura」のTransformerモデルは、以下の3つの層で構成されています。

Embedding layer

テキストや音声などの入力データを、ニューラルネットワークで処理できる形式に変換します。

Encoder layer

入力データを、Transformerの内部状態に変換します。

Decoder layer

Transformerの内部状態から、出力データを生成します。

学習アルゴリズム

「Aura」の学習には、教師あり学習が使用されています。教師あり学習では、入力データと出力データのペアを使用して、モデルを学習させます。

競合

「Aura」の競合他社としては、以下のようなものが挙げられます。

Amazon Transcribe
Microsoft Azure Speech Services
IBM Watson Speech to Text

これらの競合他社も、それぞれに強みを持っています。モックアップでの高精度の感情認識に関しては、「Aura」が優位に立っていると考えられます。また、「Aura」は、オープンソースとして提供されているため、競合他社と比べて、コスト面でも優位に立つ可能性があります。

「Aura」は、音声認識市場に大きな影響を与える可能性があります。今後の動向が注目されます。

まとめ

最後に、読者の皆様へのメッセージとしては、新しい技術や製品が登場するたびに、その影響を理解し、適応することの重要性を忘れないでください。そして、その中で最善の選択をするためには、常に最新の情報を得ることが重要です。