東京大学松尾研究室発のAIスタートアップであるACESは、会議や講演会における重要シーンを容易に検索できる技術に関する特許を取得したことを発表した。
特許の概要
従来のように画像情報、音声情報、言語情報をはじめとする単一の情報(=シングルモーダル)のみの分析では、複雑なコミュニケーションを正確に理解することができない。
しかし、本特許を用いることで、複数の情報(=マルチモーダル)を人の知見と組み合わせ、必要なシーンを特定できるようになる。
たとえば、「質問に悩んでいるシーン」を検出する場合、質問の内容(言語情報)、返答までの間(音声情報)、視線や姿勢の変化(画像情報)といった複数の情報を総合的に分析する。
これにより、商談での重要な質疑応答や、会議での本質的な議論、プレゼンテーションでの聴衆の反応など、ビジネスパーソンが着目したい場面を抽出する。
さらに、業界や用途に応じて検索条件を自由にカスタマイズでき、特定のシーンを検出するための特徴的な条件(例:質問の検知と会話の間など)は組織内で共有・再利用することが可能になる。これより、同じような状況(質問に悩むシーンなど)を、営業活動の振り返り、重要な商談シーンの共有、新人研修でのフィードバックなど、さまざまなビジネスシーンで横断的に活用できる。
背景
企業活動において、商談や会議でのコミュニケーションを科学的に分析し、振り返りの効率化や個人スキルの定量的な把握することへの期待が高まっている。
たとえば商談において、相手が強調して質問するシーンは、振り返り時にとくに着目すべき重要な場面になる。しかし、こういった複雑なコミュニケーションの場面を捉えるには、書き起こしの文章に自然言語処理を行うといった単一の情報処理では不十分だった。
そこでACESは、言語情報である会話内容に加え、音声の抑揚や姿勢・視線といった非言語情報も組み合わせて分析することで、重要シーンの特定を可能にする技術を開発した。
特許について
- 特許番号:特許第7591311号(P7591311)
- 発明の名称:動画情報検索装置、検索方法、検索プログラム、および検索結果の利用方法
- 特許権者:【識別番号】520008533【氏名または名称】ACES