amptalkは、電話・商談解析ツール「amptalk analysis(アンプトーク アナリシス)」において、自社開発の書き起こしAIモデルを変更し、書き起こし精度をアップデートしたことを発表した。書き起こしAIモデルは、オンラインや対面での録音それぞれに合わせてチューニングされており、さまざまな商談シーンにおいて書き起こしが可能になる。
また、書き起こしたテキストは、LLMにより違和感のない文章に補正される。これにより、商談の議事録や情報の抽出の精度が向上し、営業活動の業務効率化に貢献する。
アップデートの背景
近年、OpenAIが提供する音声認識ツール「Whisper」など汎用の音声認識モデルが普及したことで、AIによる書き起こし、議事録ツールの数が増加し、手軽に音声の書き起こしができるようになった。一方で、音声の取得環境(ウェブ会議システムの利用や対面での録音など)により精度のばらつきが起こることや、ビジネスシーンでの活用では日本語の専門用語や固有名詞の書き起こしが難しいといった課題が存在していた。
これまでamptalkは、自社開発の書き起こしAIを開発することで、さまざまな専門用語が使われる営業の商談・電話の書き起こしを実現してきた。今回、書き起こしを行うAIモデルを刷新し、書き起こしの精度が向上した。今回の変更にともない、電話・ウェブ会議システム・対面の録音環境それぞれに合わせたチューニングを行ったことで、環境に依存しない書き起こしが可能なった。
また、書き起こされたテキストをLLMによって補正する仕組みを取り入れることで、さらに読みやすい書き起こし体験を実現する。
特徴
書き起こし精度が30%向上(※1)するとともに、オンライン・対面それぞれに合わせたチューニングで環境に依存しない書き起こし精度を可能に
OpenAIが開発する書き起こしAI Whisperを上回る書き起こし精度(※2)を達成。
※1 前モデルからの改善率
※2 Character Error Rate(文字誤り率)
LLM補正に対応し、人が読みやすい書き起こしに
LLMによる補正は2025年1月に対応予定。
各企業・業界の専門用語やサービス名などの固有名詞の書き起こしに対応
自社開発の書き起こしAIのため、独自の学習をさせることが可能になる。各企業における専門用語やサービス名を登録することで書き起こしのレベルを向上する。
汎用書き起こしモデルの約10%で、書き起こしの精度を向上
自社開発のAIを用いることで、汎用の書き起こしAIに比べ、約10%のコストで書き起こしが可能に(※)。
※月100時間の書き起こしにかかる金額