研究 > 音声情報処理

音声情報処理

(話し言葉解析、話し言葉翻訳、話し言葉自動生成など)


解説:

 講演や講義など、読破は貴重な知的資源であり、音声を蓄積し再利用できる環境を整えることは、情報化社会の高度化に大いに貢献する。音声情報を効果的に利用するには、音声の収録や文字化だけでなく、意味的に構造化することが重要である。我々は、話し言葉解析による独話音声の構造化方式を開発している。統計的手法により、高精度かつ高速な解析が可能になる。

 また、人と機械の円滑なインタフェースの実現を目指し、音声コミュニケーションの研究を展開している。ロバストな音声対話を実現するために、コーパスに基づく対話処理技術(話し言葉解析、発話意図理解、対話制御、応答生成など)を開発している。対話データを事例野党系として活用することにより、人間の振る舞いに類似した自然な対話処理が可能となる。

語順の自由度を活用した同時通訳手法

 自動翻訳を介した円滑な異言語間対話を実現するため,同時通訳者のように話者の発話の終了を待たずに翻訳を開始する同時自動翻訳手法について研究しています.

 英日翻訳では言語間の語順が大きく異なるため,自然な語順の日本語訳を生成するのでは同時翻訳を実現することは困難である.そこで本手法では,依存文法を満たし,かつ英語の語順に近い訳文を生成することにより,訳文として理解可能で,かつ話者の発話に追従できる日本語訳を出力します.



講演音声のリアルタイム構造化

 松原グループでは,同時通訳や字幕生成の音声言語処理システムの 実現を目指しています.このため,講演音声をリアルタイムに構造 化するシステムの開発を進めています.この研究は,ATR音声言 語コミュニケーション研究所と共同で研究しています.

 講演音声は,1文の長さが長く文の構造が複雑であるという特徴が あります.このため,解析を実行すると,解析時間が長くなり,高 い解析精度を達成することが難しくなります.

 また,音声をその入力と同時に処理することが不可欠です.同時通 訳などのアプリケーションでは,単に構造化するだけでなく,音声 入力に追従できる解析の高速性,即時性が求められます.

 そこで,音声発話を文より短く意味的にまとまった節に分割し,節 ごとに解析を実行する手法を開発しました.これにより,講演音声 を高精度に,かつ,リアルタイムに構造化することが可能になりま した.

 さらに,講演音声の言語的特徴を明らかにするために,また,構造 化システムの学習データとして用いるために,講演音声の書き起こ しデータに対して人手で構文的分析を与え,高度にアノテーション された大規模講演音声コーパスを構築しました.

 今後は,このような構造化方式を用いて,講演音声のリアルタイム 字幕生成システムを開発する予定です.



独話リアルタイム字幕生成のための要約手法

 近年,聴覚障害者による要望として,ニュース番組といった独話音声の理解支援が求められている.そのアプリケーションとして,独話のリアルタイム字幕生成に対する期待が高まってきている.

 しかし,番組の音声情報を字幕化するには,要約せずに発話をそのまま表示すると,字幕の表示時間が不足し字幕を読み切れない可能性があるので,文章を適度な長さに要約する必要がある.本研究では,独話のリアルタイムな自動字幕生成のための要約手法を提案する.本手法は,係り受け構造に基づいた要約手法である.

 まず発話に対して,音声認識を行う(正確さが100%の音声認識システムを仮定).そこで,リアルタイム性を求めるために,一文ではなく,節ごとに要約して出力する.



リアルタイム駄洒落生成システム