研究 > 言語資源

言語資源

(同時通訳コーパスの構築と分析、コーパスを用いた用例検索など)

 言語処理技術の発展のために、人間の言語行動を生部ことが重要である。我々は、同時通訳データ、社内音声対話データ、講演番組データ、学術論文データ、判決文データなど、大量の言語コーパスを収集し、分析、統計、事例、実験のデータとして活用している。利用価値の高い言語資源とするため、規模と品質(アノテーションの多様化)の双方の向上を図っている。

同時通訳コーパスの構築と分析

同時通訳は,人間の極めて高度な言語処理活動であり,今日,脳科学,認知科学,言語学など,幅広い分野において,その複雑なメカニズムについて研究されている.SLPグループでは、同時通訳システムの開発、および、同時通訳理論の構築を目指し、名古屋大学CIAIR同時通訳データベース(182時間、100万単語)の定量的、定性的分析により、同時通訳の実態にアプローチしている。主に、通訳者の話速変動、ポーズ時間特徴、対訳対応ペアにおける遅延時間、および、その巻き返し戦略、訳出パターンや修正パターンの運用などに着目し、同時通訳者の話者追従戦略について分析している。



構文情報を利用した用例文検索システム

我々の研究室では,構文情報を利用した用例文検索システムを開発している.本システムにより,外国語の学習,言語現象の分析,あるいは自然言語処理システムの開発など,実際に使用される文の調査が必要な場面で効果的に文を検索できる.従来の検索システムがキーワードを含む文を見つける単純なものであったのに対し,本システムでは,単語間の構文的関係を利用して,キーワード間の構文的関係が強い文を優先的に見つけることができる.ユーザが入力したキーワードから,構文構造パターンを自動生成し,このパターンを持つ文を検索する.パターンは自動生成されるため,キーワードを入力するだけで,構文的な情報を考慮した検索が実現できる.



同時通訳コーパスにおける対話の通訳単位分割

近年の音声・言語処理技術の進展に伴い,音声翻訳技術に関する研究が活発に行われている.独話に限らず,対話においても,発話が終わってから行う逐次翻訳より,発話途中において同時進行で行う同時通訳が適していることが示されている.同時通訳では,通訳者は話者の発話途中で訳出を開始することから,話者の発話の一部を通訳単位として捉え,その訳を早い段階で訳出していると推測される.対話において,このような単独にかつ同時的に通訳可能な同時通訳単位はどのようなものであるかを明らかにすることは重要である.本研究では,節に着目し,自動的に同時通訳単位を獲得する手法を提案し,日本語対話文におけるより実用的な同時通訳単位に関する考察を定量的に行った.