> HOME > データ一覧 > 大阪大学 マルチモーダル対話コーパス(Hazumi)

大阪大学 マルチモーダル対話コーパス(Hazumi)

国立情報学研究所が研究者提供データセットとして大阪大学から受け入れたデータセットです。

2022/07/07 更新

データ概要

大阪大学産業科学研究所において収録された,対話エージェントと人との対話の様子を収めたマルチモーダルコーパスです。対話エージェントは Wizard-of-Oz 方式により別室から人が操作し,実験参加者がいくつかの話題について雑談する様子を,1名あたり15分程度収録しています。

  1. 対面収録版

    2017年~2019年にかけて,対面にて,ビデオとMicrosoft Kinectを用いて収録されたデータです。

    • Hazumi1712(2017年12月収録開始データ)

      事前に興味の有無を尋ねたいくつかの話題の中から,興味あり3話題,興味なし3話題(話題の例:スポーツ,ドラマ,芸能人,ゲーム,電車など)を取り上げて対話したもので,実験参加者は20代~50代の男女29名です。

    • Hazumi1902(2019年2月収録開始データ)

      実験参加者が対話を楽しんでいる時間が長くなるように話題を調整しながら対話を行ったもので,実験参加者は20代~70代の男女30名です。

    • Hazumi1911(2019年11月収録開始データ)

      対話の進め方はHazumi1902と同様で,実験参加者は20代~70代の男女30名です。Hazumi1911ではリストバンド型生体センサにより生体信号データ(皮膚電位や心拍など)も収録しています。

    データの詳細については以下の説明書をご覧ください。

    IDRからは,ビデオで収録した映像データと,Microsoft Kinectで取得した音声データ,深度画像データ,姿勢データを提供します。データサイズは圧縮ファイルで計約180GBです。

    別途,発話の書き起こしや各種アノテーションデータ(ELAN形式),生体信号データ,実験用ダンプファイル,アンケート結果等が以下のgithubサイトより提供されています。

    本データセットの特徴については大阪大学のリリースをご参照ください。
    また対面収録版の全体像は,ACIIの論文を参照してください。より詳細については,人工知能学会研究会資料(Hazumi1712について),電子情報通信学会技術報告(Hazumi1902について)および人工知能学会研究会資料(Hazumi1911について)にも記載があります。

  2. オンライン収録版 2022-07-07 追加

    2020年~2021年にかけて,オンライン会議システムを用いて収録されたデータです。

    • Hazumi2010(2020年10月収録開始データ)

      実験参加者が対話を楽しんでいる時間が長くなるように話題を調整しながら対話を行ったもので,実験参加者は20代~60代の男女33名です。

    • Hazumi2012(2020年12月収録開始データ)

      対話の進め方はHazumi2010と同様で,実験参加者は20代~60代の男女63名です。

    • Hazumi2105(2021年5月収録開始データ)

      Hazumi2010とHazumi2012で一度収録を行った実験参加者のうち,システムが操作していたことに気づいていなかった者に対して再度収録を行ったもので,実験参加者は男女29名です。

    データの詳細については以下の説明書をご覧ください。

    IDRからは,ビデオ会議システムで収録した映像データを提供します。データサイズは圧縮ファイルで計約9GBです。

    別途,発話の書き起こしや各種アノテーションデータ(ELAN形式),実験用ダンプファイル,アンケート結果等が以下のgithubサイトより提供されています。

    (オンライン収録版ではMicrosoft Kinectや生体センサによる各種データは収録されていません)

なお対面収録版,オンライン収録版を含めたコーパスの全体像について,日本音響学会誌の論文もご参照ください。

更新情報

  • オンライン収録版(Hazumi2010,Hazumi2012,Hazumi2105)のデータが追加されました。利用者の方は配布サイトより追加データをダウンロードしてご利用頂けます。なお,これに伴い従来の提供データを「対面収録版」としましたが,内容に変更はありません。(2022/07/07)
  • Hazumi1911(2019年11月収録開始データ)が追加されました。利用者の方は配布サイトよりダウンロードしてご利用頂けます。(2021/03/12)
  • 「データ概要」欄にデータの説明書へのリンクを追加しました。(2020/09/23)
  • 「大阪大学 マルチモーダル対話コーパス(Hazumi)」の提供を開始しました。(2020/08/18)

利用目的・提供対象者

  • コーパスの利用目的は研究(基礎技術開発を含む)に限ります。
  • 提供対象者は主に大学および公的研究機関の研究者としますが,研究内容によっては民間企業等の研究者にも提供可能です。利用の可否をお知りになりたい場合は末尾の「問い合わせ窓口」までお問い合わせください。
  • 原則として,提供の単位は研究室(大学以外の場合は研究室に相当するグループ)としますので,利用申請は研究室を代表する方が行ってください。

お申し込み

本データの申込み方法は次の通りです。いずれも無料です。申込に必要な書類は下記「必要書類」からダウンロードしてください。(「同意書様式」はサンプルです。正式版は後日事務局よりお送りします)

  1. 大阪大学産業科学研究所が定めた「『大阪大学 マルチモーダル対話コーパス(Hazumi)』利用規約」および国立情報学研究所が定めた「IDRデータセット提供サービス規約」の内容を十分に確認の上,以下にしたがって「利用申請書」に必要事項を記入してください。

    1. 同意書に記載しますので,利用申請者欄には法人名(「国立大学法人」等)も含めて組織名を省略せずにご記入ください。

    2. 申請の単位は大学の研究室等とし,研究代表者は研究室等を代表する常勤の職員(大学の場合は教員等)の方としてください。

    3. 契約締結者は契約締結の職務権限があり,公印をお持ちの方にお願いします。大学ですと,通常は学部長相当以上の方となりますが,学内で別に定められている場合もあります。予め所属組織の事務に契約者となる方をご確認ください。

    4. 研究グループ構成員になれるのは,申請者と同じ組織に所属し,直接に共同して研究を行う方のみです。たとえ共同研究で使用する場合あっても,他機関や他の独立した研究室の方が使用する場合は,別途に申請してください。

  2. 「利用申請書」を電子メールの添付ファイルで下記「問い合わせ窓口」(IDR事務局)宛に提出してください。

    1. メールの件名「大阪大学マルチモーダル対話コーパス利用申請(○○大学)」としてください。件名が明記されていない場合はメールが破棄される場合があります。

    2. 他のデータセットを同時に申請する場合は,データセットごとにメールを分けてお送りください。

    3. ご提出いただいた利用申請書は,利用の可否の判断および利用者の把握のため,大阪大学に提供します。

  3. 申込内容についてIDR事務局にて確認し,折り返し利用の可否をご連絡します(数日かかることがありますがご了承ください)。なお,本データの提供対象者は大阪大学が定める条件の範囲となりますので,ご希望に添えないこともあることをご承知おきください。

  4. 利用者と大阪大学および国立情報学研究所との間で次のように契約を締結します。

    1. IDR事務局より各種規約および「同意書」様式を電子メールの添付ファイルでお送りします。

    2. 「同意書」に公印にて押印し,下記窓口(IDR事務局)宛に郵送してください。

  5. IDR事務局ならびに大阪大学で同意書を確認後,データをご提供します。

データ提供方法

データはIDR事務局より,原則としてWebサーバからのダウンロードにより提供します。

必要書類

データ提供後の報告等について

  • メディアを対象として広報や研究発表等を行う場合は,事前にご連絡ください。
  • 学会や学術雑誌等での研究発表については,年に一度,利用報告書のご提出をお願いします。
(詳細は「利用者向けページ」をご覧ください)

問い合わせ窓口(IDR事務局)

〒101-8430
東京都千代田区一ツ橋2-1-2
国立情報学研究所 IDR事務局
電話: 03-4212-2009
電子メール: idr [at] nii.ac.jp
※問い合わせ等はできるだけ電子メールでお願いします。

利用者向けページ (既にデータをご利用中の方へ)

大阪大学マルチモーダル対話コーパスの利用者向けの情報を掲載しています。→ 利用者向けページ