JCMD報告書(3)


3. 2nd DB-West 発表原稿(1993年6月6日)於大阪樟蔭女子大学

Japanese Speech Corpora of Major City Dialects(JCMD)
「日本主要都市方言音声データベース」の問題点

大阪樟蔭女子大学 日本語研究センター 田原広史

1.音声情報データベース一般の問題点

データ量の膨大さ
 音声のアナログ信号を高精度でディジタル化した場合の問題点としてデータ量が膨大になることがあげられる。2HDのフロッピーディスクに入る量はわずか30秒程度(8ビット16KHzサンプリング)である。カナ文字で文字化するとして8拍/秒のスピードとすると2千分の1の量しか収録できない。すなわち、文字化データだとフロッピー1枚に約17時間分入る。このことはネットワークによる情報サービスを困難あるいは不可能にする。1秒の音声データをアクセスするために4分近くかかってしまうからである。

解決策と現状
そこで、それぞれの利用者の手元(パーソナルコンピュータ、CDプレーヤ)でデータが扱えることが必要となる。現在ではその環境が整いつつある。候補となる媒体としては、ディジタル音声のみを扱うのであればCDが簡便である。CDには1時間程度の音声が収録可能である。また、パソコンと組み合わせるならば、CD-ROM、MO(光磁気)ディスクがある。CD-ROMは容量が600MBで4〜5時間分の音声を収録可能、MOディスク(3.5インチ)は120MBで約1時間の音声を扱うことができる。

2.資料に関して

2-a.資料となるデータ
重点領域研究『日本語音声における韻律的特徴の実態とその教育に関する総合的研究』(略称『日本語音声』代表 杉藤美代子)の中で方言音声収集に関わるものとして次の二つがある。「全国100地点調査」「主要都市調査」。JCMDでは後者が対象となる。

2-b.日本全国13主要都市
  札幌,弘前,仙台,新潟,名古屋,東京,富山
  大阪,高知,広島,福岡,鹿児島,沖縄

2-c.収録内容(地点によってかなり異なる)
 名 詞(雨、雨が、雨から、雨でも、この雨)
動 詞(売ること、売るな、売らない、売らなかった、売って、
    売っても、売った、売ったら)
形容詞(早い、早くて、早くなる、早かった、早かったら、早ければ)
単 文(雨?、雨降るわ、これ紙?…うん紙、誰と京都へ行ったの?)
文 章(桃太郎、天気予報)
数字・五十音

3.JCMD作成にあたって

3-a.データの選択
 上記すべての音声データをデータベース化することは不可能
   30分×70人 ・・・ 35時間
 一地点あたり10人(5世代×男女×1人ずつ)で構成する
   30分×10人 ・・・ 5時間程度

3-b.CD、CD-ROMについて

【CD】
CDは0〜99番の番号のみで音声を指定できるが、条件検索はできない。よってできるだけまとまったデータ、すなわち文章項目に利用するのがよい。
90秒×10人×13地点 ・・・ 約3時間(CD3〜4枚分)

【CD-ROM】
 CD-ROMはCDと通常の文字検索データベースを連結したような働きをもつ。すなわち、地点、話者、項目、品詞、類別、アクセント型などで検索をし、該当する音声データだけを集めて聞き比べたり、それだけを集めて編集し、テープに出力できるという利点がある。容量もCDの4〜5倍である。短い音声データについてその威力を発揮する。イメージとしてはむしろ巨大な600MBのフロッピーディスクと考えた方が近い(ただし、書き込みはできない)。しかし、音声データを扱う場合、これでも容量としては多いとは言えない。容量が4時間として、一人分のデータを20分程度で納めるにしても12〜3人分しか入らないからである。

3-c.CD-ROM作成上の問題点

音声データの作成
DATで収録した音声資料は、同じ音声を何度も言い直していたり、単語と単語の間隔もまちまちであったり、場合によっては収録の順序も一定ではない。これを音声データベースにするにはいわゆる編集作業が必要である。具体的には、DATに収録された音声をいったんコンピュータの中に取り込み、必要部分の波形を目で確認しながら削除、入れ替え、無音部分の挿入等をおこないながら、編集作業を進めていく。これはかなりの手間と労力を要する作業であり、一秒の音声を編集するのに数分かかる。

検索ラベルデータの作成
一方、データベースとしての検索等を可能にするため、各音声に検索キーを付与する必要がある。検索キーには、その発話者に関わる情報と、その音声に関わる情報の二種類がある。検索をおこなうためにはこれらの情報を付与していく必要がある。データベースにとってソフトウェアにあたるものであるから、この検索ラベルの出来次第でデータベースの価値が決まるといってもよい。また、検索ラベルに関してはデータベース完成後、ユーザの要望によって手直しができる形(すなわちROMベースでないもの)にしておく必要があり、音声データとは別媒体にしておく方がよい。『日本語音声』のCD-ROMはその点で不満の残るものであった。

検索プログラムの開発
検索プログラムに関しては、ユーザフレンドリであることは必要であるが、データベースを高度に利用していくには、ある程度の融通性を持たせ、たとえば市販のデータベースソフトと組み合わせるような形のプログラム開発が必要だろう。プログラムに関しても、後日手直しが可能であることが求められる。

4.おわりに

この研究は、平成5年度科学研究費補助金研究成果公開促進費(いわゆるデータベース科研)の補助を受けておこなうものである。音声データ作成に関するノウハウは『日本語音声』における研究でかなり進んでいるが、索引データ、検索プログラムの二つ、すなわち、ソフトに関する面はまだまだ研究していく必要がある。