JCMD報告書(12)


12. 10th DB-West 発表原稿(1997年6月1日)於大阪樟蔭女子大学

DB-West 第10回記念シンポジウム 「これまでのデータベース、これからのデータベース」 データベースの作成、公開、活用の現在と未来

大阪樟蔭女子大学 日本語研究センター 田原広史

☆データベースとは?
 「データ」と「データベース」の違いは?「データ」の塊から利用者がそれぞれの目的に応じて情報を検索し、引き出すことができるもの。また、そのために、データを加工し、検索のための情報を付与したもの。したがって、「データベース」は、「本体データ」と「検索用ラベルデータ」の二つに分けることができる。

☆データの加工度 … 「生データ」と「加工データ」
 音 声:談話録音データ   〜 単語音声データ
 文 字:フルテキストデータ 〜 語彙データ

☆検索への対応度 … 検索用「ラベルデータ」の充実の程度
 音 声:CDによる音声データ(トラック番号のみ)
CD-ROMによる単語音声データベース(話者、単語、拍数、アクセント、etc.)
 文 字:フルテキスト(マッチングによる検索が中心)
語彙データベース(品詞、意味分類、表記、出典、etc.)

☆データベース作成の道筋
1.データ作成(電子化作業)
   音 声:ディジタル化編集作業、ファイル形式の変換作業
   文 字:手入力、OCR読取、修正、単位切り作業
2.検索ラベルデータ整備
 音 声:調査項目、話者情報、アクセントなどの入力作業
 文 字:品詞、見出し用語句、出典情報の入力、整備
3.検索プログラムの開発
 添付するプログラムの開発(市販のものは利用者に負担を強いる)

☆公開への道筋
 媒 体:磁気媒体(フロッピー、CD-ROM)、オンライン公開(インターネット)
 規 則:利用規程の作成(利用範囲の設定、著作権との関わり)
宣 伝:個人的配布、研究会などの利用、出版社による配布

☆活用の現状
 オンライン検索の革命!…インターネット(WWWブラウザ)の登場
・日本全国、あるいは世界中どこにでも発信できる
・方法の一元化(装置:パソコン、アプリケーション:WWWブラウザ)
  特別な装置、資格なしに発信、受信できる(試作段階での公開が可能になる)
・低コスト化
    発信者側の通信費がゼロに
    保守が容易にできる(e-mailによる連絡、ホームページからの保守)
・発信者がデータ公開の程度を調節できる
すべてダウンロードする〜検索条件を調節し一定の容量で打ち切る

☆データベースの目的
・目的が限定されたものはオンライン検索に向いている
 文献データベース、語彙データベース
   …必要な文献をできるだけ正確かつ多く見つける
・多目的なものはデータを丸ごと公開せざるを得ない
フルテキスト、談話録音資料…利用者がデータを再分析する必要がある

☆著作権の問題
・はっきりとしたガイドラインはまだ見えない
・公開する側と利用する側の意図のズレは、それほど表面化していない?
 (国語国文学分野での公開事例が少ない)
・他の分野のデータベースの事例を研究する必要がある

☆データベース公開へ
・これまでのDB-West
ソフトの使い方についての紹介、報告
データベース開発事例の発表
自分自身のデータベースを使った研究
・これからのDB-West
データベースの公開宣言(他の人への利用を促す)
他人のデータベースを使った研究

☆今思うこと
・他人へ公開することはとてもしんどいことだ(恥ずかしい部分もすべてさらすことに)
・公開することを念頭に置いてデータを作成しなければ、よいデータベースはできない
・データベース作成に関しての学会の評価が気になるなぁ
もっと他の人が利用して、研究を進めてくれることによって評価が上がるのでは?