Network Users' Group ``wheel''
/
Dai ISHIJIMA's Page
/
多言語データベース
PostgreSQLによる多言語(多国語)単語データベース
解説
フリーのデータベースソフトとして有名なPostgreSQLには、
-
文字列の内部表現として、
Mule内部コードやUTF-8コードを使うことが可能であり、
多言語(多国語)情報を扱うことができる
-
数値や文字列といった基本的なデータ型以外に、
音声や画像などのマルチメディア情報を扱うことのできる
「ラージオブジェクト」をサポートしている
という特徴があります。
この特徴を十分に活用して、
英語、日本語、中国語、ドイツ語、 ヒンディ語、モンゴル語、タイ語、ベトナム語の
8ヶ国語の 単語および音声・文字を扱える
マルチメディアデータベースを構築しました。
また、このデータベースを使ったアプリケーションとして、
PHP3を使ったデータベース検索ソフトを開発しました。
さらに、多言語対応でないパソコン(ブラウザ)や、
iモード携帯電話(Compact HTML)からもアクセスできる
ソフトもあわせて作成しました。
自動翻訳や自動通訳といった
コンピュータによる多言語処理を実現するためには、
その基盤となる多言語のデータベースの整備が必要になります。
現在、日本語や西欧諸国の言語データの整備は比較的進んでいますが、
アジア系言語では進んでいるとは言えない状況です。
ここに上げたテスト版がこの状況を改善するささやかなきっかけとなれば
と思います。
PostgreSQLは、Mule内部コードやUTF-8という形で多言語情報を扱えますが、
実際に多くの国の言葉を同時に扱ったアプリケーションは
そうそう多くはないのではないかと思います。
せっかくいろんな言語が扱えるようになったんですから、
じゃんじゃん活用しましょう :-)
テスト版
若干、データにおかしなところがありますが、
ご容赦ください。
なお、ここでのプログラムは、「実用的なもの」というよりは、
PostgreSQLやフリーソフトが多言語処理の基盤となりうるかを
「検証するためのもの」です。
お知らせ
-
このページは「趣味の世界」というよりは
「お仕事」で作ったものです(笑)。
-
上記テスト版で使用している音声データの著作権は大阪外国語大学が
所有しています。
-
上記テスト版では、
フリーの文字フォント (intlfont) 画像を使用しています。
関連情報
-
堀 一成, 石島 悌;
「PostgreSQLを用いた多言語文字・音声データベースの構築と
アプリケーションの開発」,
情報処理学会 第63回全国大会 講演論文集第2分冊,
(2001/09), pp.193-194.
-
堀 一成, 石島 悌;
「PostgreSQLによる多言語単語データベースの構築」,
情報処理学会 第62回全国大会 講演論文集第2分冊,
(2001/03),
pp. 297-298.
本ページ、あるいは本データベースアプリケーションに関して、
ご意見、ご感想、ご要望などありましたらお気軽にお問い合わせください。