データ入力用語シソーラス辞典

このページは 2007 年 07 月 17 日 21時46分59秒 に更新したキャッシュ情報です。

 検索キーワード= データ入力代行
優先キーワード= データ入力

シソーラスとは?

[ 136] シソーラスとは
[引用サイト]  http://www.gengokk.co.jp/thebun.htm

30年前の「非常勤職員」という語が時代とともに陳腐化して、「アルバイター」「パートタイマー」と次々に代わり、最近では「フリーター」という語を耳にします。次はどんな語になるのでしょうか。
「非常勤職員」という語を使っている記事を同じ意味の「アルバイター」という語で検索しても、これまでの多くのデータベースでは検索できません。この橋渡しをして検索できるようにするためには、「非常勤職員」と「アルバイター」とは同じ意味であると語を意味によって整理してある辞書が必要になります。この辞書をシソーラスと呼びます。普通辞書は語をアルファベットや五十音順で整理してありますが、シソーラスとは意味で整理した辞書です。
検索して記事が見つからなかったときや、逆に検索された記事が多すぎたときにより適当な検索キーを探すためにシソーラスを使います。
また例えば料理の記事には「料理」という語はほとんど使われていません。料理の記事を探すためには「和える」「煮る」「から揚げ」「ソテー」「下ごしらえ」「塩コショウ」・・・など料理に関連した語を駆使して検索します。このような関連した語を探すにはシソーラスが必須です。
「たしか豚肉の料理だったが」とか「犬に似た動物だったが」など思い出せない語をはっきりさせるときにも、シソーラスの中の狭義語、広義語、関連語、反義語などの語同士をたどって目的の語を探します。
「食材」から見ると「肉」は部分的な意味概念なので狭義語(下位語ともいう)になります。逆に「肉」から見ると「食材」が広義語(上位語ともいう)になります。
「肉」と「野菜」とは関連語の関係です。「にく」は「肉」の表記の揺れ(異表記語ともいう)の関係になります。
英語で1人称単数は″I ″だけですが、日本語には「私」「僕」「我」「小生」「我が輩」「手前」「愚生」と数十あり、話者と相手との関係で使い分けられています。日本語にはなぜ同じ意味の語、同義語がこんなに多いのか考えてみましょう。
日本語のなかに奈良時代には中国から、最近は主に米国から輸入されて日本語の中に入ってきている語があります。
多少のニュアンスの違いはありますがすべて同義語といえます。このような組み合わせが日本語のなかにたくさんあり、これが同義語を増やしている大きな原因です。大和言葉は親しみやすさを、漢語は権威を、片仮名語は近代的な感じをあたえます。また最近は「計算機」が「コンピューター」に、「写真機」が「カメラ」になるといったふうに、漢語が片仮名語に置き換わる傾向があります。わが国は工業製品では輸出超過だそうですが、用語の世界では大幅な輸入超過です。
「特別急行」→「特急」のようなものをいいますが、「マスコミ」は「マス・コミュニケーション」であったというように省略形の方が4拍の新しい語として定着してしまっているものがたくさんあります。省略の程度も地域によって異なります。関東よりも関西の方が積極的に省略するようです。
立場によって同じことを違った語で現す場合があります。例えば政府は「公的資金」といいますが、「税金」を払う人は「血税」といいます。検索する人は「税金」という語で引きます。
語は使い込んで身近なものになると同時に陳腐化して、新しい語ができてきます。古い語は使用方法が制限されるようになり、だんだんと消え去ります。特に人や人の職業を表す語は変化が激しいようです。例えば「お前」という語は元来相手を直接指しては失礼に当たるので、相手の前を指して間接的に相手を指す非常に丁寧な語だったのだそうです。同じように間接的に指す例として「閣下」、「殿下」などがあります。しかし長い間にすっかり陳腐化してしまって、「お前呼ばわりをする」という語があるように今日では上司に対して使うと問題になります。「女中」という語は「お手伝い」「ハウスキーパー」などという語に置き換えられて現在では差別語にまでなってしまいました。
同義語のうち発音も同じものを表記の揺れ(異表記語ともいう)と言います。日本が地震国のためとは思いませんが、日本語では標準とされている表記の他に複数の「表記の揺れ」が許されている語があります。個人により、機関によりいろいろな表記が氾濫しています。極端な場合には同じ著者が書いた記事でも表記法が違うことがあります。複数の機関の記事を一度に検索しようとする場合には考えられる揺れをすべてキーにして検索しなければなりません。
あいまいさを許して検索すれば、すべての揺れを検索できそうなものもありますが、不要な記事を検索する場合が増えてしまいます。
片方を否定すると対立する相手になる語の関係です。「良くないこと」とは「悪いこと」になるような関係です。
さらには「兄」に年齢で対立する語として「弟」があります。また性別で対立する語として「姉」があります。どちらも反義語になります。
ある程度の意味的な関連性を持つ語の関係を言います。大きく分けると同じカテゴリーの語と異なるカテゴリーの語との関係があります。
書籍のシソーラスは物理的な制約もあり、ほとんど木構造になっています。そかしこの方式は、シソーラスを作ったひとの分類基準をよく理解して、その分類に従ってたどっていかないと使いこなせません。そのため木構造をたどって探しても思った語が見つからなくて、結局巻末の総索引から引き直すということが少なくありません。
キーボードから直接どこでも指定できるので木構造をたどりながら探していく必要はありません。もはや木構造ではなく、網構造になって複数の広義語が持てるようになります。しかしその結果同じ文字列で複数の意味を持つ多義語が区別できない問題がでてきます。例えば木構造で検索したときには、「時間」からたどった「月」(month)と、「天体」からたどった「月」(moon)の二つの異なった意味の語は区別できますが、網構造では区別ができなくなります。
「月」を「天体」の観点でとらえたときはmoon で「時間」の観点でとらえたときはmonthであるとすれば解決できます。
一つのグループに入れる語を多くしすぎるとグループのなかを探すのに時間がかかってしまいます。逆に少なくしようとすると階層が深くなってしまいます。電子化されたシソーラスでは、クリックするだけで、簡単に上下の階層に移れるので階層を深くしても問題は少ないのですが、グループにつける名前がとかく恣意的になりがちです。
身近な例で「料理」について考えてみましょう。古今東西の料理の種類は相当な数になるので何らかの基準でいくつかのグループに分類する必要があります。これまでのシソーラスではこのような大量の語をシソーラスを作ったひとの分類基準に従ってたどっていかなければなりませんでした。また紙面の物理的な制約もあって意味空間を1次元的に整理してありましたが、元来多次元空間のはずです。多次元空間を分類するには、複数の観点によって多次元的に分類する方が合理的です。
上の図は「料理」を「調理法」「材料」「地域」の3つの観点で分類した例です。ある一つの語、例えば「刺し身」はすべての観点による分類の下に入っています。逆に「刺し身」の広義語が「生もの」「魚料理」「和食」の3つあることになります。この他に「料理」のための観点としては「対象」(病人食、独身料理)「スタイル」(会席料理、飲茶)などが考えられます。いろいろな考え方の利用者がいるのでなるべく多くの観点で分類しておく必要があります。
「しお」と「NaCl」とを1.1では同義語にしましたが、イメージは大分違います。同義語は意味的にほとんど重なっていますが、言えば違いがあり関連語にするべきではないかと思われるものがあります。どこまでを同義語として認めるかは、辞書の作業者同士でも食い違うことがあります。
書籍のシソーラスは概念同志を排他的に分類してありますが、実際の概念は重なり合っている場合があります。
分類にも工夫する必要があります。色を分類するときにもほとんどのシソーラスでは「赤系統」「青系統」「黄色系統」などと色相や明度などに従って分類してあります。データベースの検索の支援をするためには、もっと人間との関係を重視して「はでな色」「暖かい色」いった人間の感覚に沿った分類にした方が実用的でしょう。
 文章を書くときにより適当な用語を探すために使います。分類語彙表などこれまでの書籍によるシソーラスはほとんどこのタイプです。
 インターネットの中を検索する場合を考えてみましょう。いろいろな人によってすでに書かれている記事を探すわけですから、用語の統制を図ることは不可能です。漏れなく検索するためには普通に考えられるすべての語で検索してみる必要があります。このようないろいろな書き方の検索キーを取り出すためにシソーラスを使います。検索システムによっては、検索キーワードに同義語や関連語などを自動的に付加して検索するシステムもあります。
 「あける」という仮名文字に対して「空ける」「開ける」「明ける」などの漢字があります。しかしこの例の場合は「戸を・あける」という場合は「開ける」が適当です。では「雨戸」の場合はどの漢字が適当か、さらに「網戸」の場合はどの漢字が適当かということを逐次定義していくことが必要になります。ここでシソーラスを使えば「戸」の狭義語のときは「開ける」が適当であるということができます。さらに「カーテン」のような関連語も「開ける」が適当であるとできます。
関係語とさらにその関係語との距離は加算することにします。例えば狭義語のさらに狭義語との距離は2+2で4にします。構文解析などで、あいまいな係り先を決定するときにこの距離が使えます。また検索結果が多すぎたときに、検索キーと検索した記事中の用語との間の距離を測れば、検索結果を適切な順に表示できます。
  各学会や新聞社などで、記事を書くときに使用する用語を統制するために使います。木構造になっていて、多義語を除いて1つの用語は1つの広義語しかもちません。用語の意味の外延をその用語に属する狭義語によって定義します。
日本語の複合語はほとんどの場合、意味や品詞を決定する語が語末に、修飾する語が前方にきます。この性質に着目して語末が同じ語を取り出すと同じ意味の語が集められ、狭義語を集めたのと同じような効果を持たせることができます。
ユーザーがどんな語を関係語として要求するかは個人によって、また置かれた状態によってまちまちです。前出の「非常勤職員」の同義語の例でも「フリーター」などという語は最近の労働問題を調べているひとには必要ですが、労働問題の歴史を研究しているひとには不要です。
また研究の初期の段階にいるひとは、同義語はもちろん、狭義語、広義語までを含めて広くいろいろな語を要求しますが、最終段階になるとごく限られた語だけを要求するようになります。
用語同士の関係がそのひとの環境、世代で異なることもあります。筆者らの世代では、「パソコン」は「コンピューター」の狭義語ですが、最近の社会一般ではこれらの二つの語は、同義語になっています。個人別にカスタマイズしたり学習したりする柔らかい機能が重要です。
実際にシソーラスを運用するためには、関係する語として差別語を出力しないなどといった細かい配慮が必須です。差別語は年々増える方向にあります。増える差別語を次々に登録していくためにもいつも辞書を更新していかなければなりません。
ここまで述べてきたシソーラスは用語を分類的に整理したものです。一方これから述べるオントロジーとはある知識ベースで前提としている概念と、その概念同士の相互関係を明示したものです。いま話題のセマンティックWebやデータベースのセマンティックモデル、AIにおける概念のモデルや推論機構などで使用されています。オントロジーを記述するための言語もW3C(World Wide Web consortium)で提唱されています。
しかし実際にある知識ベースに必要な概念とその関係をデータ化するのは大変な作業です。ここでは自然言語処理のためにオントロジーをボトムアップで作成する例を説明します。具体的に言うと、過去のコーパスを基にして概念とその関係を抽出します。
この係り受け関係を前後の文章も参考にして概念とそれらの関係に置き換えます。「部屋を掃除する」という文は、次の図のようになります。
ここでは概念のことをクラス(class)といいます。 で囲いました。概念同士の関係をプロパティー(property)といいます。 で囲いました。概念を定義するための手段として、その概念に含まれる用語を用います。この用語のことをインスタンス(instance)といいます。
で囲いました。インスタンスでは同義語、表記の揺れなどを考慮する必要があり、ここではシソーラスはオントロジーに含まれます。
自然言語処理では複数の解釈が成り立つことにより、処理の結果が一意に定まらないことがネックになっています。このオントロジーを用いて生成した文章では、要約、翻訳などではこのような問題が大幅に減少します。
セマンティックウェブなどでは、論理的な関係を表現できるモデルとしてRDFを用いたメタデータ(データについてのデータ)が前提になっています。オントロジーもこのRDFを拡張した形式で書かれています。
RDFを用いた電子商取引などでは企業間で交換されるRDF文書中のタグ名、タグの内容、データの型などは業界内では同じにしてあります。しかし異業種間でお互いに独立して作られたRDFで書かれた記事を通して検索するためには、概念間の相互関係を記述しておく必要があります。オントロジーによってはじめて、それぞれの記述の意味的な関係付け(例えば同義関係、包含関係)ができます。
図8のようなRDFによる記述から例えば「広さが20平方メートル以上の居間」といった条件で調べるときに必要になるオントロジーです。 
 ここでは記事検索の場での使い方を中心に話をしました。今後日本語解析を高度化していくためには意味の分野に立ち入らざるを得ないでしょう。そのときもシソーラスが多用されるでしょう。英語圏ではすでにロジェをはじめいくつかのシソーラスが実用化されています。
利用者が登録した語は利用者の財産です。使っているシソーラスシステムを取り替えるときには、古いシステムから利用者登録語を取り出して新しいシステムにそのまま再登録ができないとすべて再入力しなければならないことになります。そうならないためには交換形式を標準化が急がれます。
またさらにシソーラスプログラムのAPIを標準化しておけば、シソーラスプログラムと検索プログラムの独立性が保たれるので、どちらか片方だけを取りかえることも可能になります。
ここではまだ標準化するべき項目を上げただけです。全文検索システム協議会内部だけの問題ではなく、語の意味の分野に踏み込んだシステム共通の問題で他の分野の人にも呼びかけて参加してもらう必要があります。関心をお持ちの方はぜひ検討に加わってください。
UF "を見よ"参照あり(非優先語:統制語シソーラスだけで意味があります)

 

[ 137] 日本語大シソーラス
[引用サイト]  http://www.taishukan.co.jp/item/nihongo_thesaurus/thesaurus.html

19世紀半ばに刊行された英語の類語検索辞典『ロジェのシソーラス』は、英文を書くためのツールとして広く長く愛用され、今日に至っています。同じ発想に基づく「日本語シソーラス」は、日本でも各界から要望されていました。しかし編纂の困難さから今まで作られたことはありませんでした。今回じつに二十数年の歳月をかけ、初めて『日本語大シソーラス』が誕生したのです。
本書は「先に分類ありき」ではなく、できるだけ多くの言葉・表現を収集しながら、それを連想に基づいて群にまとめ、分類を練り上げる作業を繰り返して作られました。そのため日本語使用の実態や、言葉の世界に定着された日本人の感性がよく反映されており、「日本人の文化・感性の総索引」と呼ぶべき内容になっています。
日本語の語彙が豊かであること、対象を正確に捉える言葉を持っていることは、日本語で何かを表現する際の重要なポイントです。本書は言葉探しのナビゲーターとして、おおいに役立ちます。『日本語大シソーラス』は、日本語の世界をそのまま本の形に取り込んだ、まさに「シソーラス」=「言葉の宝庫」なのです。
本書では、まず言葉は1,044のカテゴリーに分けられ、さらにそのカテゴリーの中は「意味の近さ」によって小語群にまとめられています。小語群の数は1カテゴリーにつき、1〜30数個まであり、総計14,000語群を数えます。さらに、小語群の中でひとまとまりになるものはセミコロン「;」で区切りました。→語群一覧はこちら
和語・漢語・季語・カタカナ語総計20数万語句を収録。のべ語句数では、実に32万語句に及びます。項目数8万項目以下の普通の類語辞典に比べ、圧倒的な語句数です。たとえばカテゴリー「良い」には、483語もの語句が収録されています。
言葉は多義的なものです。その実態に則して、意味が複数の語群に及ぶ語句はそれぞれの語群に収録しました。それらは「索引」や本文中に埋め込まれた「参照番号」で縦横無尽に行き来できるよう作られています。
文章の作成においては、「良い」→「結構」「グッド」のような類似表現の入れ換えだけでなく、より発展的な言い換えが効果的なことがあります。シソーラスは、厳密な意味の類似性よりも連想関係を重視しているので、「良い」→「旬」「三拍子揃う」「御見事」のような、頭で考えていたときには思いつかない言い換えが可能です。
言葉を実際に使うときには、品詞は区別されません。シソーラスでは「簡単」「イージー」「楽勝」「分かり易い」「話が早い」「初歩」のように、連想の順に従い語句を並べてあるので、言葉探しがスムーズです。
本文987頁に対して、索引はなんと552頁に及びます。それはひとつの語句を連想に基いて丁寧に分類し、語群の番号だけでなく語群名も表示したためです。索引を見ただけでその語句の意味の広がりが実感でき、簡単な国語辞典としても使えます。
たとえばカテゴリー「良い」ならば「優良」「良好」「結構」「悪くない」「問題ない」「ノー・プロブレム」「捨てたものではない」「満更でもない」「上等」「上出来」など、483語を収録。関連の深い言葉は隣り合って表示されており、ぴったりくる表現がきっと見つかります。
たとえば「てをあげる」を索引で見てみると、「手を伸ばす」「殴る」「選挙」「諦める」「成らず」「暴力を振るう」「未完」「降伏」などの語群に収録されているのがわかります。本文で実際に「手を伸ばす」の語群を見てみると、「手をあげる」のまわりには「諸手を挙げる」「手を上げろ」「ホールドアップ」などが見つかり、さらに「手を上げろ」から「じたばたするな」「止まれ」…というように、言葉の網目が無限に広がります。
本文に丁寧に埋め込まれた参照情報によって、語群間を縦横にジャンプできます。「栄える」→「繁盛」→「千客万来」→「日参」→「御百度を踏む」→「常宿」→「安ホテル」…というふうに、言葉の飛躍を楽しみながら、意外性のある表現が探せます。
たとえば「ころころ」を索引で見てみると、「太い」「円」「回転」「倒れる」「転ぶ」「肥満する」「笑う」「下駄」「鳴声(蛙ほか)」などの語群に収録されていることがわかります。季語や商品名など、使うべき言葉が先に決まっていて、文章や表現を後から考えなくてはならないときのサポートに便利です。

 

戻る

 
Copyright (C) 2004 DEWNKEN Computer Service Corporation. All Rights Reserved.