# WordNet の見方、使い方

「翻訳フォーラム辞書デー」のフォロー記事、続いては WordNet に関する補足です。だいたいのことは旧ブログのこちらの記事に書いてありますが、整理と情報更新の意味で、新たな記事を書くことにします。

●WordNetの本家はこちら。
WordNet | A Lexical Database for English

●オンラインで使うときのインターフェースはここです。
WordNet Search - 3.1

もっとも、EPWINGデータをダウンロードして汎用辞書ブラウザEBWin4上に登録したほうが使いやすいので、EBWin4+WordNet EPWINGという環境をおすすめします。

●WordNet EPWINGデータはこちらから。
WordNet EPWING ~~ 日本語・英語WordNet(シソーラス)のEPWING版 ~~

●EBWin4は公式サイトからダウンロードしてください。最新版は4.7.9です。
EBWin4

そもそもWordNetとは何かというと、旧ブログのときと同じように本家サイトの説明(About WordNet)から引用して済ませます^^;

WordNet® is a large lexical database of English. Nouns, verbs, adjectives and adverbs are grouped into sets of cognitive synonyms (synsets), each expressing a distinct concept. Synsets are interlinked by means of conceptual-semantic and lexical relations. The resulting network of meaningfully related words and concepts can be navigated with the browser(link is external). WordNet is also freely and publicly available for download. WordNet's structure makes it a useful tool for computational linguistics and natural language processing.
WordNet superficially resembles a thesaurus, in that it groups words together based on their meanings. However, there are some important distinctions. First, WordNet interlinks not just word forms—strings of letters—but specific senses of words. As a result, words that are found in close proximity to one another in the network are semantically disambiguated. Second, WordNet labels the semantic relations among words, whereas the groupings of words in a thesaurus does not follow any explicit pattern other than meaning similarity.

(太字は引用者)

太字を中心に要約すると、

  • まず巨大な用例データベースがあって(Brown Corpus)、
  • そこから名詞・動詞・形容詞・副詞を抽出して、
  • 類似した単語をグループ化し、
  • そのグループsynsetという)に共通の簡単な語義を付けて
  • さらに単語間にリンクを貼った

ということです。たとえば、narrativeという語を引くと、こんな画面になります(画面はすべてEBWin4)。

f:id:yasagure88:20220205142707p:plain

この図をもとに、WordNetの見方を説明します。

品詞ラベルの右肩に8という数字があるのは、語義説明の最後に[corpus 8]とあるのと同じです(ここでは語義が1つなので一致している。同じ品詞に語義が複数ある場合は、[corpus 6]と[corpus 2]のように分かれる)。数字は、もとになっているコーパスに8件の用例があることを示しています。

この[corpus]はリンクになっていて、クリックすると

f:id:yasagure88:20220205143340p:plain

このように出典一覧があり、さらにクリックすると引用元をもっと長く読むことができます。このように、まずちゃんと出典を確認できるところが WordNet のいいところです。

 

続いて語義があり、そのあとに
syn: narration, story, tale]
というリンクがあります。これが、冒頭のAbout WordNetにあったsyset、つまり類義語グループです。

ためしに、narration、story、taleをそれぞれクリックしてみると、語義はnarrativeとまったく同じです。この4つの単語は、そういう同じグループに分類されているということが分かりました。

語義の下にたくさんリンク(スクリーンショットの青字)があります。そこに付いているラベルに注目してください。意味は以下のとおりです。

[n. hype]:Hypernym = 上位概念のグループ
[n. hypo]:Hyponym = 下位概念のグループ
[n. ihypo]:Instance Hyponym = Hyponym の具体例
[v. derv] :動詞の Derivationally related form = 派生語

そして、ここからいろいろなリンク先に飛ぶことかできます。たとえば、

[n. hype] message, content, subject matter, substance

ですから、いま見ている narrative という語には、それを包括する上位の概念としてmessage、content、 subject matter、substanceという語がある。また、

[n. hypo] tearjerker; tall tale; folktale, folk tale; sob story, sob stuff; fairytale, fairy tale, fairy story; nursery rhyme

ということで、narrative より細かい概念としては folktaleとか fairytaleなどがある。

[n. ihypo] は下位語の具体例ですが、どうして『カンタベリー物語』だけなのかは謎。narrative といえば『カンタベリー物語』なんでしょうか^^;

以上のことから、narrative という語は、

  • おおむね narration、story、tale と同類
  • message、content、 subject matter、substance の下位語
  • 『カンタベリー物語』なんかを narrative という

そんな語感の単語だと、おおよその輪郭をつかめてきました。

 

synset をもう少し詳しく調べてみます。[syn: narration, story, tale]のうちnarrationに進むと、語義 1 はnarrative と同じですが、そのほかに語義2、3もあります。同じように見てみると、story にはほかに語義2~6、tale にはほかに語義 2 があることが分かります。つまり、synset としてグループ化はされているが、それは

narrative ― narration ― story ― tale

という 4 つの単語に共通する語義だけを基準にしたグループ化であって、別の単語にはそれぞれの語義の広がりがあるということです。当たり前といえば当たり前の話ですが。

 

次に、上位語(Hypernym)についてもう少し詳しく。

まず、message のリンクをクリックしてmessage に飛びます。

f:id:yasagure88:20220205150003p:plain

名詞の語義は 2 つありますが、ここでは 2 を見ます。なぜなら、2 の[n. hypo]にnarrative が入っているからです(これが上位-下位の関係です)。少し分かりにくい英語ですが、

what a communication that is about something is about 
何かについてのコミュニケーションが表している内容

というところでしょうか。日本語の「メッセージ」に近そうですが、文字や音声など信号としてのメッセージそのもの(これが語義 1)ではなく「伝えようとしている内容」であることに注意する必要がありそうです。

同じように、content、subjet matter、substance をそれぞれクリックして移動してみると、どれにも同じ

what a communication that is about something is about 

という語義が見つかります。

 

ラベルは、上記のほかにもいろいろあり、ざっと見るならEPWINGデータをダウンロードできる大久保さんのサイトにまとめてありますが、ここにも載せておきます。特によく使われるものを太字にしておきました。

ant = Antonym
sim = Similar to
hype = Hypernym
ihype = Instance Hypernym
hypo = Hyponym
ihypo = Instance Hyponym
mhln = Member holonym
shln = Substance holonym
phln = Part holonym
mmrn = Member meronym
smrn = Substance meronym
pmrn = Part meronym
attr = Attribute
derv = Derivationally related form
dtpc = Domain of synset - TOPIC
mtpc = Member of this domain - TOPIC
drgn = Domain of synset - REGION
mrgn = Member of this domain - REGION
dusg = Domain of synset - USAGE
musg = Member of this domain - USAGE
pert = Pertainym
entl = Entailment
caus = Cause
vgrp = Verb Group
part = Participle of verb
pert = Pertainym (pertains to noun)
see = Also see

詳しい説明があるページはなくなってしまいましたが、単語でだいたい意味は分かると思います。

 

いったんはここまで。