ひとつ前の記事でご報告したように、大久保克彦さん作のEPWINGデータを、翻訳フォーラムが公開しています。
そちらでもいろいろ書きましたが、今回あらためて公開できたEPWINGデータについて、少しだけ詳しく解説しておきます。お読みになって興味がわいた方は、ぜひダウンロードして使ってみてください。
いま公開されているデータは、大きく分けると以下のとおりです。
- 青空文庫のEPWINGデータ
- Project Gutenbergのデータ
- Wiktionaryのデータ
- WordNetのデータ
- 聖書パック
- シェイクスピアパック
なお、それぞれの辞書の詳しい使い方は、上記サイトに旧公開サイトのWay Back Machineアーカイブページを載せてあるので、そちらをご覧ください。
●青空文庫EPWING
著作権の切れた文学作品などがパブリックドメインとして公開されている「青空文庫」。2022年3月時点の全データをEPWING化したデータです。
ありそうで無かった、青空文庫で公開されている作家・作品情報と全作品テキストを一つにまとめたEPWINGデータを作りました。
(旧公開サイトより抜粋)
ルビなしとルビありの2種類があります。
- 青空EPWING(20220316):ルビなし(334MB)
- 青空EPWINGルビあり(20220316):ルビあり(337MB)
- 青空EPWING gaiji(20220316):下記参照(2.8KB)
文字化けすることがあるので、EPWINGでgaijiファイルを設定してください。
青空文庫が手元でEPWINGになっていると、何がいいのか? 収録作品の性質上、少し時代は古いのですが、日本語のコーパスとして利用できるのです。EBWin4の全文検索を使います。
こんな風に、「普及する」を他動詞として使っている用例が折口信夫にもあるのかぁ~、と確認できるわけです(ちなみに、それでも現代語では自動詞が主だと思いますが)。どうですか? すぐ使ってみたくなりません?
■旧公開サイトのWay Back Machineアーカイブのコピー:
青空WING ~~ 青空文庫の全文EPWING ~~
●Project Gutenberg EPWING
Project Gutenberg は、言ってみれば外国文学版の青空文庫ですね。ただし、全作品となるとあまりに膨大なので、人気作品のみということです*1。それでも、総数としては2,000近い作品を収録しています。
そこで、言語別に人気作ベスト100を調べ、それらの作品の作者の全作品テキストを収録しました。ただし、単純に機械処理可能なHTMLファイルが公開されていない作品は除外しました。ある言語からの翻訳作品や、同一作品の底本が異なるテキストなども取り込んでいます(面倒なのでいちいち作品をチェックして選別していません)。
(旧公開サイトより抜粋)
全文が収録されているので、欽定訳聖書(The King James Bible)でも、ジョイスの『ユリシーズ』でも、ルイス・キャロルでも読めちゃいます。そういう読み方をするときは、EBWin4の[検索]で[メニュー]を選択 → 左カラムの作者一覧を選択 → 右カラムで作品名を選択すれば、各作品の冒頭から読むことができます(実際には、冒頭に作品解説や目次的な内容があるので、本文テキストは少しスクロールすると出てきます)。
※このときは、EBWin4の右下にある表示オプションを[個別]ではなく[連続]にしてください。
もちろん、[全文検索]を使えば任意の単語を検索して出典や該当箇所を確認できます。
上の図は、Antipathiesという単語を検索して、Alice in Wonderland の該当箇所を表示したところです。有名な一節ですね。対蹠地=antipodes を思い出そうとして、別の単語を思い浮かべてしまうところ。
ちなみに、Alice in Wonderland だけでも、バージョン違いで6種類も入っています(アーサー・ラッカムの挿絵で有名な版も入っていますが、さすがに画像はありません。そういう場合はProject Gutenberg のオリジナルサイトに飛べば見られます)。
これだけのテキストを手元におけるなんて、それだけでテンションあがります。
■旧公開サイトのWay Back Machineアーカイブのコピー:
Lailaps ~~ 英仏独伊西Wiktionary & Project GutenbergのEPWINGほか ~~
●Wiktionary
Wiki形式を使ったユーザー参加型辞書Wiktionary、その英語版、スペイン語版、フランス語版、イタリア語版の4種類です。Wiktionaryについては、過去記事を参照してください。
英語版は2022年3月時点のデータですが、これでもかなり新しい語義まで網羅されているので、新語を調べる糸口として本当に重宝します。
■旧公開サイトのWay Back Machineアーカイブのコピー:
Lailaps ~~ 英仏独伊西Wiktionary & Project GutenbergのEPWINGほか ~~
●WordNet 3.1
これが使えるだけでも、EBWin4を使う価値がある、というくらいありがたいデータです。WordNetについても、過去記事があります。
同じ内容を手軽に見るなら、実はアプリにもなっています。
でも、この辞書の真価が発揮されるのは、syset(類義語グループ)、Hypernym(上位概念グループ)、Hyponym(下位概念のグループ)などのデータ階層をまたがった情報まで総覧したときです。このEPWINGデータなら、その形でWordNetを引くことができます。
大久保さんも絶賛しています。
断言しますが、英語学習者必携です(高校以上くらいで)。英語の語学力が高い方ほど手放せなくなるでしょう。私は英検2級に過ぎませんが、プロの方にもお薦めできると思います。元データの語彙レベルは圧倒的です。単に見出し単語数が多いかどうかではありません。一度使えば分かります。
(旧公開サイトより抜粋。太字は原文まま)
■旧公開サイトのWay Back Machineアーカイブのコピー:
WordNet EPWING ~~ 日本語・英語WordNet(シソーラス)のEPWING版 ~~
●Bible PackとShakespeare Pack
ここまで来ると万人向けではないかもしれませんが、聖書とシェイクスピアといえば、英語圏における引用元の筆頭です。それを手元で検索して出典を確認できる、ありがたいデータです。こちらも、過去記事をどうぞ。
■旧公開サイトのWay Back Machineアーカイブのコピー:
EPWING for the classics
*1:旧公開サイトではベスト100と書かれていますが、このデータでは75人のようです