昨日の記事で使ったコーパスのことを
> 国研のコーパス
>コーパスデータは「少納言」や「中納言」と同じ
などと書いてしまいましたが、大ウソでした。しかも、「2語比較機能」は昨日のサイトだけの特徴ではありません(これは私の情報アップデート不足)。
謹んでお詫びするとともに、改めて整理しつつご紹介しておきます。
昨日使ったこちら
は、「筑波ウェブコーパス」(Tsukuba Web Corpus: TWC)という約11億語のコーパスデータでした。
もうひとつ、まったく同じインターフェースを使っているコーパス検索サイトとして、こちらがあります。
こっちが、国立国語研究所(国語研)が構築した「現代日本語書き言葉均衡コーパス」(Balanced Corpus of Contemporary Written Japanese: BCCWJ)で、こちらは約1億語です。
2つの名前を見るとわかりますが、
筑波のほうが NINJAL-LWP for TWC
国研のほうが NINJAL-LWP for BCCWJ
となっていて、 TWCとBCCWJがそれぞれのコーパス名。「NINJAL-LWP」の部分は共通ですね。これが、両方のサイトで使っているインターフェースの名前なんでした。
検索には、国立国語研究所(以下、国語研)とLago言語研究所が共同開発したコーパス検索システムNINJAL-LWP(NINJAL-LagoWordProfiler)を利用しています。同じシステムを利用したツールに、国語研が構築した1億語の『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contenporary Written Japanese: BCCWJ)を検索するNINJAL-LWP for BCCWJ(NLB)があります。
と、筑波のほうのサイトで説明されているとおりです。両方使うときは、
筑波のサイトがグリーン系
国研のサイトがブルー系
になっているので、すぐに見分けがつきます。
そして、昨日使った2語比較検索はどちらにもあります。
こちらが、昨日も使ったTWCの画面で、検索結果は11,421と30。
こちらがBCCWJの画面。検索結果は1,221と16で、だいぶ少なくなります。
以上、お詫びと追加情報でした。高橋さきのさん、ありがとうございます。m(__)m