# NINJAL の TWC と BCCWJ - 昨日の記事の訂正

昨日の記事で使ったコーパスのことを

> 国研のコーパス
>コーパスデータは「少納言」や「中納言」と同じ

などと書いてしまいましたが、大ウソでした。しかも、「2語比較機能」は昨日のサイトだけの特徴ではありません(これは私の情報アップデート不足)。

謹んでお詫びするとともに、改めて整理しつつご紹介しておきます。

昨日使ったこちら

tsukubawebcorpus.jp

は、「筑波ウェブコーパス」(Tsukuba Web Corpus: TWC)という約11億語のコーパスデータでした。

もうひとつ、まったく同じインターフェースを使っているコーパス検索サイトとして、こちらがあります。

nlb.ninjal.ac.jp

こっちが、国立国語研究所(国語研)が構築した「現代日本語書き言葉均衡コーパス」(Balanced Corpus of Contemporary Written Japanese: BCCWJ)で、こちらは約1億語です。

2つの名前を見るとわかりますが、

筑波のほうが NINJAL-LWP for TWC
国研のほうが NINJAL-LWP for BCCWJ

となっていて、 TWCBCCWJがそれぞれのコーパス名。「NINJAL-LWP」の部分は共通ですね。これが、両方のサイトで使っているインターフェースの名前なんでした。

検索には、国立国語研究所(以下、国語研)とLago言語研究所が共同開発したコーパス検索システムNINJAL-LWP(NINJAL-LagoWordProfiler)を利用しています。同じシステムを利用したツールに、国語研が構築した1億語の『現代日本語書き言葉均衡コーパス』(Balanced Corpus of Contenporary Written Japanese: BCCWJ)を検索するNINJAL-LWP for BCCWJ(NLB)があります。

と、筑波のほうのサイトで説明されているとおりです。両方使うときは、

筑波のサイトがグリーン系
国研のサイトがブルー系

になっているので、すぐに見分けがつきます。

そして、昨日使った2語比較検索はどちらにもあります。

f:id:yasagure88:20210830154424j:plain

こちらが、昨日も使ったTWCの画面で、検索結果は11,421と30。

f:id:yasagure88:20210830154454j:plain

こちらがBCCWJの画面。検索結果は1,221と16で、だいぶ少なくなります。

以上、お詫びと追加情報でした。高橋さきのさん、ありがとうございます。m(__)m