読者です 読者をやめる 読者になる 読者になる

フシギにステキな素早いヤバさ

フシギにステキな素早いヤバさを追いかけて。俺は行くだろう。

コーパスについて少し紹介

少納言

パッチワークPさんのリツイートのおかげで面白いものを見つけたので紹介いたします。
KOTONOHA「現代日本語書き言葉均衡コーパス」 少納言
国立国語研究所と「日本語コーパス」プロジェクトが共同で行った『現代日本語書き言葉均衡コーパス』です。

2011年3月現在、検索対象となっているのは、以下の11種のデータ、合計約1億480万語です。サンプルは、それぞれ無作為抽出によって抜き出しています。

  • 書籍 (1971〜2005年、21,943件、約6,230万語)
  • 雑誌 (2001〜2005年、1,989件、約440万語)
  • 新聞 (2001〜2005年、1,479件、約140万語)
  • 白書 (1976〜2005年、1,500件、約490万語)
  • 教科書 (2005〜2007年、412件、約90万語)
  • 広報紙 (2008年、354件、約400万語)
  • Yahoo!知恵袋 (2005年、91,445件、約1,030万語)
  • Yahoo!ブログ (2008年、52,680件、約1,030万語)
  • 韻文 (1980〜2005年、253件、約20万語)
  • 法律 (1976〜2005年、346件、約100万語)
  • 国会会議録 (1976〜2005年、159件、約510万語)

()内は、それぞれのデータの発行年、サンプル数、句読点・記号を除いた推定語数です。

実際に「まばたき」といった単語を検索してみると、文学作品なども登録されているのがわかります。
個人的には、書籍、ブログ、教科書、韻文というコーパスに興味があります。
この検索サイトは少納言と銘打たれていますが、申請により形態論情報も見ることができる中納言というサイトもあるみたいです。

本サイトで可能な検索は文字列検索(全文検索)だけですが、形態論情報を利用した検索サイト「中納言」も開設しています。詳しくは以下の URL をご覧下さい。なお、中納言の利用には申請が必要です。

perl とかできたらいいんでしょうね。僕は php+MySQL しかつかえないので…

「流れ星」という単語を検索してみたところ、73件が一致、うち韻文が1件、Yahoo!知恵袋が11件、Yahoo!ブログが14件です。うち、Yahoo!知恵袋のひとつは aiko の「カブトムシ」の歌詞を質問したものでちょっと笑っちゃいました。
国語学は教養程度にしかまなんでないので、自分としての使い道はまだわかりませんが、個人的につよく敬意を払いたい仕事だと思い、ブログで紹介したいと思いました。

現代歌謡コーパス

このコーパスを見て思い出したのが、自分が昔つくり、いつか作りたいと思っている『現代歌謡コーパス』です。
椎名林檎草野正宗桜井和寿の歌詞を10曲ひらがなにし、文節ごとに区切って、音のつらなりがどのように構成されているのかを一覧しようとしたものです。ねらいとしては、ミスチル桜井の「てえんだ」「してえよ」といったくだけた文末を見たり、一般的な語彙と独特な語彙がどのように現れるのかをみたかったので作りました。このデータを無印のリングノートをバラして印刷し、もういちど組み直して本の形にしたりしていました。
このコーパスをみてはっきりわかるのは、桜井和寿が「おこたってるからかなぁ」(「帚星」)「うまれかわっていける」(「蘇生」)といった表現を用いることで一文節を長くしようとする志向があることです。
f:id:yaoki_dokidoki:20111121001951p:image
f:id:yaoki_dokidoki:20111121001952p:image
つまり、文法的な切れ目をできるだけ延長しようとする方法をひとつ持っている。そして方法論的な面から文法に反映されたそれと同時に、彼の歌詞が「キスしながら唾をはいて」(掌)といった相反する主張を語ることでメッセージを宙づりに(もしくは振れ幅を大きく取る)する志向も、文法の「おこたってるから」+「かなぁ」や「うまれかわってい」+「ける」といった単純な断定を避けていく繊細なかたり方と呼応しているのがわかります。
現代新(かな)歌謡コーパス
逆順新(かな)歌謡コーパス