当ブログでは気づけば2年以上にわたり、コーパスを見ながら英語の勉強をしてきています。学生時代からシャドーイング、瞬間英作文、英語日記などなど英語学習の方法を色々たくさん試してきた中では最も安定して続けている勉強の手段ではないかと思っています。
中級者以上になるべく英語の理解を深めるにはコーパスはかなり役に立つツールではないかと感じていますが、英語の学習におけるコーパスの活用法やその利点を書いたページはあまり多くは見かけません。そこで一度まとめてみようと思います。
そもそもコーパスとは?
コーパス(corpus)とは日常会話、テレビ、映画といった話し言葉や新聞記事、小説などの本といった書き言葉を集めた言語資料データベースのことを指します。データベースは実際に使われる活きた言葉の宝庫であり、言葉の使い方を学ぶ上で大変役に立ちます。
1960年代に生まれたBrown大学によるBrown Corpusが最初期のものと言われており、当時は100万語ほどであったと言われています*1。それがインターネットとコンピュータの発達により、現在は億単位で例文が集められた大規模のコーパスが多く、検索も可能でしかも無料と大きく発展しています。
これらのコーパスはジャンルごと(例えば、新聞、テレビ、会話、論文など)に一定の割合を決めた上で例文を集める「均衡的収集法」という方法がとられることが多いため、大きな偏りもなく、さまざまな場面の文章が十分に集められています*1。
コーパスは各言語でそれぞれ作られたものがあり、実は日本語のコーパスも存在しています。『少納言』は登録なく使えるのでちょっと覗いてみるのも面白いかもしれません。
なぜコーパスが英語学習に役立つのか?
さて続いてなぜコーパスが英語学習に役に立つのかを考えていきます。
ネイティブでない人が英語を使おうと思った時、まずは日本語や頭の中にある概念をもとに単語を捻り出すと思います。そこで出てきた言葉というのが果たしてニュアンスに合うのかどうか、その場面に適切なのかどうか、ここが問題となります。
例えば「コーパスが英語学習に役立つ」というときに「役立つ」はhelpfulなのかusefulなのか。あるいは動詞に書き換えたほうが自然なのか。こういったことがパッと出てこないとその単語を“使える“とは言いにくいのではないかと思います。
そんな中でコーパスは豊富な例文とよく使われる共起表現、その単語が使われ得る場面という大事な情報を提供してくれます。では、これがどう役立つのか順に見てみましょう。
伝えたい意味にあった語を選ぶことができる
まずコーパスを活用する利点として言えるのは自分の伝えたいニュアンスを英語で表現できる、あるいは人が英語で表現しているニュアンスを汲み取ることができるようになるという点です。
伝えたい意味から言葉を考えるときに、最初に役に立つのは辞書でしょう。語の正確な意味を捉えるには英英辞書が理想的で、その定義を見ることで伝えたい意味にあっているかどうかをある程度までは判別することができます。
ところが、その意味を伝えるのに、語と語の関連性が良いのかどうか、いわゆる共起語(一緒に想起されやすい語)がどうなのかという点になると辞書だけでは不十分なことが多いです。例文が多数載っている場合もありますが、共起語の頻度がどれくらいなのか、ということまでは通常わかりません。
共起語の背景知識というのは意識される以上に大切で、会話の際にも常に使用されていることが推察されます。例えば日本語で「情状酌量」という単語を使うときに、共起される語はなんでしょうか?十中八九「情状酌量の余地」という言葉が出てくると思います。これを「余地」の類語で言い換えて「情状酌量の余白」と言われたらどうでしょう。
???となりますね。会話でも思わず聞き返すくらい不自然な感じです。自分の書いた文章がネイティブから見たときにこれくらい違和感のある文章になってしまっていることは多々あるのではないでしょうか。
こうした共起語の知識はライティング(自然な表現のため)、スピーキング(自然な表現のため)、リスニング(会話内容の予測のため)、場合によってはリーディング(文章の予測、あるいはわざとズラした表現の理解)でも重要であると思われます。
コーパスを用いると共起語を頻度順に確認したりすることもできるため、よりよく使われやすい表現はどれなのか学ぶことができ、豊富な例文や共起語の違いを眺めることで一見同じようにみえる類義語の違いを学ぶ際にも役に立ちます。
場面に応じた語を使い分けることができる
ほとんど同じような意味を持つ言葉であってもformalな表現、informalな表現があったり、日常会話、ビジネス、メール、論文などで使う言葉が変わることは往々にしてあります。どの場面でどういった表現が適切なのか、この問いに対してもコーパスはある程度答えを提供してくれます。
辞書でも例文を多数見ることはできますが、どういった場面で使われているのかまでは記載がないことも多く、また仮に引用元があったとしても、知りたいジャンルを選別することはできません。
それに対してコーパスはジャンルごとに例文を収集してきているため、自分の使いたい場面でどのように/どの程度使われているか、また各ジャンルによる使用頻度の違いも示してくれます。コーパスの種類によっては前後の文章も見ることができるので、具体的な使われ方も詳しく知ることができ、辞書よりはさらに充実した情報源と言えます。
英語学習に使える!無料のコーパス3選+α
ここからは具体的に英語学習で使える無料のコーパス3つ+αを紹介していきたいと思います。
SKELL
まずは個人的に最もお気に入りで使いやすいフリーのコーパス『SKELL』を紹介します。
SKELLはSketch Engine for Language Learningの略で、登録なしで語を検索するだけで簡単に使えるWebページです。現在10億語以上の単語、5700万以上の文が登録されている超大規模データベースとなっています。公式ページからの情報によるとソースはWikipediaが最多で、他にはBritish National Corpus(英国国立コーパス)という話し言葉も1割含んだイギリスの代表的なコーパスやウェブ上の表現を含んだコーパスなどから構成されています。書き言葉の方が優位と言うところでしょうか。なお、ロシア語、ドイツ語、イタリア語、チェコ語、エストニア語のコーパスもあるようです。
語をパッと入力するだけで例文、共起語、共起語が類似する単語を表示してくれるので大変簡便で使いやすく、その単語の使われる場面をざっと見るのに重宝します。
欠点としては書き言葉が主体であること(ライティングの場合は利点ですが)と、場面別の頻度の違いは見られない点です。より詳細な場面ごとの特徴や話し言葉での特徴を捉えるには次に紹介するCoCAが有用です。
SKELLの具体的な使い方については以下の記事に書きましたのでご参考にどうぞ。
COCA
COCAはCorpus of Contemporary American Englishの略で名前の通りアメリカの現代英語を集めたコーパスです。
Corpus of Contemporary American English
年代としては1990-2020年に収集されていて、こちらも10億語以上の単語が収録されています。ジャンル別にバランスよく集められており、以下の8ジャンルから形成されています。
・spoken(話し言葉)
・fiction(フィクション)
・popular magazines(大衆雑誌)
・newspapers(新聞)
・academic texts(学術文書)
・TV(テレビ)
・Movies subtitles(映画字幕)
・blogs(ブログ)
語あるいは句を入力して検索するだけなのでこちらも使いやすいのですが、利用者登録が必要です。また間を空けずに連続して検索しようとすると時間制限がかかることがあります。この辺が惜しいところですね。
このコーパスの利点はなんといってもジャンルごとに収集されている点にあります。各ジャンルでどの程度使われているかを棒グラフにしてパッと示してくれるので、自分が使いたい場面に則しているのかどうかすぐにわかります。
また、共起表現や例文、例文ごとのジャンルも見やすいので機能はとても充実しています。多機能であるが故に慣れるまで少し大変ですが、簡便にまず調べるときはSKELL、より詳細に調べるときにはCOCAという風に使い分けられると良いのかもしれません。
また同様のインターフェースでiWeb corpusというものもあります。インターネット上の表現のみですが140億以上の単語(!!)が収集されており、ネットで書くような表現であればこちらも参考になります。
iWeb: The 14 Billion Word Web Corpus
簡単な使い方は以下の過去記事で紹介しています。
do people say it?
こちらは調べてもあまり詳しい情報が出てこないのですが、Redditと呼ばれる米国の掲示板型ネットニュースサイトをソースとしたコーパスです。
Do people say it – find out if English native speakers actually say it
実際に掲示板で使われた英文が検索できるため「この単語の組み合わせ、使ってるのかな〜?」ということを調べる時に重宝します。前後の文脈も結構出してくれるので、ささっと表現を調べる時には役立つのではないでしょうか。
登録不要で無料な点も大きいです。ただ、これ単独では共起表現や頻度の情報は十分得られないので、単語の使い方を学ぶ際には物足りないかもしれません。
さて、ここからはちょっと特殊なコーパスとコーパスを利用したツールをちょっとだけ紹介します。
ライフサイエンス辞書
ちょっと特殊ですが医学も含めて生命科学系分野と関係ある人にはおすすめのコーパス『ライフサイエンス辞書』です。
PubMedに公開されている有名学術誌(約100誌)の公開抄録を用いて、1億語以上の単語が収集されたコーパスです。以下のページのコーパスのタブを押すと見られます。
単語を入力すると関連する例文がざっとアルファベット順で並ぶような方式となっています。関連する表現をみたい時には重宝しますね。
ちなみに自分の好みの分野で単語表現をみたい時にはPubMedを使うとある程度同じような雰囲気で例文を探すことができます。当ブログにおける医学論文の英単語の使い分けの記事は「PubMedでタグを使ってジャーナルを指定」→「アブスト検索」→「出てきた文章を眺める」ということをやって書いてますので、論文を書く際にもこの検索は役立つのではないでしょうか。
タグを使ってジャーナルを絞る検索方法は一緒にYouTubeをやっているエビデンスおばさんの記事がわかりやすいのでオススメです。
すぐ使える!pubmed 検索式の作り方と検索方法のコツ【臨床家向け】【コピペ可】-エビカツ横丁
Oxford Collocations Dictionary(有料)
Oxford English Corpusをベースに作られた共起表現(コロケーション)を調べるための辞書です。こちらは有料となっており、オンライン版のほか、アプリ版もあって4040円となっています。
Oxford Collocations Dictionary at Oxford Learner’s Dictionaries
辞書なので単語単位で検索を行い、形容詞・副詞・名詞・動詞でどのような言葉と一緒に用いられやすいかをざっと見ることができます。7万5千の例文と25万単語の組み合わせが収録されているようですが、単語は意外と検索しても出てこないものもあり、ちょっと量としては物足りないところもあります。また、例文も全ての単語の組み合わせで存在しているわけではないので、「この単語の組み合わせはどう使うねん!」とヤキモキした気持ちになってしまうこともあります。
逆に単語が少ない分、情報量が少なくて見やすいのとオフライン環境でも使用可能で紙媒体もあるので、そうしたところの利点があれば良いのではないでしょうか。
まとめ
コーパスを使う利点とおすすめのコーパスをここまで紹介させていただきました。
「この単語使えるようになりたいな〜」という単語と出会った時、個人的な使い方としては
・英英辞書で定義をみる
・類義語を調べて比べる
・SKELLで具体的な使用方法と共起される単語をみる
・論文で使っていいのか気になったらPubMedやCOCA、ライフサイエンス辞書でさらに調べる
みたいな感じにしています。現在も勉強中のTOEFL対策も同じ方法でやってますね(最後の部分はCOCAを使う)。日本に居ながらにして自然な表現を調べるにはコーパスを使うのはおすすめな方法なのでぜひ役立ててみていただけると嬉しいです。
関連記事
コーパスを使った勉強法を具体的に提示してくれている『英語独習法』など書籍のレビュー記事はこちら↓
実際にコーパスを使って単語を勉強してまとめまくっている記事はこちら↓
コーパスで学んだ内容をアウトプットしていくためのサイト紹介記事はこちら↓
参考文献
*1 『ベーシックコーパス言語学
コメントを残す