【650億文字を数えた】コーパス作りの過酷さを、制作者自身が語る【コーパス2】

Описание к видео 【650億文字を数えた】コーパス作りの過酷さを、制作者自身が語る【コーパス2】

今回はコーパス言語学の第2回です。「まず文字を数える。書籍の総文字数を知るには?」「怒涛の許可取り3万点」「古書店を駆けずり回り、大量の本を集める」など、「ここが大変だったよBCCWJ」と題して、実際にコーパス作りを行なった丸山岳彦先生がコーパス作りの過酷さを語ります。

【丸山先生のX】
  / maruyama_take  

【目次】
00:00 命題:ミニチュアデータベースを作れ
06:27 1億語の書き言葉とその内訳
08:10 コーパスのはじまり
11:27 ここが大変だったよ BCCWJ TOP3
12:34 第3位 文字数え
24:23 第2位 実物集め
32:30 怒涛の許可取り3万点
39:32 3万冊の購入リストを見る
42:03 第1位 サンプル作り
48:51 国語研は理想的スタートアップ
53:11 コーパスの宿命
58:52 言語を捉える難しさ

【参考文献・参照URLへのリンク】
◯現代日本語書き言葉均衡コーパス
https://clrd.ninjal.ac.jp/bccwj/

◯書き言葉コーパス 設計と構築(講座 日本語コーパス 2)
https://amzn.to/48CImZT

◯講義「日本語の表記―指針と実態―」(柏野和佳子)/言語学レクチャーシリーズ Vol.17
   • 講義「日本語の表記―指針と実態―」(柏野和佳子)/言語学レクチャーシリーズ...  

◯『現代日本語書き言葉均衡コーパス』におけるサンプル構成比の算出法 : 現代日本語書き言葉の文字数調査
https://doi.org/10.15084/00002838

◯『現代日本語書き言葉均衡コーパス』利用の手引 第1.0版
https://doi.org/10.15084/00003227

【サポーターコミュニティへの加入はこちらから!】
https://yurugengo.com/support

【我々の初の著書『言語沼』はこちら!】
https://www.valuebooks.jp/bp/VS005875...

【実店舗プロジェクト:ゆる学徒カフェ】
   / @yurugakuto  

【姉妹チャンネル:ゆるコンピュータ科学ラジオ】
   / @yurucom  

【Twitterあるよ!】
ゆる言語学ラジオのTwitterアカウントがあるので、是非フォローしてください!面白語源ネタなどが流れてきてあなたの知識欲が満たされます。
→  / yuru_gengo  

【おたよりフォーム】
https://forms.gle/mTGM7A9QNqgjZMgN7
※皆様からの楽しいおたよりをお待ちしています!

【お仕事依頼はこちら!】
[email protected]

【堀元見プロフィール】
慶應義塾大学理工学部卒。専門は情報工学。WEBにコンテンツを作り散らかすことで生計を立てている。現在の主な収入源は「アカデミックに人の悪口を書くnote有料マガジン」。
Twitter→  / kenhori2  
noteマガジン→https://note.com/kenhori2/m/m125fc452...
個人YouTube→   / @kenhorimoto  

【水野太貴プロフィール】
名古屋大学文学部卒。専門は言語学。
某大手出版社で編集者として勤務。言語学の知識が本業に活きてるかと思いきや、そうでもない。
Twitter→  / yuru_mizuno  

【BGM提供】
・フリーBGM・音楽素材MusMus様 https://musmus.main.jp
・OtoLogic様 https://otologic.jp/

#コーパス言語学 #ゆる言語学ラジオ_コーパス言語学

Комментарии

Информация по комментариям в разработке