-- Views
June 22, 26
スライド概要
◆「数百万冊䛾書籍スキャン・廃棄プロジェクト」全貌
米ワシントンポスト 2026年1月27日
概要レポート(スライド版)
裁判記録公開の背景から日本への影響まで視覚的に全体像を把握できる資料
https://drive.google.com/file/d/12-EPCvUiTJMU-eo6W_p_J_c8GmMKhY2i/view?usp=sharing
Project Lead, Jealousy Dictionary at Chuo Koron Shinsha | Teaching AI Human Emotions through Japanese Media
AIスタートアップが計画した 「数百万冊の書籍スキャン・廃棄プロジェクト」の全貌 Inside an AI start-up’s plan to scan and dispose of millions of books 米ワシントンポスト 2026年1月27日報道 Aaron Schaffer, Will Oremus, Nitasha Tiku 概要レポート
裁判記録が封鎖解除された⇒スクープ記事へ 判事が4,000ページ以上の訴訟文書の封印解除を命令しました。 通常、和解が成立すれば文書は機密保持条項により非公開のままとなりますが、 今回は判事の決定により公開されました。 そのため今回 Washington Post紙は公開文書に基づいて詳細な調査報道を行いました。 記事は有料。購入しなければ読めません。 Inside an AI start-up’s plan to scan and dispose of millions of books https://www.washingtonpost.com/technology/2026/01/27/anthropic-ai-scan-destroy-books/
プロジェクト「パナマ」とは 書籍 購入 背表紙 裁断 高速 スキャン 廃棄 アンソロピックの AIモデル「Claude」の学習データとして 高品質な情報を確保するために進めていた、数百万冊 規模の書籍をスキャン・データ化する極秘プロジェクト のコードネーム。 ※WPに掲載された裁判資料より アンソロピックの巨大書庫 裁判記録で明らかになったアンソロピックの内部計画文書 ・「Project Panamaは、世界中のすべての書籍を破壊的にスキャンする私たちの取り組みである」 ・「私たちがこれに取り組んでいることを知られたくない」
6ヶ月で最大200万冊をスキャン 1日最大、11,000冊 スキャンの費用 数千万ドル(数十億円) 裁判記録で明らかになったこと ・当初は図書館などから購入を検討したが、ストランド・ブックストア (ニューヨークの有名な老舗書店)など複数社からバルク購入 (まとめ買い)。 ・元GoogleBooks幹部、Tom Turveyを雇った。
なぜ書籍なのか?⇒ AIモデルの知能向上のため SNSなど ネットの文章 書籍の文章 ・校正されていない ・断片的 ・論理的でない ・ノイズの多い学習データ ・編集者によって 校正されている ・論理的 ・良質な学習データ 裁判記録で明らかになったこと ・まず海賊版からダウンロード(違法だと認識して行った。裁判では違法と判断) ・そのあと書籍を購入してスキャン作業を行った(裁判ではフェアユースと判断)
AI各社の狂乱的な開発競争 AI開発には「良質なデータ」が必要 ※書籍から入手するのが良い 時間がかかる/拒否される 即時入手可能/リスクあり 実行 裁判記録で明らかになったこと ・Anthropicの共同創業者の一人は、書籍で AIモデルを訓練することで「質の低いインターネット言葉」を模倣するのではなく「上手に書く方 法」を教えられると理論化した。 ・Metaの2024年の電子メールでは、デジタル書籍の宝庫へのアクセスを AI競合他社と競争するために「不可欠」と述べていた。
違法性の認識: Anthropic共同創業者Ben Mann 裁判記録で明らかになったこと ・Anthropic共同創業者 Ben Mannは、2021年6月、11日間にわたり海賊版サイト LibGenから個人的に大量ダウンロードした ・Pirate Library Mirrorとは「we deliberately violate the copyright law(故意に著作権法に違反している)」と明言するサイト。 2022年7月Anthropic共同創業者 Ben Mannは、それに対して「 just in time!!!(ちょうど間に合った)」と感嘆符 3つで喜びを表現 ・これをAnthropic従業員と共有した。
違法性の認識: Meta 社員からCEO Mark Zuckerbergへの報告 裁判記録で明らかになったこと ・数回にわたり、 Metaの従業員は、数百万冊の書籍のコレクションを許可なくダウンロードすることは著作権法に違反するだろうという懸念 を内部メッセージで提起した。 ・2023年12月の内部電子メールによると、「 MZへのエスカレーション」( CEOマーク・ザッカーバーグへの言及と思われる)の後にこの慣行が 承認されたとのことだった。 上記画像データの詳細 ・上記を、CEOマーク・ザッカーバーグは否定。
AI企業の既成事実化戦略 コーネル工科大学・ジェームズ・グリメルマン教授 ワシントン・ポスト記事より ・巨額投資をした後では、後戻りできない( sunk cost fallacy)という状況を自ら作り出した ・「locked in(閉じ込められて)」競争圧力によって倫理的判断ができなくなった状態 ・「fast-paced, high-stakes(急速でハイステークス)」という競争環境が、法的・倫理的配慮を後回しにさせた
Alsup判事:「 AI学習は合法、入手方法は違法」判決 Alsup判事:「AI学習は合法、入手方法は違法」判決 ワシントン・ポスト記事より ・Alsup判事「AI訓練は変革的」 ・結果的にこれは、技術進化に法整備が追いつかない間に、既成事実を積み上げ、 後から「フェアユース」「変革的利用」という法理論で正当化する戦略が成功したと言える
日本人・著者は?⇒検索すると多数の書籍が出てくる ・和解サイト https://secure.anthropiccopyrightsettlement.com/ ・海賊版サイト・ Libgen https://www.theatlantic.com/technology/archive/2025/03/search-libgen-data-set/682094/ ・Book3メタデータ https://github.com/psmedia/Books3Info ※日本人著者をリストアップしたもの https://docs.google.com/spreadsheets/d/1grzgw1SanFsRW_HtCAoof4CLPAdL8APjl-xUUvu_Njg/edit?usp=sharing
【制度の穴】作品は使われている。しかし ... 実際に使われた可能性(数百万部) 和解金受取の条件 日本語書籍の多くは ... 一部のみ ✓ 無断使用された可能性 ⇒あり ✗ 和解金を受け取れる ⇒なし Anthropic公式和解サイトで検索できるのは、以下の条件をすべて満たした書籍のみです ・ISBN または ASIN を持つこと ・米国著作権局への登録(初版から 5年以内等の条件) ・LibGen または PiLiMi に存在した証拠 しかし、実際に学習に使用されたとされる「 Books3」データセットには、これらの条件を満たさない多数の書籍が含まれています。つまり、日 本語書籍が無断使用された可能性があるのに、和解金を受け取れない「制度の穴」が存在します。
迫るタイムスケジュール
書籍・日本語データの無許可利用とは? 1) 【入口】:無許可で「入手」 2) 【変換】:無許可で「複製・保存」 3) 【利用】:無許可で「 AIの学習に使う」 1) 【入手】海賊版サイトからダウンロード ⇒ LibGen, Books3から数百万冊(違法と判断) 2) 【保存】中央ライブラリに保存 ⇒世界中のすべての書籍を保管 3) 【学習】AIモデルの訓練に使用 ⇒ 商業利用(年間売上数千億円規模) ⚖ 判決:学習自体は合法、入手方法は違法 そもそも「 AIの学習の是非」の前に「入手」と「複製・保存」に問題がある
AI時代の言語データ・言語主権とは? 1) AI時代の「言語データ」とは AIが賢くなるための “燃料”で、次のようなものです。 ・文章そのもの :書籍、新聞、雑誌、論文、 Web記事、SNS、ブログ、台本 ・会話のログ :チャット、問い合わせ、議事録、コールセンター ・翻訳・注釈 :対訳、用語集、タグ付け、評価データ ・構造化された言語資源 :辞書、コーパス、 FAQ、ルール集、ナレッジベース AIはこれを食べて、 日本語の意味・ニュアンス・価値観・常識 を学びます。 2) 「言語主権」とは? 国家主権の「言語版」です ・日本語を、誰が、どのように学習し、どんな日本語を “標準 ”として扱うのか ・日本語の意味が、海外 AIモデルの都合で要約・圧縮・改変されないか ・日本語のデータが、一方的に吸い上げられて終わらないか
AI時代の複雑な問題 ⇒ 実はこの問題は始まったばかり ... 新しい技術 新しい事態 新しい判断 ・意味を理解する ・構造や位置づけを把握する ・新しい判断が必要 ✖ 専門的な 知識が必要 ・AI技術 ・法律 ・英文 ✖ 日米 法律の違い 著者(小説家)/編集者/出版社/ AI技術者/AI事業者/法律家/官僚/政府 さまざまな視点から議論が必要です
重要文書の入手方法 1. 裁判記録 PACER(有料・公式) https://pacer.uscourts.gov/ 事件番号:3:24-cv-05417 CourtListener(無料) https://www.courtlistener.com/ Bartz v. Anthropic PBC (3:24-cv-05417) https://www.courtlistener.com/docket/69058235/bartz-v-anthropic-pbc/ Kadrey v. Meta Platforms, Inc. (3:23-cv-03417) https://www.courtlistener.com/docket/67569326/kadrey-v-meta-platforms-inc/ 2. 和解公式サイト https://secure.anthropiccopyrightsettlement.com/ セクション:「Important Documents」 和解契約書全文 裁判所命令 請求フォーム