Skip to content

Instantly share code, notes, and snippets.

@genkuroki
genkuroki / 001-056.md
Last active October 29, 2025 10:25
Datamethods ディスカッションフォーラム:Petty/Bone RCT に関する議論 (001-056.md, 051-110.md)

代数学概論:2次・3次方程式の解法とガロア理論の導入

エグゼクティブサマリー

本資料は、代数方程式の解法、特に2次および3次方程式を題材として、ガロア理論の根幹をなす思想を解説するものである。中心的なテーマは、方程式の解が持つ「対称性」を、体の「自己同型写像」という厳密な数学的概念を用いて捉えることにある。

2次方程式の解法において、平方根 $\sqrt{D}$$-\sqrt{D}$ に置き換えても数式全体の構造が保たれる現象は、単なる偶然ではない。これは有理数体 $Q$ を拡大して得られる体 $Q(\sqrt{D})$ 上の自己同型写像の存在を示唆しており、この写像こそがガロア理論における基本的な分析対象となる。

さらに、3次方程式の解法に向けて、 $x^3+y^3+z^3-3xyz$ という対称的な多項式の因数分解が鍵となることが示される。この因数分解には1の原始3乗根 $w$ が不可欠であり、解の構造がより複雑な対称性によって支配されていることを明らかにしている。本資料で提示される演習問題は、これらの抽象的な概念を具体的な計算を通じて理解し、より高次の方程式理論へと進むための基礎を構築することを目的としている。

P値と区間推定の解釈に関するブリーフィング:実践的重要性の観点から

ソース: https://bjsm.bmj.com/content/early/2025/10/05/bjsports-2024-109357

エグゼクティブサマリー

本稿は、医療研究、特にスポーツ医学の分野における統計的指標の一般的な誤解を避け、臨床判断を改善するための新しい解釈フレームワークを提示する。中心的な論点は、P値を「統計的有意性」の二分法的な判定基準として用いる従来のアプローチが、実践的重要性を見過ごし、誤解を招く危険性があるという点である。

この問題に対処するため、本稿ではP値と区間推定を「相性(compatibility)」の観点から解釈することを提唱する。このアプローチでは、P値はデータと特定の仮説(例:効果がないという帰無仮説)との間の一致度を示す連続的な尺度として扱われる。また、信頼区間(CI)は、データと「かなり相性が良い」効果サイズの範囲を示す「相性区間(compatibility interval)」として再解釈される。

医療AIにおける準備性の幻想:フロンティアモデルのストレステストから得られた洞察

エグゼクティブサマリー

GPT-5のような最新のフロンティアモデルは、医療分野のベンチマークでトップスコアを達成しているが、これらのスコアはモデルの真の実用性や準備性を反映しておらず、むしろ「準備性の幻想」を生み出している。本研究で実施された一連の厳格なストレステストは、これらのモデルが深刻な脆弱性を抱えていることを明らかにした。主要なモデルは、画像のような重要な入力情報がなくても正解を推測し、プロンプトの些細な変更で回答を覆し、説得力がありながらも欠陥のある推論を捏造することが頻繁にある。

これらの問題は単なる技術的な不具合ではなく、現在の医療AIベンチマークが、真の医学的理解よりもテスト受験戦略や「ショートカット学習」に報酬を与えているという根本的な欠陥を露呈している。6つの主要モデルと6つの広く使用されているベンチマークを対象とした評価では、高いリーダーボードスコアの裏に、脆弱性、見せかけのパターンへの依存、そして一貫性のない推論能力が隠されていることが判明した。さらに、ベンチマーク自体も、測定する能力(例:視覚的依存度、推論の複雑さ)に大きなばらつきがあるにもかかわらず、同等に扱われていることが示された。

有意性のフィルター、勝者の呪い、そして縮小(シュリンケージ)の必要性についてのブリーフィング

ソース: https://onlinelibrary.wiley.com/doi/10.1111/stan.12241

エグゼクティブ・サマリー

本報告書は、学術論文「The significance filter, the winner’s curse and the need to shrink」(van Zwet & Cator, 2021)の主要なテーマと結論を要約するものです。論文の核心的な論点は、科学研究において一般的に行われている、統計的に有意な結果のみに注目する慣行、すなわち「有意性のフィルター」が、深刻な統計的バイアスを引き起こすという点にあります。

このフィルターを適用することにより、2つの主要な問題が生じます。第一に、効果量の大きさが体系的に過大評価される「勝者の呪い」と呼ばれる現象です。第二に、信頼区間が名目上の被覆確率(カバレッジ)を達成できなくなる問題です。論文では、これらの問題が特に研究の統計的検出力(パワー)が低い場合に深刻化することを、初めて数学的に証明しています。

ボックスの視点:頻度論とベイズ統計の補完的役割

ソース: https://academic.oup.com/jrsssa/article/143/4/383/7105478

導入

本レポートは、20世紀の最も影響力のある統計学者の一人であるGeorge E. P. Boxによる画期的な論文「Sampling and Bayes' Inference in Scientific Modelling and Robustness」(J. R. Statist. Soc. A, (1980), 143, Part 4, pp. 383-430)に基づき、彼の深遠な洞察を解説するものである。

統計学の世界では、頻度論(サンプリング理論)とベイズ理論という二つの主要な思想が、長年にわたり互いに相容れないものとして論争を繰り広げてきた。この長年の論争は、統計学を学ぶ者を混乱させ、実践家を二者択一の不毛な選択に追い込んできた。しかしボックスは、この二つのアプローチを敵対的なものではなく、科学的知識が発展していく反復的なプロセスにおいて、それぞれが不可欠な役割を担う補完的な関係にあると主張した。本稿は、この統合的な視点を解き明かし、統計的実践における両者の協調的な役割を論じるものである。

科学的モデリングにおけるサンプリングとベイズ推論:G.E.P. Boxの統合的視点

ソース: https://academic.oup.com/jrsssa/article/143/4/383/7105478

エグゼクティブサマリー

G.E.P. Boxが提示した理論は、科学的学習が「批判(Criticism)」と「推定(Estimation)」という2つの要素からなる反復プロセスであると定義する。この枠組みにおいて、長年対立してきたサンプリング理論とベイジアン推論は、敵対するパラダイムではなく、それぞれが不可欠な役割を担う補完的なツールとして位置づけられる。

Boxの中心的な主張は、いかなる統計モデル p(y, θ) も、2つの相補的な要素に分解できるという点にある。一つはパラメータ推定のための事後分布 p(θ | y) であり、これはベイジアン推論の中核をなす。もう一つはモデル批判のための予測分布 p(y) であり、これはサンプリング理論的な思考を必要とする。予測分布は、モデルが真である場合に生成されうる全ての可能なデータサンプルの分布を表す。実際に得られたデータがこの分布の中で極めて稀なものであれば、モデル自体の妥当性が疑われる。この考え方は、有意性検定の論理的根拠を明確に説明するものである。

@genkuroki
genkuroki / LLM統計ベンチマークタスク.md
Last active September 24, 2025 16:13
LLMの統計ベンチマーク論文 https://causalai.net/r136.pdf の要約

ご提示いただいた資料 https://causalai.net/r136.pdf に基づき、大規模言語モデル(LLMs)の観測分布知識(Pearlの因果階層のレイヤー1)を評価するために構築されたベンチマークを構成するタスクのリストを、低次元設定高次元設定に分けて作成します。

このベンチマークは、経済、健康、教育、社会行動、犯罪といった多様な領域にわたる実世界集団の統計に関する知識をLLMが持っているかを評価するために設計されています。タスクは、データセットで暗示される共変量間の分布 $P(V)$ をLLMがどれだけ正確に近似できているか($P̃(V)$ と $P(V)$ の比較)を評価するものです。

1. 低次元設定タスク (Low-Dimensional Tasks)

低次元設定では、75のタスクが構築されており、これは単変量$V_X$に条件付けられた$V_Y$の条件付き分布 $P(V_Y | V_X)$ の回復に関係しています(ここで$|V_Y| = 1$、$|V_X| = 1$です)。

Task # Task Name (タスク名) 関連するデータセット

AIの「思考力」を解き明かす:パールの因果階層入門

ソース: https://causalai.net/r136.pdf

はじめに:AIは本当に「考えている」のか?

現在のAI、特に大規模言語モデル(LLM)は、「イングランドの首都は?」のような事実に関する質問に驚くほど正確に答えることができます。その能力は、私たちの仕事や学習の方法を大きく変えようとしています。

しかし、ここで一つの疑問が浮かび上がります。「AIは単に膨大な情報を記憶しているだけなのか、それとも人間のように原因と結果を理解して『思考』しているのでしょうか?」

ロビンス=リトフの例に関するブリーフィング:ベイジアン推論、尤度原理、および統計的パラドックス

ソース: https://dansblog.netlify.app/posts/2022-11-12-robins-ritov/robins-ritov.html

要旨

本ブリーフィングは、Dan Simpsonによるブログ記事「Un garçon pas comme les autres (Bayes)」で展開された、ロビンスとリトフが提示し、ラリー・ワッサーマンによって広められた統計学上の反例に関する詳細な分析を提供する。この反例は、「確信的・主観的ベイジアン(committed subjective Bayesian)」が尤度原理を厳密に順守すると、単純だが現実的なランダム化の下で重大な誤りを犯す可能性があることを示唆するものである。

Simpsonの核心的論点は、この反例がベイジアン手法の根本的な欠陥を示すものではなく、むしろその原理の硬直的で非現実的な解釈の問題点を浮き彫りにするものだということである。彼は、古典的なサーヴェイ統計学の手法(ホルビッツ=トンプソン推定量)が容易に解決できるこの問題を、真のベイジアンもまた解決できると主張する。