ソース: https://discourse.datamethods.org/t/the-petty-bone-rct/22077
llynn、2024年10月25日 12:23am、投稿#1
ソース: https://discourse.datamethods.org/t/the-petty-bone-rct/22077
llynn、2024年10月25日 12:23am、投稿#1
エグゼクティブサマリー
本資料は、代数方程式の解法、特に2次および3次方程式を題材として、ガロア理論の根幹をなす思想を解説するものである。中心的なテーマは、方程式の解が持つ「対称性」を、体の「自己同型写像」という厳密な数学的概念を用いて捉えることにある。
2次方程式の解法において、平方根
さらに、3次方程式の解法に向けて、
ソース: https://bjsm.bmj.com/content/early/2025/10/05/bjsports-2024-109357
エグゼクティブサマリー
本稿は、医療研究、特にスポーツ医学の分野における統計的指標の一般的な誤解を避け、臨床判断を改善するための新しい解釈フレームワークを提示する。中心的な論点は、P値を「統計的有意性」の二分法的な判定基準として用いる従来のアプローチが、実践的重要性を見過ごし、誤解を招く危険性があるという点である。
この問題に対処するため、本稿ではP値と区間推定を「相性(compatibility)」の観点から解釈することを提唱する。このアプローチでは、P値はデータと特定の仮説(例:効果がないという帰無仮説)との間の一致度を示す連続的な尺度として扱われる。また、信頼区間(CI)は、データと「かなり相性が良い」効果サイズの範囲を示す「相性区間(compatibility interval)」として再解釈される。
エグゼクティブサマリー
GPT-5のような最新のフロンティアモデルは、医療分野のベンチマークでトップスコアを達成しているが、これらのスコアはモデルの真の実用性や準備性を反映しておらず、むしろ「準備性の幻想」を生み出している。本研究で実施された一連の厳格なストレステストは、これらのモデルが深刻な脆弱性を抱えていることを明らかにした。主要なモデルは、画像のような重要な入力情報がなくても正解を推測し、プロンプトの些細な変更で回答を覆し、説得力がありながらも欠陥のある推論を捏造することが頻繁にある。
これらの問題は単なる技術的な不具合ではなく、現在の医療AIベンチマークが、真の医学的理解よりもテスト受験戦略や「ショートカット学習」に報酬を与えているという根本的な欠陥を露呈している。6つの主要モデルと6つの広く使用されているベンチマークを対象とした評価では、高いリーダーボードスコアの裏に、脆弱性、見せかけのパターンへの依存、そして一貫性のない推論能力が隠されていることが判明した。さらに、ベンチマーク自体も、測定する能力(例:視覚的依存度、推論の複雑さ)に大きなばらつきがあるにもかかわらず、同等に扱われていることが示された。
ソース: https://onlinelibrary.wiley.com/doi/10.1111/stan.12241
エグゼクティブ・サマリー
本報告書は、学術論文「The significance filter, the winner’s curse and the need to shrink」(van Zwet & Cator, 2021)の主要なテーマと結論を要約するものです。論文の核心的な論点は、科学研究において一般的に行われている、統計的に有意な結果のみに注目する慣行、すなわち「有意性のフィルター」が、深刻な統計的バイアスを引き起こすという点にあります。
このフィルターを適用することにより、2つの主要な問題が生じます。第一に、効果量の大きさが体系的に過大評価される「勝者の呪い」と呼ばれる現象です。第二に、信頼区間が名目上の被覆確率(カバレッジ)を達成できなくなる問題です。論文では、これらの問題が特に研究の統計的検出力(パワー)が低い場合に深刻化することを、初めて数学的に証明しています。
ボックスの視点:頻度論とベイズ統計の補完的役割
ソース: https://academic.oup.com/jrsssa/article/143/4/383/7105478
導入
本レポートは、20世紀の最も影響力のある統計学者の一人であるGeorge E. P. Boxによる画期的な論文「Sampling and Bayes' Inference in Scientific Modelling and Robustness」(J. R. Statist. Soc. A, (1980), 143, Part 4, pp. 383-430)に基づき、彼の深遠な洞察を解説するものである。
統計学の世界では、頻度論(サンプリング理論)とベイズ理論という二つの主要な思想が、長年にわたり互いに相容れないものとして論争を繰り広げてきた。この長年の論争は、統計学を学ぶ者を混乱させ、実践家を二者択一の不毛な選択に追い込んできた。しかしボックスは、この二つのアプローチを敵対的なものではなく、科学的知識が発展していく反復的なプロセスにおいて、それぞれが不可欠な役割を担う補完的な関係にあると主張した。本稿は、この統合的な視点を解き明かし、統計的実践における両者の協調的な役割を論じるものである。
科学的モデリングにおけるサンプリングとベイズ推論:G.E.P. Boxの統合的視点
ソース: https://academic.oup.com/jrsssa/article/143/4/383/7105478
エグゼクティブサマリー
G.E.P. Boxが提示した理論は、科学的学習が「批判(Criticism)」と「推定(Estimation)」という2つの要素からなる反復プロセスであると定義する。この枠組みにおいて、長年対立してきたサンプリング理論とベイジアン推論は、敵対するパラダイムではなく、それぞれが不可欠な役割を担う補完的なツールとして位置づけられる。
Boxの中心的な主張は、いかなる統計モデル p(y, θ) も、2つの相補的な要素に分解できるという点にある。一つはパラメータ推定のための事後分布 p(θ | y) であり、これはベイジアン推論の中核をなす。もう一つはモデル批判のための予測分布 p(y) であり、これはサンプリング理論的な思考を必要とする。予測分布は、モデルが真である場合に生成されうる全ての可能なデータサンプルの分布を表す。実際に得られたデータがこの分布の中で極めて稀なものであれば、モデル自体の妥当性が疑われる。この考え方は、有意性検定の論理的根拠を明確に説明するものである。
ご提示いただいた資料 https://causalai.net/r136.pdf に基づき、大規模言語モデル(LLMs)の観測分布知識(Pearlの因果階層のレイヤー1)を評価するために構築されたベンチマークを構成するタスクのリストを、低次元設定と高次元設定に分けて作成します。
このベンチマークは、経済、健康、教育、社会行動、犯罪といった多様な領域にわたる実世界集団の統計に関する知識をLLMが持っているかを評価するために設計されています。タスクは、データセットで暗示される共変量間の分布
低次元設定では、75のタスクが構築されており、これは単変量$V_X$に条件付けられた$V_Y$の条件付き分布
| Task # | Task Name (タスク名) | 関連するデータセット |
|---|
AIの「思考力」を解き明かす:パールの因果階層入門
ソース: https://causalai.net/r136.pdf
はじめに:AIは本当に「考えている」のか?
現在のAI、特に大規模言語モデル(LLM)は、「イングランドの首都は?」のような事実に関する質問に驚くほど正確に答えることができます。その能力は、私たちの仕事や学習の方法を大きく変えようとしています。
しかし、ここで一つの疑問が浮かび上がります。「AIは単に膨大な情報を記憶しているだけなのか、それとも人間のように原因と結果を理解して『思考』しているのでしょうか?」
ソース: https://dansblog.netlify.app/posts/2022-11-12-robins-ritov/robins-ritov.html
本ブリーフィングは、Dan Simpsonによるブログ記事「Un garçon pas comme les autres (Bayes)」で展開された、ロビンスとリトフが提示し、ラリー・ワッサーマンによって広められた統計学上の反例に関する詳細な分析を提供する。この反例は、「確信的・主観的ベイジアン(committed subjective Bayesian)」が尤度原理を厳密に順守すると、単純だが現実的なランダム化の下で重大な誤りを犯す可能性があることを示唆するものである。
Simpsonの核心的論点は、この反例がベイジアン手法の根本的な欠陥を示すものではなく、むしろその原理の硬直的で非現実的な解釈の問題点を浮き彫りにするものだということである。彼は、古典的なサーヴェイ統計学の手法(ホルビッツ=トンプソン推定量)が容易に解決できるこの問題を、真のベイジアンもまた解決できると主張する。