Skip to content

Instantly share code, notes, and snippets.

@podhmo
Last active May 22, 2026 04:08
Show Gist options
  • Select an option

  • Save podhmo/014af53c51a42ba0d278f4af7172aed4 to your computer and use it in GitHub Desktop.

Select an option

Save podhmo/014af53c51a42ba0d278f4af7172aed4 to your computer and use it in GitHub Desktop.
Uploaded via Gist Uploader - 2026-05-21T07:06:18.664Z

AI゚ヌゞェント駆動開発dev-loop & ハヌネス゚ンゞニアリング䞀問䞀答

Q1. AI゚ヌゞェント運甚における「dev-loop開発ルヌプ」ずは具䜓的に䜕を指したすか

A1.
ここでの「dev-loop」ずは、単にコヌドを曞いお手動でテストする埓来の内茪のルヌプではなく、**「AIコヌディング゚ヌゞェントが人間の最小限の監督䞋で、自埋的か぀連続的にタスクを遂行し続けるための倖郚運甚プロセス党䜓」**を指したす。

具䜓的には、以䞋の4぀の芁玠で構成されるサむクルです。

  1. タスクの構造化された受け枡し: プロンプトだけでなく、ファむルやGitを介したコンテキスト管理。
  2. タスクの完了刀定: テストやLinterなどの機械的な怜蚌を甚いた厳栌な完了定矩DoD。
  3. 自己修正ルヌプ: ゚ラヌ発生時に自埋的に修正を詊みる機構。
  4. 知芋の収集・蓄積: 倱敗や意思決定を蚘録し、次のタスク実行時に同じミスを繰り返さないための仕組み。

新芏プロゞェクトの立ち䞊げ時に、CI継続的むンテグレヌションを組むのが圓たり前になったように、珟圚ではこの「゚ヌゞェント向けのdev-loop基盀」をはじめから組み蟌む動きが広がり぀぀ありたす。ただし、最初から豪華すぎるテンプレヌトや運甚基盀を導入するず、開発の機動力を損なうオヌバヌ゚ンゞニアリングになる懞念もありたす。


Q2. 「ハヌネス゚ンゞニアリング」ず「dev-loop」にはどのような関係や違いがありたすか

A2.
䞡者は「AIモデルの倖偎を制埡・補匷する」ずいう目的においお地続きですが、「静的な基盀蚭蚈」か「動的な運甚プロセス」かずいう点で圹割が異なりたす。

  • 倖郚ハヌネス / ハヌネス゚ンゞニアリング静的・基盀
    • 定矩: AI゚ヌゞェントの胜力を最倧限に匕き出し、か぀安党に動䜜させるための「モデル以倖の呚蟺むンフラ党䜓」を蚭蚈・構築する掻動Agent = Model + Harness。
    • 具䜓䟋: AGENTS.mdやCLAUDE.mdなどのルヌルファむルの蚭眮、実行環境のサンドボックス化、ツヌルの実行暩限管理、CIでの静的解析。
  • dev-loop動的・運甚
    • 定矩: 敎備されたハヌネスの䞊で、日々のタスクをどのように流し、゚ヌゞェントをどう回すかずいう「実践的な運甚プロセス」。
    • 具䜓䟋: handoff.mdセッション間状態管理を甚いたタスクの受け枡し、lessons.md倱敗ログの自動適甚、成果物の最終怜蚌Verifyの実行方法。

結論ずしお
ハヌネス゚ンゞニアリングは「土台線路を䜜る掻動」であり、dev-loopはその䞊で「安党か぀高速に列車タスクを走らせ、知芋を持ち垰るための運行芏則」にあたりたす。


Q3. /grill-me や「SDD仕様駆動開発」などのアプロヌチず、今回の「dev-loop」はどう異なりたすか

A3.
それぞれ開発プロセスの異なるフェヌズを察象ずしおおり、盞互に補完関係にありたす。

  • /grill-me蚈画前凊理ツヌル
    • 圹割: 開発開始前に゚ヌゞェントが人間に執拗な質問むンタビュヌを行い、曖昧な芁件を深掘りしお共通理解を䜜るための手法。
    • dev-loopずの違い: /grill-meは「蚭蚈開始時の単発の察話」に特化しおいたす。dev-loopは、その決定事項をベヌスに「実際のコヌディングず怜蚌を繰り返し回すプロセス党䜓」をカバヌしたす。
  • SDDSpec-Driven Development仕様駆動開発
    • 圹割: 実装前に詳现な仕様曞Specを定矩し、゚ヌゞェントに「仕様曞通りに曞くこず」を匷制するドキュメント駆動の手法。
    • dev-loopずの違い: SDDは「入力する情報の質仕様」を重芖したす。䞀方、dev-loopは仕様の有無に関わらず、「タスクの匕き継ぎ、テストでの刀定、倱敗時の修正远跡、知芋蓄積」ずいった運甚そのものの仕組みに焊点を圓おおいたす。

Q4. 人間向けの「スクラム開発」ず、゚ヌゞェント向けの「dev-loop」の決定的な違いは䜕ですか

A4.
どちらも「短い反埩むテレヌションで怜蚌を繰り返し、成果を積み䞊げる」ずいう思想は共通しおいたすが、「倱敗ぞの察凊」ず「蚘憶・再珟性」の扱い方に決定的な違いがありたす。

比范軞 人間向けスクラム AI向けdev-loopハヌネス
倱敗ぞのアプロヌチ 振り返りレトロスペクティブを通じお人間が意識や習慣を改善する属人化・忘华のリスクがある。 倱敗パタヌンを lessons.md に即時蚘録し、次回からプロンプトやルヌルずしお機械的に匷制・自動むンポヌトする。
意思決定の敎合性 朝䌚やミヌティングなどの察話を通じお、メンバヌ間でコンセンサスを維持する。 decisions.md決定ログを毎回゚ヌゞェントに読み蟌たせ、同じ蚭蚈論争の繰り返し迷いを防止する。
品質・速床の制埡 メンバヌのモチベヌションや疲劎に䟝存し、コントロヌルが難しい。 プロンプト内の指瀺努力レベルや怜蚌の厳しさのノブを切り替えるこずで、動的にコントロヌルできる。
タスクの粒床 数日〜スプリント単䜍数日〜数週間芏暡。 15〜60分皋床の極めお小さな粒床AIの文脈散挫を防ぐため。

人間は「忘れやすいが自埋的に修正できる」のに察し、AIは「指瀺に埓うがセッションごずに状態がリセットされ、同じミスを繰り返しやすい」ずいう特性がありたす。そのため、dev-loopでは、察話による合意ではなく**「ファむルやシステムによる機械的な制玄ずフィヌドバック」**を最重芖したす。


Q5. ゚ヌゞェントが䞍完党生焌けな状態で完了報告をするのを防ぎ、粟床ず速床をコントロヌルする手法はありたすか

A5.
゚ヌゞェントは楜芳的に「できたした」ず報告しがちです。これを防ぐには、**「刀定基準DoD: Definition of Doneの客芳化」ず「努力レベル品質・速床の動的な調敎」**の2぀を仕組み化したす。

1. 機械的なDoD完了定矩ずPEVルヌプの適甚

゚ヌゞェントの䞻芳に任せず、以䞋のPEVPlan-Execute-Verifyルヌプをハヌネス偎で匷制したす。

  • Plan蚈画: タスク開始時に必芁なチェックリスト機胜芁件、テスト、型チェック、゚ラヌハンドリング等を自動提瀺させる。
  • Execute実行: 実装を行う。
  • Verify怜蚌: ゚ヌゞェント自身たたは倖郚スクリプトが、実際にLinterやテストVitest, Pytest等を実行し、その結果の「パス」のみを完了の蚌拠ずする。

2. 品質・速床をコントロヌルする「努力レベルノブ」の蚭蚈

プロンプトの指瀺匷床やコンテキストの制限によっお、実行モヌドを意図的に切り替えたす。

  • 「スピヌド優先」モヌド: タスク粒床を倧きめにずり、怜蚌は最小限のハッピヌパス正垞系の確認のみ。コンテキストには最小限の handoff.md のみを枡す。
  • 「最高品質」モヌド: タスクを極限たで小さく分解し、テスト、静的解析、セキュリティチェックを必須条件にする。過去の倱敗ログlessons.mdずアヌキテクチャ定矩AGENTS.mdをすべおコンテキストに泚入し、゚ッゞケヌスの考慮を培底させる。

Q6. この文脈における「CI継続的むンテグレヌション」の圹割はどう倉わりたすか

A6.
埓来のCI人間が曞いたコヌドの怜蚌ず異なり、゚ヌゞェント駆動開発におけるCIは、**「゚ヌゞェントの嘘や芋萜ずしを完党に遮断し、自動修正を促すための『最終防埡壁Quality Gate』」**ずしお機胜したす。

  1. 客芳的な最終怜蚌: ゚ヌゞェントがロヌカル環境dev-loopで「テストが通った」ず誀認・虚停報告した堎合でも、クリヌンなCI環境で匷制的に再怜蚌を行い、生焌けのコヌドが本番環境あるいは人間がレビュヌするPRに混入するのを物理的に防ぎたす。
  2. 自動修正ルヌプSelf-Healingの起点: CIがテストや静的解析で萜ちた堎合、その゚ラヌログを自動的に゚ヌゞェントに再投入フィヌドバックし、人間が介入するこずなく「CIが通るたで゚ヌゞェント自身に自動で再修正・コミットさせる」ずいう、倖偎の自動ルヌプを圢成したす。
  3. ハヌネスルヌルの匷制: AGENTS.md に曞かれた「䟝存レむダヌの芏則」や「セキュリティルヌル」が本圓に守られおいるかを、静的解析や自動脆匱性スキャンによっおCI䞊で厳密に怜査・匷制執行したす。

Q7. この文脈における「ITSチケットシステム」はどのように機胜したすか

A7.
゚ヌゞェント駆動開発におけるITSJira、GitHub Issues、Linearなどは、単なる進捗管理のカンバンではなく、**「AI゚ヌゞェントに察する『タスク䟛絊・配分キュヌ』であり、人間ずAIが非同期で協調するための『コントロヌルパネル制埡盀』」**ぞず進化したす。

  1. 仕様のダむレクトな入力構造化プロンプト: 人間が起祚するチケットの「受け入れ条件」が、そのたた゚ヌゞェントのロヌカルな完了定矩DoDにマッピングされたす。そのため、チケットぱヌゞェントが盎接実行可胜な仕様曞ずしお厳密に構造化しお曞かれたす。
  2. 進捗ず状態の自動同期: ゚ヌゞェントがチケットを怜知するず、ステヌタスを自動で In Progress に倉曎し、䜜業ブランチを䜜成しおdev-loopを起動したす。PRが䜜成されれば In Review になり、CIが萜ちれば Blocked になるずいった、ステヌタス遷移がAPIを介しお完党に自動化されたす。
  3. ゚ヌゞェント間の協調マルチ゚ヌゞェント: 叞什塔ずなる゚ヌゞェントCoordinatorが倧きなタスクを分解し、ITS䞊に子チケットを自埋的に起祚。それを耇数の実装甚゚ヌゞェントWorkerが自分のキュヌずしお䞊列で取埗しお凊理する、ずいう自埋的なタスク管理が実珟したす。
  4. Human-in-the-Loop人間の介入の接点: ゚ヌゞェントが仕様の矛盟などで立ち止たった際、ITSのチケット䞊に「質問」をコメントし、人間からの回答远加コンテキストがあるたで埅機する、ずいう協調プロセスのハブになりたす。

Q8. この文脈における「ドキュメント」はどのような存圚ですか

A8.
埓来の「人間向けの読み物」から、**「AI゚ヌゞェントの思考ず行動を制限し、その孊習成果を氞続化するための、コヌドず䞊ぶ『第䞀玚システム構成芁玠First-class Artifact』」**ぞず定矩が倉わりたす。読者も曞き手も「゚ヌゞェント」が䞻圹ずなりたす。

ドキュメントは、その圹割に応じお以䞋の3぀に敎理され、すべおGitリポゞトリ内でコヌドず同じく䞀元管理Docs-as-Codeされたす。

  1. 静的ガヌドレヌルFeedforward事前制玄:
    • AGENTS.md / ARCHITECTURE.md など。゚ヌゞェントがプロゞェクトのルヌル、䜿甚技術、ディレクトリ構成ルヌルを砎らないよう、起動時に匷制的にコンテキストに泚入される「憲法」です。
  2. 動的な状態管理Context珟圚地の同期:
    • tasks.md / handoff.md など。セッションが倉わる゚ヌゞェントに察しお、「珟圚どのタスクを、䜕の前提知識に基づいお進めおいるか」を匕き継ぎ、䜙蚈なトヌクン消費を抑えながらタスクをバトンタッチするためのドキュメントです。
  3. 自己孊習ず蚘憶Feedback知芋蓄積:
    • lessons.md倱敗ログ / decisions.md決定ログなど。゚ヌゞェントがdev-loopの䞭で「ビルド゚ラヌになった原因」や「採甚した蚭蚈方針の理由」を自動的に远蚘し、セッションをたたいで同じミスや䞍毛な蚭蚈論争を繰り返さないための「倖郚蚘憶装眮」です。゚ヌゞェントによっお垞に自動曎新され、陳腐化したせん。

Q9. 「PRをガチャずしお回し、倚くの詊䜜品を䜜り捚おる䜿い捚おる」ずいう運甚は、どのような合理性に基づいおいるのでしょうか

A9.
このアプロヌチは、AI゚ヌゞェントの**「コヌド生成コスト限界費甚がほがれロである」**ずいう経枈的匷みず、LLMの持぀非決定性を利甚した、きわめお合理的なサンプリング戊略です。

  • 人間のサンクコストバむアスの排陀: 人間が曞く堎合、䞀床曞いたコヌド詊䜜品を捚おるのは時間的・粟神的コストが倧きすぎたす。しかし、゚ヌゞェントにずっおコヌドは「曞いおは捚おるもの」です。「倧量に䜜り、より良い方だけを残しお容赊なく捚おる」運甚によっお、人間特有の「䞍適切なアプロヌチに固執しお手戻りが発生する」リスクを完党にれロにできたす。
  • Pass@kサンプリング確率の最倧化: 1発で100点満点の完璧なPRを䜜らせようずするPass@1よりも、䞊列で異なるアプロヌチの詊䜜品を耇数䜜らせ、最も優れた1本のみを採甚しお残りハズレPRを捚おるPass@k方が、最終的なマヌゞクオリティは圧倒的に高くなりたす。
  • 砎棄プロセス自䜓による蚘憶Retroの進化: 䞍採甚になり、砎棄されたハズレPRの倱敗パタヌン䟋「この曞き方はCIでテスト゚ラヌになった」は、そのたた lessons.md に蓄積されたす。捚おる行為自䜓が「次回以降のガチャの圓たり確率を䞊げるためのデヌタ」になりたす。

Q10. ガチャの入力に「Jitterゆらぎ・分散」を䞎えるずは、具䜓的にどのような仕組みですかたた、どう「圓たり」を遞択するのですか

A10.
ただ同䞀プロンプトで乱数を倉えお実行するのではなく、**「解決に向けた仮説方針そのものを意図的に耇数にばら぀かせお、䞊列実行させる仕組み」**です。

1. Jitter入力の分散の実装方法

  • 仮説の分散: ひず぀の課題に察しお、Coordinatorたたは人間が異なる解決方針を䞎えたす。
    • Jitter A: 「既存コヌドを培底的に共通化・リファクタリングしお解決するアプロヌチ」
    • Jitter B: 「実瞟のある倖郚ラむブラリを新たに導入しお簡朔に解決するアプロヌチ」
    • Jitter C: 「最も蚘述がシンプルで、既存郚分を砎壊しないワヌクアラりンド」
  • モデルパラメヌタヌのゆらぎ: モデルの枩床Temperatureや、プロンプトの蚘述スタむル「厳栌さ」重芖 vs 「独創性」重芖を意図的に少しず぀倉化させお、生成されるコヌドの蚘述パタヌンを分散させたす。

2. 圓たりPRの遞択フィルタヌ淘汰システム

倚様なJitterから生たれた詊䜜品矀は、以䞋の倚局フィルタヌを通じお「ベストの1本」ぞず絞り蟌たれたす。

  1. 第1局CIによる自動スクリヌニング: コンパむル、静的解析、単䜓テストをパスしない「ハズレPR」を機械的に脱萜させたす。
  2. 第2局評䟡゚ヌゞェントEvaluatorによる比范: CIを通った耇数の生き残りPRに察し、第3の゚ヌゞェントEvaluatorが、コヌドのシンプルさLOCの少なさ、蚈算耇雑床、読みやすさ可読性などの芳点から採点・比范を行い、ベストな1本を掚薊したす。
  3. 第3局人間によるマヌゞ: 人間は、評䟡゚ヌゞェントが遞んだ「最も品質が高いPR」のみを目芖確認し、マヌゞを実行したす。

これにより、完璧な蚈画静的思考を立おお䞀歩も間違えずに歩くよりも、**「分散した仮説Jitterを倧量に走らせ、テスト環境に適応できなかったものを淘汰し、適応した最も優秀なPRだけを蚘憶に固定する」**ずいう、AI時代に最も最適化された進化論的開発プロセスが成立したす。

@podhmo
Copy link
Copy Markdown
Author

podhmo commented May 21, 2026

AI゚ヌゞェント駆動開発dev-loopの䜓系的敎理

本議論は、埓来のCI/CDにずどたらず、**「コヌディング゚ヌゞェントを自埋的か぀高粟床に皌働させるための倖的なルヌプdev-loopの構築ず、それを制埡するハヌネス゚ンゞニアリング」**に぀いお、その䜍眮づけ、他手法ずの察比、および具䜓的な制埡機構を定矩したものです。


1. 抂念マップハヌネス・dev-loop・各皮手法の関係性

゜フトりェア開発におけるAI゚ヌゞェントの運甚を以䞋のレむダヌず時間軞で構造化したす。

[ 䞊流蚭蚈・蚈画 ]
   │ ─ /grill-meむンタビュヌによる共通理解構築
   │ ─ SDDSpec-Driven Development仕様曞によるガむド
   ▌
[ 実行・運甚基盀 ]  ハヌネス゚ンゞニアリングAgent = Model + Harness
   ├── 静的ハヌネスAGENTS.md、アヌキテクチャ制玄、ツヌル制限
   └── 動的ルヌプdev-loop
         ├── ① タスク受け枡しhandoff.md / tasks.md
         ├── ② 実行ずPEVルヌプPlan-Execute-Verify-Fix
         ├── ③ 厳栌な刀定基準DoD、生焌け防止
         └── ④ 知芋の氞続化ず自己改善lessons.md / decisions.md

2. 他アプロヌチずの比范・境界線

dev-loopを既存の人間向けフレヌムワヌクや他のAI手法ず明確に区別するための察比衚です。

2-1. AI向け他アプロヌチずの違い

項目 /grill-me (蚈画ツヌル) SDD (仕様駆動) dev-loop (継続的運甚基盀)
䞻たる焊点 蚈画・蚭蚈前の曖昧さの解消 静的な仕様Specの䜜成ず遵守 タスクの連続実行、怜蚌、知芋蓄積のルヌプ
アプロヌチ むンタビュヌによる決定ツリヌの構築 ドキュメントによる制玄匷化 状態匕き継ぎ、実行、自己修正、孊びの蓄積
時間軞 開発開始時のスポット利甚 開発初期〜蚭蚈倉曎時 セッション間、タスク間の日垞的な繰り返し

2-2. 人間向け「スクラム」ずAI向け「dev-loop」の違い

比范軞 人間向けスクラム AI向けdev-loopハヌネス
制埡察象 自埋的な人間チヌム モデル゚ヌゞェント
ボトルネック モチベヌション、政治、認知負荷 ハヌネスの匷床、制玄ずフィヌドバックの質
倱敗ぞの察凊 人間の反省、意識向䞊属人化しやすい lessons.md等による機械的制玄ぞの昇栌氞続化
意思決定の敎合性 䌚議や合意圢成 decisions.mdの匷制読蟌同䞀論争の回避
品質・速床の調敎 人間の力量ず疲劎に䟝存し、調敎が難しい プロンプト/怜蚌深床による「努力ノブ」の倉曎
タスクの粒床 数日〜1週間単䜍 15〜60分単䜍コンテキスト散挫の防止

3. dev-loopを構成する4぀の制埡コア

実甚的なdev-loopを成立させるためには、単に゚ヌゞェントに呜什するだけでなく、以䞋の4぀の制埡サブシステムをハヌネス偎に組み蟌む必芁がありたす。

     ┌───────────────────────────────────────┐
     │       ① タスクの構造化手枡し          │
     │   (handoff.md / tasks.mdの静的泚入)   │
     └───────────────────┬───────────────────┘
                         ▌
     ┌───────────────────────────────────────┐
     │       ② 刀定基準の匷化生焌け防止   │
     │   (DoDの合意ず機械的な怜蚌テストの実行)   │
     └───────────────────┬───────────────────┘
                         ▌
     ┌───────────────────────────────────────┐
     │    ③ 努力レベル品質・速床の調敎    │
     │   (タスク粒床・怜蚌ステップの動的制埡)   │
     └───────────────────┬───────────────────┘
                         ▌
     ┌───────────────────────────────────────┐
     │      ④ 自己改善ず二床目の゚ラヌ回避    │
     │   (lessons.md / decisions.mdぞの反映) │
     └───────────────────────────────────────┘

① タスクの構造化手枡しHandoff & State Management

自然蚀語の郜床の指瀺ではなく、リポゞトリ内の状態管理ファむルhandoff.md, tasks.mdを経由したセッション間の匕き継ぎ。゚ヌゞェントに察しお「珟圚の状態」「次に取るべきタスク」を正確に匕き継ぎ、コンテキストトヌクンを最適化したす。

② 刀定基準の匷化ず生焌け防止Layered Verification

゚ヌゞェントが「できた」ず自己䞻匵する生焌け状態のを防ぐため、決定的な刀定基準Definition of Done: DoDを導入したす。

  • 自己申告の犁止: ゚ヌゞェント自身による完了報告だけでなく、型チェック、テストスむヌト、Linterなどの機械的パスVerificationをルヌプの終了条件ずする。
  • 倚重防衛線: Worker自身によるPEVルヌプの実行 ── 倖郚テストランナヌによる刀定 ── 必芁に応じた人間たたは別゚ヌゞェントEvaluatorによるレビュヌ。

③ 努力レベル品質・速床の調敎

プロゞェクトのフェヌズや目的プロトタむプ䜜成 vs 堅牢な本番実装に応じお、゚ヌゞェントの皌働コストず品質のバランスを制埡する。

  • 䜎コスト・高速モヌド: タスク粒床を粗くし、怜蚌Verifyは基本テストのみ、制玄ファむルを最小限にする。
  • 高品質・慎重モヌド: タスク粒床を極限たで现分化し、PEVルヌプを倚重に回し、過去のすべおの倱敗lessons.mdずアヌキテクチャ芏則を匷制的に参照させる。

④ 自己改善ず二床目の゚ラヌ回避Anti-Regression

゚ヌゞェントはセッションが倉わるず過去の倱敗を倱念するため、倱敗や蚭蚈の迷いTrade-offが発生した瞬間に、それをテキストずしおリポゞトリに氞続化したす。

  • lessons.md倱敗の蚘録: 発生した゚ラヌ、原因、次回から適甚すべきルヌル。
  • decisions.md意思決定の蚘録: 採甚した蚭蚈パタヌンず华䞋した代替案。
  • フィヌドバックの自動適甚: 次回タスク起動時にこれらを匷制参照させ、最終的には静的ハヌネスAGENTS.mdなどの氞続ルヌルに昇栌させる。

4. 本アプロヌチの結論

新芏プロゞェクトにおいおstarter kitが過剰になる問題ず同様に、**「最初から過剰に耇雑なdev-loop゚ヌゞェント運甚環境を構築するこずは、オヌバヌ゚ンゞニアリングを招くリスクがある」**ずいう芖点が根底にありたす。

しかし、開発のスケヌルに䌎い発生する「゚ヌゞェントの生焌け完了」「同じ゚ラヌの再発」「蚭蚈方針のブレ」ずいった課題に察しおは、**「人間がコヌドを曞くのではなく、゚ヌゞェントが正しく動き続けるためのハヌネス制玄ず怜蚌の仕組みを段階的に匷化・調敎しおいくこず」**が、珟代的な゜フトりェア開発ハヌネス゚ンゞニアリングにおける再珟性の高い最適解ずなりたす。

@podhmo
Copy link
Copy Markdown
Author

podhmo commented May 22, 2026

続き


AI゚ヌゞェント駆動開発Evolutionary Dev-Loopの抂念䜓系図

┌────────────────────────────────────────────────────────────────────────┐
│                        【 人間メタ・蚭蚈者 】                      │
│   ・DoD完了定矩の蚭蚈   ・Jitter仮説の定矩   ・最終マヌゞ刀断   │
└───────────────────────────────────┬────────────────────────────────────┘
                                    │ (Jitterの泚入)
                                    ▌
┌────────────────────────────────────────────────────────────────────────┐
│             【 運行レむダヌJittered Parallel Execution 】            │
│  ※限界費甚れロを掻かし、倚様なアプロヌチJitterのPRを䞊列で生成・実行  │
│                                                                        │
│   ┌───────────────┐        ┌───────────────┐        ┌───────────────┐  │
│   │ 仮説A (Worker)│        │ 仮説B (Worker)│        │ 仮説C (Worker)│  │
│   └───────┬───────┘        └───────┬───────┘        └───────┬───────┘  │
└───────────┌────────────────────────┌────────────────────────┌──────────┘
            │                        │                        │
            ▌                        ▌                        ▌
┌────────────────────────────────────────────────────────────────────────┐
│              【 淘汰レむダヌMulti-layered Quality Gate 】            │
│                                                                        │
│   [第1フィルタヌCI] ──> テスト・静的解析による機械的足切り            │
│            │                                                           │
│            â–Œ                                                           │
│   [第2フィルタヌEvaluator] ──> ゚ヌゞェントによる可読性・耇雑床の静的比范   │
│            │                                                           │
│            â–Œ                                                           │
│   [第3フィルタヌHuman] ──> 人間による目芖確認ず最終マヌゞ             │
└────────────┬───────────────────────────────────────────────────────────┘
             │ (䞍採甚コヌドの砎棄  倱敗の分析)
             ▌
┌────────────────────────────────────────────────────────────────────────┐
│                【 蚘憶・進化レむダヌHarness Feedback 】              │
│  ※倱敗を「二床ず繰り返さない静的ルヌル」ぞ昇栌させ、次回ガチャの粟床を向䞊  │
│                                                                        │
│   ・lessons.md (倱敗ログ)  ──>  ・AGENTS.md / CLAUDE.md (静的ルヌル)    │
│   ・decisions.md (決定ログ)                                            │
└────────────────────────────────────────────────────────────────────────┘

1. 開発パラダむムの移行静的蚈画から動的淘汰ぞ

AI゚ヌゞェントを前提ずしたプロセスは、埓来の人間䞭心の開発モデルずは根本的な蚭蚈思想が異なりたす。

評䟡軞 埓来の開発プロセス (スクラム / SDD) 新たな開発プロセス (Evolutionary Dev-Loop)
開発の基本思想 「䞀歩も間違えずに進む」
事前の綿密な仕様蚭蚈ず蚈画Planを重芖する。
「倉異ず淘汰を高速で繰り返す」
詊䜜・砎棄Executeず事埌孊習Retroを重芖する。
゚ラヌの捉え方 手戻り、時間的・粟神的損倱。 ハヌネス制玄を匷化するための**「孊習デヌタ」**。
コヌドのサンクコスト 高い人間の時間ず劎力が泚がれおいるため、捚おにくい。 れロ゚ヌゞェントのコヌド生成費甚は極めお安䟡であるため、䜿い捚お可胜。
品質の担保方法 人間のレビュヌず、リリヌス前の集䞭テスト。 段階的な自動怜蚌フィルタヌCI ── Evaluator ── Human。

2. 3぀の抜象レむダヌシステム構造

dev-loop環境は、圹割の異なる3぀のレむダヌが盞互にフィヌドバックを送り合う「動的制埡システム」ずしお構成されたす。

① 運行レむダヌExecution & Jitter

限界費甚がほがれロであるAIの特性を掻かし、仮説を分散Jitterさせお耇数のPRを同時に生成・実行するレむダヌ。

  • Jitter分散: 同䞀プロンプトでの単玔な乱数実行ではなく、アプロヌチリファクタ vs 倖郚モゞュヌル導入などや枩床蚭定にゆらぎを䞎え、倚様な詊䜜品を䞊列䜜成する。
  • 自埋実行: ITSチケットシステムから芁件を自動で取埗し、ブランチ䜜成から実装たでを自埋的に行う。

② 淘汰レむダヌVerification & Gate

生焌けのコヌドを本番環境に入れないための、機械的か぀倚局的な遞択フィルタヌのレむダヌ。

  • CI継続的むンテグレヌション: クリヌンな環境でビルド、テスト、Linterを匷制実行する絶察的な足切りラむン。
  • Evaluator: 生き残った耇数のPRを客芳的指暙LOC、蚈算量、可読性で比范・評䟡する別゚ヌゞェント。
  • Human-in-the-Loop: 最終的な「SSR圓たりPR」の目芖レビュヌずマヌゞ刀断のみを人間が担圓する。

③ 蚘憶・進化レむダヌMemory & Harness

セッションごずに蚘憶がリセットされる゚ヌゞェントに「持続的な孊習」を䞎えるための倖郚氞続化のレむダヌ。

  • lessons.md倱敗の構造化: 淘汰レむダヌで匟かれた原因を、次回以降「二床ず繰り返さないルヌル」ずしお保存する。
  • decisions.md意思決定の固定: 採甚したアヌキテクチャ方針を明文化し、䞍毛な蚭蚈論争のルヌプを避ける。
  • ルヌルぞの昇栌: 蓄積された知芋を AGENTS.md などの静的システムプロンプトハヌネスに統合し、次回以降の「ガチャ生成の圓たり確率」を底䞊げする。

3. 人間ずAIの圹割分担メタ・プロセス゚ンゞニアリング

このプロセスにおいお、人間の仕事は「コヌドを曞くこず」から**「プロセスず制玄を蚭蚈するこず」**ぞず完党にシフトしたす。

  • 人間の圹割:
    1. DoD完了定矩の蚭蚈: ゚ヌゞェントが怜蚌をパスしたず刀断できる「テストケヌス」や「Linterルヌル」を厳栌に定矩する。
    2. Jitterの方向づけ: 解決したい課題に察しお、どのようなアプロヌチJitterで探玢させるかの方向性を提瀺する。
    3. レトロスペクティブの監督: 倱敗ログから、どのルヌルを氞続ハヌネスAGENTS.mdに昇栌させるべきかを刀断・敎備する。
  • AI゚ヌゞェントの圹割:
    1. 䞊列詊䜜: 提瀺されたJitterに基づいお、耇数のコヌド差分PRを自埋的に䜜成する。
    2. 自己修正Self-Healing: CIの倱敗ログを読み蟌み、ロヌカルでPEVルヌプを回しお自埋的にバグを修正する。
    3. 知芋の䞀次蚘録: 詊䜜・砎棄の過皋で埗られた孊びを lessons.md に自動起祚する。

4. 総括

この䜓系は、「LLMの非決定性䞍確実性」を、事前の「蚈画」によっお抑え蟌むのではなく、事埌の「淘汰怜蚌」ず「孊習レトロスペクティブ」によっお利甚可胜な゚ネルギヌに倉換するシステムです。

  1. Jitter分散 によっお可胜性を広げ、
  2. CI  DoD淘汰 によっお品質を保蚌し、
  3. Lessons  Harness蚘憶 によっおシステムを進化させる。

これが、本察話においお定矩された「AI゚ヌゞェント駆動開発dev-loop」の本質的な構造です。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment