Skip to content

Instantly share code, notes, and snippets.

@diffshare
diffshare / 20250412_deepseek_r1_prompt_test.md
Last active April 12, 2025 01:44
deepseek-r1 モデルが、ツール使用やカスタム指示(武士口調、コミットルールなど)を含む複雑なプロンプトに対して、期待通りに応答するかどうかを検証する

deepseek-r1 プロンプトテストレポート

目的

deepseek-r1 モデルが、ツール使用やカスタム指示(武士口調、コミットルールなど)を含む複雑なプロンプトに対して、期待通りに応答するかどうかを検証する。

テスト概要

  1. モデル: deepseek-r1
  2. 使用ツール: litellm-mcpchat_completion
@diffshare
diffshare / 20250412_llm_knowledge_freshness_check.md
Created April 12, 2025 00:57
LLMモデルの知識鮮度チェック (2025-04-12)

LLMモデルの知識鮮度チェック (2025-04-12)

目的

複数のLLMモデルに対し、事実に基づいた質問を投げかけ、その応答から知識の鮮度を確認する。

使用ツール

  • litellm-mcp サーバー
  • chat_completion ツール

各種LLMに「知識のカットオフはいつですか?」と質問し、回答を表にまとめて分析したでござる。

モデル名 カットオフ時期 回答内容の特徴・備考
openrouter/quasar-alpha 取得不可 404エラー
claude-3.7 2023年4月 明確な年月指定
azure/deepseek-chat-v3-0324 2024年7月 最新、ウェブ検索可と明記
openrouter/x-ai/grok-3-mini-beta 2023年11月 明確な年月指定
openrouter/x-ai/grok-3-beta 2023年10月 明確な年月指定
gpt-4o 2023年10月 明確な年月指定

指定された8つのAIモデル(claude-3.7, o3-mini, deepseek-chat-v3-0324, grok-3-mini-beta, grok-3-beta, gpt-4o, gemini-2.5-pro-preview-03-25, openrouter/optimus-alpha)に「輸出還付金は消費税最大の不公平」という意見について質問し、回答傾向を表にまとめて分析したでござる。

モデル名 結論の傾向 主な論点・特徴
claude-3.7 中立 肯定・批判両論を整理し「一概に正しい・間違いとは言えない」
o3-mini 中立 制度趣旨・批判・擁護を整理し「断定困難」
deepseek-chat-v3-0324 中立 肯定・批判両論を整理し「文脈依存」
grok-3-mini-beta やや擁護 制度趣旨を強調し「最大の不公平とは言えない」

各LLMの回答整理と比較表

質問:トヨタなどの輸出企業が消費税が還付されるのは不公平という声がありますが、これは本当でしょうか?

評価項目 optimus alpha gpt-4o gemini 2.5 pro preview deepseek v3 claude-3.7-sonnet
結論:「不公平」か? 不公平ではない(誤解に基づく) 不公平ではない(制度上の措置) 必ずしも不公平とは言えない 制度的には公平(視点で評価分かれる) 不公平ではない
主な理由 消費税は国内消費への課税 最終消費者が負担、消費地での課税 消費地課税主義、仕入税額控除の原則 国内消費への課税、WTOルール準拠 最終消費者が負担、二重課税防止
仕入税額控除の仕組み 輸出は国内最終消費ではない 国際的なルール 国際競争力維持 国際的な標準的取り扱い
消費税の基本原則の説明
@diffshare
diffshare / llm_model_ranking_202504.md
Created April 11, 2025 12:03
Cline系(Roo Code)で使える個人的LLMモデル総合ランキング(2025年4月時点)

Cline系(Roo Code)で使える個人的LLMモデル総合ランキング(2025年4月時点)

個人の主観

順位 モデル名 指示追従性 使い勝手・特徴 コスト 備考
1 claude-3.7-sonnet 非常に高い エージェント追従性は最高、デザイン系タスクに強い、文章力も高い Input $3 / Output $15 3.5より明確に優秀
2 claude-3.5-sonnet 非常に高い 失敗が少なく安心、エージェント用途で最強 Input $3 / Output $15(今だけcopilotで定額利用可能) 3.7との差は体感できず
3 gemini 2.5 pro 高い 地味に優秀、安定感抜群 Input $1.25 / Output $10(学習許可で無料) 指示失敗がほぼ見られない
4 Optimus Alpha(Quasar Alpha) 高い 無料枠最強、知識カットオフ新しい、文章力も高い 学習許可で無料 claudeほど従順ではない
@diffshare
diffshare / FAQ_on_Japan_Consumption_Tax_Refund_System.md
Created April 11, 2025 03:35
トヨタ自動車の輸出を例に考える:消費税還付制度の疑問とその回答

トヨタ自動車の輸出を例に考える:消費税還付制度の疑問とその回答

Optimus Alphaの作例

1. 背景となる疑問

消費税の実務を行う中で、次のような疑問や不満の声をよく耳にします。

  • 「自社で輸出を行えば消費税還付を受けられるのに、中間業者の場合は、最終的に商品が海外で消費されても還付を受けられないのは不公平ではないか?」
  • 「昔の物品税は還付制度がなかったのに、なぜ今は消費税還付があるのか?」
@diffshare
diffshare / 20250409_llm_friendly_architecture.md
Created April 10, 2025 09:50
LLM時代のコーディング構成を考える

LLM時代のコーディング構成を考える 〜コンテキスト制限とアーキテクチャの最適化〜

概要

近年、LLM(大規模言語モデル)を活用したコーディング支援が急速に普及している。
しかし、LLMにはいくつかの技術的な制約が存在し、それに伴い様々な課題が生じている。
本稿では、まずLLM活用時に直面しやすい課題を整理し、
その背景にある技術的制約を解説した上で、
どのようにプロジェクト構成や設計を工夫すれば、LLMにも人間にも優しい開発環境を作れるかを考察する。

LLM活用時に生じる課題

@diffshare
diffshare / Covid19Radar_Sequence.md
Last active September 4, 2020 11:19
Covid19Radarのシーケンス図

Covid19Radarのシーケンス図

ソースコードから書き起こしたシーケンス図です。間違っている可能性があります。

シーケンス図

@diffshare
diffshare / replace-from-cybozu-to-redmine.rb
Last active May 19, 2018 14:18
replace-from-cybozu-to-redmine.rb
# $ rails r ./replace-from-cybozu-to-redmine.rb
#
# RailsのGemfileで以下が必要
# require "rest-client"
# require "oauth"
consumer_key = "" # cybozuliveの開発者登録
consumer_secret = ""
consumer = OAuth::Consumer.new(