deepseek-r1
モデルが、ツール使用やカスタム指示(武士口調、コミットルールなど)を含む複雑なプロンプトに対して、期待通りに応答するかどうかを検証する。
- モデル:
deepseek-r1
- 使用ツール:
litellm-mcp
のchat_completion
各種LLMに「知識のカットオフはいつですか?」と質問し、回答を表にまとめて分析したでござる。
モデル名 | カットオフ時期 | 回答内容の特徴・備考 |
---|---|---|
openrouter/quasar-alpha | 取得不可 | 404エラー |
claude-3.7 | 2023年4月 | 明確な年月指定 |
azure/deepseek-chat-v3-0324 | 2024年7月 | 最新、ウェブ検索可と明記 |
openrouter/x-ai/grok-3-mini-beta | 2023年11月 | 明確な年月指定 |
openrouter/x-ai/grok-3-beta | 2023年10月 | 明確な年月指定 |
gpt-4o | 2023年10月 | 明確な年月指定 |
指定された8つのAIモデル(claude-3.7, o3-mini, deepseek-chat-v3-0324, grok-3-mini-beta, grok-3-beta, gpt-4o, gemini-2.5-pro-preview-03-25, openrouter/optimus-alpha)に「輸出還付金は消費税最大の不公平」という意見について質問し、回答傾向を表にまとめて分析したでござる。
モデル名 | 結論の傾向 | 主な論点・特徴 |
---|---|---|
claude-3.7 | 中立 | 肯定・批判両論を整理し「一概に正しい・間違いとは言えない」 |
o3-mini | 中立 | 制度趣旨・批判・擁護を整理し「断定困難」 |
deepseek-chat-v3-0324 | 中立 | 肯定・批判両論を整理し「文脈依存」 |
grok-3-mini-beta | やや擁護 | 制度趣旨を強調し「最大の不公平とは言えない」 |
質問:トヨタなどの輸出企業が消費税が還付されるのは不公平という声がありますが、これは本当でしょうか?
評価項目 | optimus alpha | gpt-4o | gemini 2.5 pro preview | deepseek v3 | claude-3.7-sonnet |
---|---|---|---|---|---|
結論:「不公平」か? | 不公平ではない(誤解に基づく) | 不公平ではない(制度上の措置) | 必ずしも不公平とは言えない | 制度的には公平(視点で評価分かれる) | 不公平ではない |
主な理由 | 消費税は国内消費への課税 | 最終消費者が負担、消費地での課税 | 消費地課税主義、仕入税額控除の原則 | 国内消費への課税、WTOルール準拠 | 最終消費者が負担、二重課税防止 |
仕入税額控除の仕組み | 輸出は国内最終消費ではない | 国際的なルール | 国際競争力維持 | 国際的な標準的取り扱い | |
消費税の基本原則の説明 |
個人の主観
順位 | モデル名 | 指示追従性 | 使い勝手・特徴 | コスト | 備考 |
---|---|---|---|---|---|
1 | claude-3.7-sonnet | 非常に高い | エージェント追従性は最高、デザイン系タスクに強い、文章力も高い | Input $3 / Output $15 | 3.5より明確に優秀 |
2 | claude-3.5-sonnet | 非常に高い | 失敗が少なく安心、エージェント用途で最強 | Input $3 / Output $15(今だけcopilotで定額利用可能) | 3.7との差は体感できず |
3 | gemini 2.5 pro | 高い | 地味に優秀、安定感抜群 | Input $1.25 / Output $10(学習許可で無料) | 指示失敗がほぼ見られない |
4 | Optimus Alpha(Quasar Alpha) | 高い | 無料枠最強、知識カットオフ新しい、文章力も高い | 学習許可で無料 | claudeほど従順ではない |
ソースコードから書き起こしたシーケンス図です。間違っている可能性があります。
# $ rails r ./replace-from-cybozu-to-redmine.rb | |
# | |
# RailsのGemfileで以下が必要 | |
# require "rest-client" | |
# require "oauth" | |
consumer_key = "" # cybozuliveの開発者登録 | |
consumer_secret = "" | |
consumer = OAuth::Consumer.new( |