AI評価・LLMベンチマークプラットフォーム比較2026｜Braintrust・Patronus AI・Galileo・Arize Phoenix・DeepEvalで本番品質を担保する

Braintrust・Patronus AI・Galileo・Arize Phoenix・DeepEvalを徹底比較。LLM評価・RAG精度測定・回帰テスト・ハルシネーション検出・プロンプト実験・料金・SOC2対応をAIエンジニア・QAリード・プロダクトマネージャー視点で解説します。

2026年、LLMアプリは「評価なき本番投入」が事業リスクになった

2026年のLLM／生成AIプロダクトは、1リリースあたり平均500〜5,000件のテストケースを回さないと品質が保証できない時代になりました。RAG・Agent・Function Calling・Multi-modal——複雑度が増すほど「プロンプト変更で他ユースケースが壊れる回帰問題」「ハルシネーションの検出漏れ」「モデル切り替え（GPT-4→GPT-5、Claude 3.5→Claude 4.5）でのリグレッション」が頻発します。OpenAI 2025年顧客調査では、LLM本番投入企業の68%が「評価基盤がなく、品質劣化を本番後に発見した経験あり」と回答。Gartner 2026年予測では「2027年までにLLMアプリ運用組織の80%がEval-Drivenな開発文化に移行」と指摘されました。Slackで「うちのGPTどう？」と聞き、エンジニアが手元で5件試して「いい感じ」と返す——こうしたアドホックな品質判断は、ユーザー10万人を超えた瞬間に必ず破綻します。

本記事では、2026年現在もっとも実用的なAI評価・LLMベンチマークプラットフォーム5本——Braintrust・Patronus AI・Galileo・Arize Phoenix・DeepEval（Confident AI）——を、評価機能・RAG精度測定・回帰テスト・ハルシネーション検出・プロンプト実験・データセット管理・SDK完成度・セルフホスト対応・料金・コンプライアンス（SOC2／HIPAA）の10軸で比較します。「LLMアプリの品質を CI/CD パイプラインに組み込みたい」「RAG精度を Faithfulness／Relevance／Context Precision で定量測定したい」「Claude／GPT／Gemini／Llama の比較ベンチマークをチーム横断で運用したい」「監査要件に耐える評価ログを保管したい」というAIエンジニア・QAリード・プロダクトマネージャー・MLOpsリードの疑問に答えます。

主要LLM評価プラットフォーム比較

Braintrust｜Eval-First設計の最速プロトタイピング基盤

Braintrust（ブレイントラスト）は2023年米サンフランシスコ創業で、2024年シリーズAで3,600万ドルをa16z主導で調達し評価額1.5億ドルに到達した急成長スタートアップ。Notion・Airtable・Zapier・Stripe・Vercel・Replit が本番採用、「Eval-First設計でLLMプロンプト実験のサイクルを30秒に短縮」を旗印に開発者体験で他社を圧倒。最大の差別化は「Playground＋Eval＋Logging統合」——プロンプト変更→Diff比較→Eval実行→本番ログ確認が単一UIで完結。「Braintrust Eval」（評価ランナー）、「Braintrust Playground」（プロンプト実験UI）、「Braintrust Logging」（本番トレース）、「Braintrust Datasets」（テストケース管理）の4製品を統合提供。OpenAI・Anthropic・Mistral・Cohere・Vertex AI・Bedrock の全主要LLM API対応、TypeScript／Python SDK完備。料金はFree（個人・1,000Eval/月）／Team $99/月（5シート）／Enterprise（年額$25,000〜）。SOC2 Type II・HIPAA・GDPR対応、専用VPC展開可。

強み：Playground＋Eval＋Logging統合UIで開発者体験が業界最高水準（Notion／Stripe級スタートアップが選ぶ理由）、プロンプト変更→Diff比較→Eval実行が30秒サイクルで反復可能、TypeScript SDKがNode.js／Next.jsプロジェクトに3行で組み込み完了、Pythonおよび TypeScript両SDK完備、OpenAI／Anthropic／Vertex AI／Bedrock全主要LLM API対応、Eval Logger でCI/CD統合（GitHub Actions／CircleCI）3行実装、本番Loggingから自動 Dataset 作成（Production Issue→Test Case化）、Custom Scorer で LLM-as-Judge を簡単に実装、Brainstore（ベクトルDB）統合でRAG評価がシームレス、a16z／Notion／Stripe投資の信頼性、SOC2＋HIPAA取得、Enterprise VPC専用デプロイで医療・金融対応、UI／DX が他社比で群を抜く反復速度、年$25,000〜のEnterprise料金がGalileo比で半額。

弱み：オープンソース版／OSSコミュニティ版がなく完全SaaS依存、Self-Hosted（オンプレ）はEnterprise契約必須で年$50,000〜、創業3年のスタートアップで長期持続性リスクあり（M&Aや戦略転換の不確実性）、エンタープライズ営業力がGalileo／Arize比で弱く大手金融・医療採用は限定的、コミュニティ規模（GitHub Discussions／Slack）がDeepEval／Phoenix比で小さい、日本語ドキュメント・サポートが英語中心で限定的、Patronus AIのような自動 Hallucination Detection 専用モデル（Lynx）は提供せず LLM-as-Judge前提、複雑な ML 実験管理（W&B級のRun比較）は対象外で MLOps 統合は限定的、エンタープライズ向け SAML SSO は Enterprise 契約必須、Prompt Versioning が機能あるが Patronus／Humanloop比で軽量。

向いている用途：Notion／Stripe／Vercel／Replit級のスタートアップでLLM プロダクト品質を高速反復、TypeScript／Next.js中心のフルスタック開発組織、開発者体験を最優先する小〜中規模チーム（5〜50人）、プロンプト変更サイクルを30秒に短縮したい組織、Production Loggingから自動Test Case化で評価データセットを継続成長、CI/CD（GitHub Actions）にEval統合、年$25,000〜$50,000の予算でEnterprise VPC運用、SOC2＋HIPAA要件下のヘルステック・FinTech、a16z系スタートアップエコシステム連携、シリーズA〜Cの急成長フェーズで「品質×速度」両立必須の組織。

Patronus AI｜自動ハルシネーション検出の専用モデル「Lynx」が他社追随不可

Patronus AI（パトロナス）は2023年米サンフランシスコ創業（共同創業者は元Meta AI／Facebook AI Research）で、2024年シリーズAで1,700万ドルをLightspeed主導で調達。MongoDB・Etsy・Cisco・Notion・HP・Northwestern Mutual が採用、「ハルシネーション検出専用LLM『Lynx』を独自開発」で他社追随不可の差別化を確立。最大の特徴は「自動評価モデル群」——Lynx（ハルシネーション）、FinanceBench（金融特化）、SimpleSafetyTests（安全性）、PII Detection（個人情報漏洩）、Toxicity Detection を含む20種類以上の事前学習評価モデルを提供。「Patronus Evaluators API」で RAG Faithfulness／Context Relevance／Answer Relevance を高精度測定、「CopyrightCatcher」で生成テキストの著作権侵害検出。OpenAI・Anthropic・Mistral・Cohere対応、Python SDK中心。料金はFree（10,000 API call/月）／Team $1,000/月／Enterprise（年額$50,000〜）。SOC2 Type II・HIPAA・GDPR対応、Self-Hosted（オンプレ）展開可、米政府FedRAMP対応進行中。

強み：Lynx（独自Hallucination検出モデル）の精度がGPT-4 Judge を上回りベンチマーク論文で実証、20種類以上の事前学習評価モデル（FinanceBench／SimpleSafetyTests／PII／Toxicity／CopyrightCatcher）標準提供、金融特化FinanceBenchが金融機関採用の決定打、PII検出で GDPR／HIPAA 個人情報漏洩監査自動化、CopyrightCatcherで著作権侵害リスク検出（生成AI裁判リスク低減）、RAG Faithfulness／Context Relevance／Answer Relevance を高精度測定、Python SDK完備でCI/CD統合容易、Anthropic／OpenAI／Mistral／Cohere全主要LLM対応、Self-Hosted（オンプレ）対応で防衛・公共セクター可、SOC2＋HIPAA取得、Lightspeed投資＋元Meta AI創業者の技術ブランド、MongoDB／Cisco／HP級エンタープライズ採用実績、米FedRAMP対応進行で連邦政府案件対応。

弱み：UI／開発者体験がBraintrust比でやや硬く Playground 反復速度では劣る、TypeScript SDK が限定的（Python中心）でフロントエンド開発者には敷居あり、料金が高く Team $1,000/月がBraintrust Team $99/月の10倍、評価モデルが「事前学習済み」中心でカスタムドメイン特化評価は別途LLM-as-Judge併用必要、創業3年でPatronus Evaluators API 以外の MLOps 統合（Run管理／Dataset Versioning）は限定的、コミュニティ規模がDeepEval／Phoenix OSS比で小さい、Self-Hosted は Enterprise 契約必須でセットアップにDevOps工数大、Logging／本番トレース機能はBraintrust／Galileo比で発展途上、Lynxは英語中心で日本語精度はGPT-4 Judge と同等程度、Real-time Production Monitoring（Drift検出）はGalileo比で機能浅い、エンタープライズ向けカスタムフィードバックループは別途実装必要。

向いている用途：金融機関（FinanceBenchで規制対応）・ヘルスケア（PII＋HIPAA）・法務（CopyrightCatcher）の高規制ドメイン、Hallucination Detection が事業最重要KPIのRAGプロダクト、自動評価モデル（Lynx／PII／Toxicity）でLLM-as-Judge コスト削減したい組織、生成AI著作権リスク監査が必須の出版・メディア・教育、Self-Hosted（オンプレ）でデータ主権完璧維持、米連邦政府FedRAMP対応案件、Python中心のMLエンジニアリング組織、Cisco／MongoDB／HP級のエンタープライズで信頼ブランドが採用判断、$50,000〜の年予算でEnterprise自動評価モデル全活用、Anthropic／Mistral中心のClaudeネイティブ開発組織。

Galileo｜エンタープライズLLM Observability＋Evaluation統合の老舗

Galileo（ガリレオ、Rungalileo）は2021年米サンフランシスコ創業（旧rungalileo.io）で、2024年シリーズBで4,500万ドルをBatteryVentures主導で調達し評価額3億ドル超に到達。HP・Twilio・Comcast・Reddit・Procore・Chegg が採用、「LLM Observability＋Evaluation＋Production Monitoring統合の業界最古参」のポジション。最大の差別化は「Galileo Luna」——独自RAG評価モデルがGPT-4 Judge より高速かつ高精度を主張、独自学習Hallucination／Context Adherence／Chunk Attribution の自動評価。「Galileo Evaluate」（評価ランナー）、「Galileo Observe」（本番監視）、「Galileo Protect」（リアルタイムガードレール）、「Galileo Datasets」（データセット管理）、「Galileo LLM Studio」（プロンプト実験UI）の5製品を統合提供。OpenAI・Anthropic・Vertex AI・Bedrock・SageMaker・Azure OpenAI 全方位対応、Python＋TypeScript SDK完備。料金はFree（個人・限定機能）／Team（要問い合わせ、年$30,000〜）／Enterprise（年額$60,000〜）／Galileo Protect（リアルタイムガードレール、年$50,000〜）。SOC2 Type II・ISO 27001・HIPAA・GDPR対応、Self-Hosted（VPC／オンプレ）標準対応。

強み：Galileo Luna（独自RAG評価モデル）でGPT-4 Judgeより5倍高速＋同等以上精度を実現（API Cost大幅削減）、Evaluate＋Observe＋Protect＋Datasets＋LLM Studio の5製品統合スイート、Galileo Protectでリアルタイムガードレール（PII遮断／Toxicity 拒否）を本番実装、Real-time Production Monitoring が業界最高水準（Drift検出／Anomaly Detection／Cost監視）、Chunk Attributionで「どのチャンクが回答に貢献したか」可視化（RAG Debug の決定打）、エンタープライズ向け SAML SSO／RBAC／監査ログ完備、Self-Hosted（VPC／オンプレ）対応で金融・医療データ主権、SOC2＋ISO 27001＋HIPAA＋GDPR の最広範コンプライアンス、HP／Comcast／Reddit級の大規模採用実績、Battery Ventures投資＋3億ドル評価の財務安定性、Python＋TypeScript SDK双方完備、LangChain／LlamaIndex／Haystack ネイティブ統合、Datasets機能でVersioning＋Splits管理が標準的。

弱み：UI／開発者体験がBraintrust比で重く Playground 反復速度で劣る、料金がエンタープライズ寄りで年$30,000〜のためスタートアップには高すぎる、5製品スイートが多機能で初学者には学習曲線急（Setup〜運用定着まで2〜3カ月）、Galileo Luna はクローズドモデルで独自学習・カスタマイズ不可、TypeScript SDK は Python SDK 比でやや遅れて機能追加、コミュニティ規模（Slack／GitHub）がDeepEval／Phoenix OSS比で小さい、OSS版なし＝完全SaaS依存（Self-HostedもEnterprise契約必須）、Free Tier機能制限が厳しく評価開始の摩擦、ドキュメントが英語中心で日本語情報限定、Patronus Lynx／DeepEval比でハルシネーション検出専用モデルの精度評価論文が少ない、リアルタイムガードレール（Protect）の遅延が用途によっては許容できない（数十〜100ms）、エンタープライズ営業中心で個人開発者の取りつきが悪い。

向いている用途：HP／Comcast／Reddit級の大規模エンタープライズLLM運用、Real-time Production Monitoring＋Drift検出＋Anomaly Detection が事業要件、Galileo Protect で本番ガードレール（PII／Toxicity／Jailbreak拒否）を実装、Chunk Attribution で RAG Debug を徹底するナレッジマネジメントSaaS、SOC2＋ISO 27001＋HIPAA＋GDPR の最広範コンプライアンス必須、Self-Hosted（VPC／オンプレ）で金融・医療データ主権、年予算$30,000〜$100,000でフル機能Evaluate＋Observe運用、SAML SSO／RBAC／監査ログ要件のエンタープライズ、LangChain／LlamaIndex／Haystack 中心のRAG開発、複数モデル（OpenAI／Anthropic／Vertex／Bedrock）横断ベンチマーク、シリーズC以降の組織でMLOps成熟度が高いチーム。

Arize Phoenix｜OSSで急成長中のLLM Observability＋Evaluationコミュニティ標準

Arize Phoenix（アライズ・フェニックス）はArize AI社（2020年創業、シリーズC $70Mを2024年調達、評価額10億ドル超）が2023年にローンチした Apache 2.0 OSSで、2026年Q1時点でGitHub Stars 4,500超・PyPI月間ダウンロード40万超と急成長。Uber・Adobe・Etsy・Walmart・Visa・Twilio採用、「OSSコミュニティ標準のLLM Observability＋Evaluation」として開発者支持。最大の特徴は「OpenTelemetry標準準拠のトレース＋OSS無料」——LangChain／LlamaIndex／Haystack／OpenAI SDK／Anthropic SDK／DSPy のトレースを 1行コードで自動収集。「Phoenix Evals」でRAG Relevance／Hallucination／QA Correctness／Toxicity の評価ランナー、「Phoenix Datasets」でテストケース管理、「Phoenix Experiments」でA/B評価。商用版「Arize AX」（旧Arize Pro）でEnterprise機能（SSO／RBAC／HIPAA／専任サポート）提供。料金はPhoenix OSS（無料）／Arize AX Team $200/月/シート／Arize AX Enterprise（年額$50,000〜）。SOC2 Type II・HIPAA・GDPR対応、Self-Hosted（Docker／Kubernetes）標準。

強み：Apache 2.0 OSSで永続無料・全機能利用可能、GitHub Stars 4,500＋PyPI月間40万DLの急成長コミュニティ、OpenTelemetry標準準拠で他のObservabilityツール（Datadog／New Relic／Grafana）と連携自然、LangChain／LlamaIndex／Haystack／DSPy／OpenAI／Anthropic／Vertex AI／Bedrock 全主要LLM SDK 1行統合、Phoenix Evals で RAG Relevance／Hallucination／QA Correctness／Toxicity 標準評価、Phoenix Datasets で Versioning ＋ Splits 管理、Phoenix Experiments で A/B評価＋プロンプト比較、Self-Hosted（Docker Compose／Helm Chart）で完全データ主権、Arize AX 商用版で SOC2＋HIPAA エンタープライズ機能、Arize AI 本体は Uber／Adobe／Walmart／Visa の大規模ML運用実績、コミュニティで日々機能追加（GitHub PR 週数十件）、無料で本格運用可能なため学習・PoC のハードル最低、Datadog／New Relic との統合事例豊富。

弱み：Galileo／Braintrust 比でUIモダン感・反復速度で劣る、Phoenix OSS のみではエンタープライズSSO／RBAC／HIPAA非対応（Arize AX契約必須）、Phoenix Evals は LLM-as-Judge 中心で Patronus Lynx 級の専用学習モデルなし、Self-Hosted運用は専任DevOps必要（PostgreSQL／Object Storage／Kubernetes管理）、Arize AX の料金が Team $200/月/シートで5シートだと年$12,000＋とBraintrust比で割高、ドキュメントが英語中心で日本語情報限定的、Real-time Production Monitoring（Drift／Anomaly）は Arize AX で機能限定（旧Arize Pro時代の機能）、リアルタイムガードレール（Galileo Protect 級）は提供せず、コミュニティのため公式SLAサポートはArize AX契約必須、Phoenix UI が機能拡張で複雑化中、PyTorch Lightning 級のML実験管理（Run管理／Sweeps）は対象外、商用Arize AXとPhoenix OSS の機能差が継続拡大中で「OSSは入門用」と位置付けられる傾向。

向いている用途：OSS無料でLLM Observability＋Evaluation を立ち上げたいスタートアップ・研究室、OpenTelemetry標準でDatadog／New Relic／Grafana エコシステム統合、LangChain／LlamaIndex／DSPy 中心の開発で1行統合のシンプル運用、Self-Hosted（Docker／Kubernetes）でデータ主権完璧維持、PoC〜MVP段階でEvaluate＋Observe を無料で習得、コミュニティ事例豊富な開発者向け学習素材、Uber／Adobe／Walmart 級の大規模ML組織でArize AX 商用版へ段階移行、Phoenix Experiments でプロンプトA/B評価をチームで運用、A/Bテスト＋RAG Debug をOSSで内製、エンタープライズ機能（SSO／HIPAA）が必要になった段階で Arize AX 移行、Datadog APM と既存連携の組織。

DeepEval（Confident AI）｜pytest互換のOSS開発者ファースト

DeepEval（ディープイーバル）はConfident AI社（2023年創業、Y Combinator W24卒）が公開したApache 2.0 OSSのpytest互換LLM評価フレームワークで、2026年Q1時点でGitHub Stars 5,500超・PyPI月間ダウンロード50万超とPhoenixと並ぶOSS急成長。Microsoft・Bain・Crunchbase・Tencent採用、「pytest互換でCI/CD統合最速のLLM評価フレームワーク」として開発者支持。最大の差別化は「pytest互換シンタックスとG-Eval」——`assert_test()` でLLM評価が pytest 単体テストと完全統合、G-Eval（任意の評価基準を自然言語定義可能なLLM-as-Judge）が他社追随不可。14種類の組み込み評価メトリクス（Faithfulness／Answer Relevancy／Contextual Precision／Contextual Recall／Hallucination／Toxicity／Bias／Summarization／RagasEval互換）、「DeepEval Synthesizer」でテストケース自動生成。商用版「Confident AI」（旧DeepEval Cloud）でDataset Versioning／Production Logging／Real-time Monitoring。料金はDeepEval OSS（無料）／Confident AI Free（限定）／Pro $59/月／Team $399/月／Enterprise（年額$15,000〜）。SOC2 Type II対応、HIPAA／GDPR対応進行中、Self-Hosted（Docker）対応。

強み：Apache 2.0 OSSで永続無料・GitHub Stars 5,500の業界最大OSS LLM評価フレームワーク、pytest互換シンタックス（`assert_test()`）で既存テスト基盤に3行で統合、G-Eval で任意の評価基準を自然言語定義可能（カスタム評価の柔軟性が他社追随不可）、14種類の組み込み評価メトリクス（Faithfulness／Hallucination／Toxicity／Bias／Summarization／RagasEval互換）、DeepEval Synthesizer でテストケースを LLM 自動生成、CI/CD（GitHub Actions／CircleCI／GitLab）統合が3行で完了、Y Combinator W24 卒スタートアップで急成長、Microsoft／Bain／Tencent 級の採用実績、商用Confident AI Pro $59/月がBraintrust Team $99/月より安い、Confident AI Enterprise 年$15,000〜がBraintrust／Galileo比で半額以下、Python開発者の学習コストゼロ（pytest知識のみで使える）、Ragas（RAG評価OSS）と互換性あり既存資産活用可、ドキュメントが豊富で日本語情報も増加中。

弱み：UI／Playgroundが Braintrust／Galileo 比で機能浅く（Confident AI で改善中だが発展途上）、TypeScript SDK が限定的でフロントエンド開発者は Python ラッパー必要、Confident AI 商用版の Production Monitoring（Drift／Anomaly）はGalileo比で機能浅い、Real-time ガードレール（Galileo Protect 級）は未提供、OpenTelemetry標準準拠は Phoenix 比でやや弱い、Hallucination 検出専用モデル（Patronus Lynx 級）はなく LLM-as-Judge 前提で API Cost増加、Confident AI のSelf-Hosted は Enterprise 契約必須、SOC2 Type II 取得済みだがHIPAA／GDPR は対応進行中で医療・欧州案件はやや弱い、エンタープライズ向け SAML SSO／RBAC は Enterprise 契約必須、コミュニティの議論場が GitHub Issues 中心で Slack 規模小さい、創業3年のスタートアップで長期持続性リスクあり、Bayesian Optimization 等の高度なハイパーパラメータ探索は対象外（W&B Sweeps と併用必要）。

向いている用途：pytest中心のPython開発組織でLLM評価をCI/CD統合、Microsoft／Bain／Tencent級の組織でOSS無料運用＋商用Confident AI 段階移行、G-Eval でドメイン特化評価（医療・法務・金融の独自基準）をプロンプトで定義、Ragas 互換で既存RAG評価資産活用、DeepEval Synthesizer でテストケース自動生成して評価カバレッジ拡大、Y Combinator系スタートアップエコシステム、年予算$0〜$15,000でOSS＋Confident AI Pro 運用、CI/CD（GitHub Actions）統合が3行で完了する開発者ファースト組織、Python中心のMLエンジニアリングチーム、PoC段階でDeepEval OSS立ち上げ→本番でConfident AI 移行、Bain／McKinsey級のコンサルティングで顧客LLMプロダクト評価、教育機関の研究プロジェクト。

機能・スケーラビリティ・料金・コンプライアンス比較

UI／開発者体験（DX）：BraintrustがPlayground＋Eval＋Logging統合UIで業界最高水準（Notion／Stripe級スタートアップが選ぶ理由）、Galileo が5製品スイートで多機能だが学習曲線急、Patronus AI が機能性重視でPython中心、Phoenix がOSSコミュニティ標準のクリーンUI、DeepEval が pytest互換シンタックスで開発者ゼロ学習コスト。「30秒サイクルでプロンプト反復したいならBraintrust、エンタープライズ統合運用ならGalileo、pytest CI/CD統合ならDeepEval、OSS無料学習ならPhoenix、Hallucination専用検出ならPatronus」が選択基準です。

RAG評価精度：Patronus Lynx（独自Hallucination検出モデル）が論文ベースでGPT-4 Judge を上回り業界最高、Galileo Luna（独自RAG評価モデル）がGPT-4 Judge 5倍高速＋同等精度、DeepEval G-Eval が任意基準を自然言語定義可能で柔軟性最強、Phoenix Evals がOSS無料でLLM-as-Judge標準実装、Braintrust Eval がCustom Scorer＋LLM-as-Judge シンプル実装。「Hallucination検出専用モデルでAPI Cost削減ならPatronus／Galileo、自然言語で評価基準カスタマイズならDeepEval G-Eval、OSS無料ならPhoenix、CI/CD最速統合ならBraintrust／DeepEval」が住み分けです。

Production Monitoring：GalileoがObserve＋Protect＋Drift検出＋Anomaly Detection＋リアルタイムガードレールで業界最高水準、ArizeAX（Phoenix商用版）が Drift／Anomaly Detection 標準、Braintrust LoggingがProduction TraceからDataset 自動生成、DeepEval Confident AI が Production Logging 機能拡充中、PatronusがReal-time Monitoring発展途上。「リアルタイムガードレール＋Drift検出最重要ならGalileo、Datadog／New Relic統合運用ならPhoenix／Arize AX、Production→Dataset自動化ならBraintrust」が選択基準。

料金（年額目安／チーム10人想定）：DeepEval OSS $0／Phoenix OSS $0／Confident AI Pro $7,080（$59×12×10）／Braintrust Team $11,880（$99×12×10）／Confident AI Enterprise $15,000〜／Arize AX Team $24,000（$200×12×10）／Braintrust Enterprise $25,000〜／Galileo Team $30,000〜／Patronus Team $120,000（$1,000×12×10）／Arize AX Enterprise $50,000〜／Galileo Enterprise $60,000〜／Patronus Enterprise $50,000〜。「予算ゼロならDeepEval／Phoenix OSS、〜$15,000ならConfident AI Enterprise、〜$30,000ならBraintrust Enterprise／Galileo Team、$50,000＋ならGalileo／Patronus Enterprise」が予算別選択。

セルフホスト／データ主権：DeepEval／PhoenixがOSS無料でDocker／Kubernetes展開可能で完全データ主権、Patronus Self-Hosted（Enterprise契約）対応、Galileo Self-Hosted（VPC／オンプレ）対応、Braintrust Enterprise VPC専用デプロイ対応、Arize AX Self-Hosted対応。「無料でデータ主権ならDeepEval／Phoenix、商用Self-HostedならGalileo／Patronus／Braintrust、米FedRAMP対応ならPatronus」が選択基準です。

コンプライアンス：GalileoがSOC2 Type II＋ISO 27001＋HIPAA＋GDPRで最広範、PatronusがSOC2＋HIPAA＋GDPR＋FedRAMP対応進行で米政府対応最強、BraintrustがSOC2＋HIPAA＋GDPR、Arize AX がSOC2＋HIPAA＋GDPR、DeepEval Confident AI が SOC2 Type II 取得済（HIPAA／GDPR進行中）。「医療HIPAAならGalileo／Patronus／Braintrust／Arize AX、欧州GDPRならGalileo／Patronus／Braintrust／Arize AX、米FedRAMP連邦政府ならPatronus、SOC2のみで十分ならDeepEval Confident AI」が選択基準です。

用途別おすすめプラットフォーム

Notion／Stripe／Vercel級スタートアップ・開発者体験最優先・TypeScript中心：Braintrust。Playground＋Eval＋Logging統合UI、TypeScript SDK完備、30秒サイクルでプロンプト反復、Production→Dataset自動化、a16z／Notion／Stripe投資の信頼性。年$25,000〜のEnterprise VPC でSOC2＋HIPAA要件下のヘルステック・FinTechに最適です。

金融・医療・法務の高規制ドメイン・Hallucination検出最重要：Patronus AI。Lynx（独自Hallucination検出モデル）の精度がGPT-4 Judge を上回り、FinanceBench／PII／Toxicity／CopyrightCatcher の20種類事前学習評価モデル、SOC2＋HIPAA＋GDPR＋FedRAMP対応進行で米連邦政府対応最強。$50,000〜の年予算で生成AI著作権リスク監査・規制対応を完璧に確立できます。

HP／Comcast／Reddit級エンタープライズ・5製品統合運用・リアルタイムガードレール：Galileo。Evaluate＋Observe＋Protect＋Datasets＋LLM Studio の5製品統合、Galileo Luna（独自RAG評価）でGPT-4 Judge 5倍高速、Real-time Production Monitoring 業界最高、SOC2＋ISO 27001＋HIPAA＋GDPRの最広範コンプライアンス、Self-Hosted VPC／オンプレ対応で大規模エンタープライズに最適です。

OSS無料・OpenTelemetry標準・LangChain／LlamaIndex 1行統合：Arize Phoenix。Apache 2.0 OSS、GitHub Stars 4,500の急成長コミュニティ、Datadog／New Relic／Grafana 統合自然、Phoenix Evals／Datasets／Experiments 標準提供、Self-Hosted（Docker／Kubernetes）でデータ主権完璧。学習・PoC〜本番運用までOSS無料で完結、Arize AX への段階移行も可能です。

pytest互換・CI/CD最速統合・G-Eval柔軟カスタマイズ：DeepEval（Confident AI）。Apache 2.0 OSSでGitHub Stars 5,500、`assert_test()` でpytest単体テスト統合3行、G-Eval で任意基準自然言語定義、14種類組み込みメトリクス、Y Combinator W24 卒のスタートアップ。年$0〜$15,000の予算で OSS＋Confident AI Pro／Enterprise を運用、Microsoft／Bain／Tencent 級の組織で実証済みの開発者ファースト基盤です。

導入時の落とし穴と回避策

1. 「評価ツール導入したがテストケースが30件しかなく評価カバレッジ不足」問題：ツール導入したがテストケース数が少なく、本番で発生するエッジケースを検出できないケース。「DeepEval Synthesizer／Braintrust Datasets で LLM自動生成 + 人手レビューでテストケースを300〜1,000件に拡大」「本番Logging から Production Issue→Test Case 自動化（Braintrust／Phoenix／Galileo 標準機能）」「ユーザーフィードバック（Thumbs Down／Report ボタン）を Test Case に逆流」「四半期ごとにカバレッジ監査（コードカバレッジ的にトピック別カバー率を測定）」を運用ルール化してください。

2. 「LLM-as-Judge の API Cost が想定の5〜10倍に膨張」問題：GPT-4 Judge を毎Eval Run で全1,000テストケース実行したらAPI料金が月$3,000〜$10,000に到達するケース。「Patronus Lynx／Galileo Luna の独自評価モデルでAPI Cost 50〜80%削減」「Eval頻度を Daily→Weekly に調整＋PR単位は Critical Test Case 100件に絞る」「Tier別Test Case 設計（Tier 1: PR毎100件／Tier 2: Daily 500件／Tier 3: Weekly 1,000件）」「LLM Cache（Helicone／Portkey）で重複Eval Run のCost削減」「月次API Cost予算アラート閾値設定（70%／90%／100%）」でコスト管理してください。

3. 「プロンプト変更で他ユースケースが壊れる回帰問題」：1ユースケースのプロンプト改善で別ユースケースの精度が劣化するケース。「PR毎に全Test Case Eval を CI/CD 必須化（GitHub Actions＋DeepEval／Braintrust）」「Test Case Tagging（{usecase}-{topic}-{difficulty}）でユースケース別 Pass Rate 監視」「Pass Rate 95%未満でPR Block自動化」「Critical Test Case（事業最重要 100件）の Pass Rate 99%以上を Hard Gate 化」「四半期で Regression Trend ダッシュボード共有」で回帰防止を確立してください。

4. 「Production監視で品質劣化を発見しても再現テストが作れない」問題：本番でハルシネーション発生したが、入力データを Test Case 化しないため次回も再発するケース。「Production Logging→Dataset 自動化（Braintrust／Phoenix／Galileo 標準）」「ユーザーReportボタンから Test Case 自動生成パイプライン構築」「Critical Issue（HIPAA／PII／Toxicity）は Hard Gate Test Case として永続保管」「週次Production Issue Review でTop 10 Issue を Test Case 化」「再現テスト作成 SLA を24時間以内に設定」で品質劣化サイクルを断ち切ってください。

5. 「OSS導入したがDB／Storage／Auth運用がDevOps負荷」問題：DeepEval／Phoenix OSSをセルフホストしたら PostgreSQL／S3／Redis／Auth 運用に専任DevOps が月20時間以上奪われるケース。「初期は Confident AI Pro／Arize AX SaaS で立ち上げ→事業成熟後にセルフホスト移行」「Helm Chart 標準テンプレ厳守で Custom 改造禁止」「DB Backup／Restore／Disaster Recovery を初日から SLA化」「Self-Hosted運用コスト（人件費＋クラウド料金）vs SaaS料金を四半期比較しSwitch判定」「DevOps SRE 1名以上の専任体制が前提」で運用負荷を制御してください。

6. 「複数モデル横断ベンチマーク（GPT-4／Claude／Gemini／Llama）の運用が手作業」問題：4モデル比較を手動で回すとEng工数が月40時間消費されるケース。「Braintrust／Galileo／DeepEval の Model Comparison 標準機能でCI/CD統合」「`compare_models()` SDK で1コマンド実行」「Model Switch を Config Variable 化（OPENAI_MODEL=gpt-5 ↔ claude-4.5）」「四半期ごとに Frontier Model Refresh （新モデルリリース時に Benchmark 自動Re-Run）」「Cost vs Quality トレードオフ Dashboard を月次共有」でモデル選定を自動化してください。

よくある質問（FAQ）

Q. BraintrustとGalileoはどう使い分けるべきですか？

A. 「開発者体験＋反復速度＋スタートアップ規模ならBraintrust、5製品統合＋Real-time Monitoring＋エンタープライズ規模ならGalileo」が原則。BraintrustはPlayground＋Eval＋Logging統合UIで30秒サイクルプロンプト反復、TypeScript SDK完備、Notion／Stripe／Vercel級スタートアップが選ぶ。GalileoはEvaluate＋Observe＋Protect＋Datasets＋LLM Studio の5製品統合、Galileo Luna独自評価、リアルタイムガードレール、HP／Comcast／Reddit級エンタープライズ向け。「シリーズA〜B＋Next.js／TypeScript＝Braintrust」「シリーズC以降＋Python＋複数モデル運用＝Galileo」がデフォルト選択です。

Q. RAG評価で最も精度が高いプラットフォームはどれですか？

A. 「Patronus AI Lynx（独自Hallucination検出モデル）が論文ベースでGPT-4 Judge を上回り業界最高、Galileo Luna が同等精度＋5倍高速」です。両者とも独自学習モデルでLLM-as-Judge 比でAPI Cost 50〜80%削減。OSS無料路線なら「DeepEval G-Eval＋Phoenix Evals」が代替候補だが、LLM-as-Judge前提でGPT-4／Claude APIコスト増加。「規制対応＋精度最優先ならPatronus Lynx、コスト＋速度バランスならGalileo Luna、OSS無料ならDeepEval G-Eval／Phoenix Evals」が選択基準。Faithfulness／Context Relevance／Answer Relevance／Chunk Attribution の4軸を必ず測定してください。

Q. 個人開発者・小規模スタートアップに最適なのはどれですか？

A. 「Free Tierで個人〜3人ならDeepEval OSS／Phoenix OSS、コスト最重視ならOSS両者」です。DeepEvalはpytest互換でCI/CD 3行統合、PhoenixはOpenTelemetry標準でDatadog連携自然。「Kaggle／個人研究＝DeepEval OSS（pytest CI 統合）、3人スタートアップ＝Phoenix OSS（Docker）、3〜10人スタートアップで予算$59〜$99/月＝Confident AI Pro $59／Braintrust Team $99」が成長段階別の現実解。シリーズA到達時にBraintrust Enterprise／Galileo Team／Confident AI Enterprise検討が王道。OSS両者は永続無料で本格運用可能なため、PoC〜MVPはコストゼロで完走できます。

Q. CI/CD（GitHub Actions）統合で最速なのはどれですか？

A. 「DeepEval（pytest互換）が3行統合で最速、Braintrust が TypeScript／Python両SDK で同等」です。DeepEvalは `assert_test()` を pytest 単体テストに混在記述するだけで完了、`pytest tests/eval/` で実行。Braintrustは `Eval()` 関数で Python／TypeScript 両対応、GitHub Actions Workflow テンプレ提供。Galileo／Patronus／Phoenix は Python SDK 中心でやや実装工数増。「pytest中心の Python 組織＝DeepEval、TypeScript／Next.js 組織＝Braintrust、Python＋複雑なFlow＝Galileo」が選択基準。CI Pass Rate 閾値（95%以上）を Hard Gate 化することでLLMアプリの回帰テストを完全自動化できます。

Q. SOC2・HIPAA・GDPR の監査対応で何を確認すべきですか？

A. 「①SOC2 Type II 報告書の最新版取得 ②データ保管リージョン明示 ③Audit Log 3年保管 ④BAA／DPA 締結可否 ⑤ペネトレーションテスト結果開示」を必ず確認してください。「医療HIPAAならGalileo／Patronus／Braintrust／Arize AX（BAA可）」「欧州GDPRならGalileo／Patronus／Braintrust／Arize AX」「米連邦政府FedRAMPならPatronus AI（対応進行中）」「SOC2のみで十分ならDeepEval Confident AI（HIPAA／GDPR進行中）」が選択基準。SaaS版でデータ越境懸念がある場合はSelf-Hosted（Galileo VPC／Patronus Enterprise／Braintrust VPC／Arize AX Self-Hosted／DeepEval OSS／Phoenix OSS）でデータ主権を確保してください。

2026年のLLM評価、選び方の本質

2026年のAI評価・LLMベンチマークは、「Eval-Driven Development が品質保証の必須条件」に進化しました。Braintrust（開発者体験＋30秒反復サイクル）、Patronus AI（Hallucination検出専用モデルLynx＋規制対応）、Galileo（5製品統合＋エンタープライズObservability）、Arize Phoenix（OSS＋OpenTelemetry標準）、DeepEval（pytest互換＋G-Eval柔軟性）——5つのプラットフォームはそれぞれ異なる強みを持ち、組織の規模・予算・技術スタック・規制要件によって最適解が変わります。まずは個人プロジェクトでDeepEval OSS／Phoenix OSSでEval体験を確立し、チーム規模が3人を超えた段階でConfident AI Pro／Braintrust Teamを有償導入してください。次に「TypeScript／開発者体験最優先→Braintrust」「Hallucination検出＋規制対応→Patronus」「エンタープライズ統合＋Real-time Monitoring→Galileo」「OSS＋OpenTelemetry→Phoenix」「pytest CI統合→DeepEval」の軸で絞り込み、本番展開時はProduction Logging→Dataset自動化＋Critical Test Case Hard Gate＋月次API Cost監視＋四半期Regression Reportを運用フローに必ず組み込みましょう。「LLM評価は開発工程の付加機能ではなく、AI時代のQA基盤」——この視点で評価インフラを再設計した組織が、2026年以降の生成AI競争で品質と速度を両立します。