AI LLMOps・LLM観測ツール比較2026｜Langfuse・LangSmith・Helicone・Arize Phoenix・W&B Weaveで本番LLMを可視化する

Langfuse・LangSmith・Helicone・Arize Phoenix・Weights & Biases Weaveを徹底比較。本番LLMアプリのトレース・評価・コスト管理・プロンプト管理・OpenTelemetry対応・セルフホスト可否を、AIエンジニアとSREの実務視点で解説します。

2026年、LLMOpsは「あったら便利」から「ないと運用が止まる」へ

2026年、エンタープライズの生成AI導入は実証実験フェーズを完全に抜け、本番運用での品質保証・コスト統制・コンプライアンス対応が最大の経営課題になりました。米McKinseyの2025年生成AI調査では、本番投入したLLMアプリを抱える企業の78%が「LLM観測ツールを正式採用済み、または6か月以内に導入予定」と回答しています。Anthropic・OpenAI・Google Geminiといったマルチプロバイダー併用が標準化し、「どのモデルが、どのプロンプトで、いくらコストをかけ、どれだけハルシネーションを起こしているか」を一元管理する基盤——LLMOps／LLM Observability——なしには本番運用が回らない時代です。

本記事では、2026年現在もっとも実用的なLLM観測・LLMOpsツール5本——Langfuse・LangSmith・Helicone・Arize Phoenix・Weights & Biases Weave——を、トレース機能・評価機能・プロンプト管理・コスト追跡・OpenTelemetry対応・セルフホスト可否・料金・エンタープライズ対応の8軸で比較します。「本番LLMアプリの障害をどう検知するか」「ハルシネーション率をどう測るか」「マルチプロバイダー（OpenAI・Anthropic・Bedrock・Vertex AI）をどう統合管理するか」「機密データを外部SaaSに送りたくない場合の選択肢は」といったAIエンジニア・SRE・LLMプラットフォームチームの疑問に答えます。

主要LLMOps・LLM観測ツール比較

Langfuse｜OSS×セルフホストで急成長する事実上のスタンダード

Langfuse（ラングフューズ）は2023年にベルリン発のスタートアップがローンチしたオープンソースのLLM観測プラットフォームで、2026年時点でGitHubスター数9,000超、エンタープライズ採用社数2,000社超の事実上のスタンダードに成長しました。最大の特徴は「OSS版を完全無料・無制限でセルフホストできる」こと。Docker Composeでわずか数分で立ち上がり、機密データを一切外部に出さずに本番LLMアプリを可視化できます。トレース・スパン・プロンプト管理・LLMアズジャッジ評価・データセット・実験管理・ユーザーフィードバック収集まで、LLMOpsに必要な機能をワンパッケージで提供。OpenTelemetry互換のSDKがPython・TypeScript・Java・Goに用意され、LangChain・LlamaIndex・Vercel AI SDK・OpenAI SDK・Anthropic SDKと自動統合されます。料金はSelf-hosted（OSS無料・無制限）／Cloud Hobby（月10万イベント無料）／Cloud Pro（$59/月／月10万イベント＋追加従量）／Cloud Team（$299/月／無制限ユーザー）／Enterprise（要見積／SAML SSO・SOC2 Type II・専用VPC）。

強み：完全OSSで無制限セルフホスト可、機密データを外部に出さない選択肢、OpenTelemetry互換、LangChain／LlamaIndex／Vercel AI SDK／OpenAI／Anthropic自動統合、プロンプト管理＋バージョン管理＋A/Bテスト、LLMアズジャッジ評価のビルトイン、データセット管理＋実験追跡、ユーザーフィードバック収集、活発なOSSコミュニティと頻繁な更新、UIが洗練されている、SOC2 Type II取得済み。

弱み：エンタープライズ向け高度機能（SSO・監査ログ・専用VPC）はEnterpriseプランのみ、ML実験管理の深さはW&Bに劣る、ドリフト検知などML的な機能は限定的、セルフホストはDevOps工数がかかる、初期セットアップ後のチューニングに学習コスト。

向いている用途：機密データを外部SaaSに出せない金融・医療・防衛・公共系、コスト最適化を最優先するスタートアップ・中堅SaaS、OSS文化の強い開発組織、LangChain／LlamaIndex採用チーム、複数のLLMプロバイダー（OpenAI・Anthropic・Bedrock・Vertex AI）を一元管理したい組織、自社VPCでLLMOps基盤を内製したい企業。

LangSmith｜LangChain純正、Agentic Workflowの可視化に強い

LangSmith（ラングスミス）はLangChainを開発した米LangChain社が提供する公式の観測・評価プラットフォームで、LangChain／LangGraphと組み合わせた時の可視化体験は他の追随を許さない水準です。LangGraphベースのAgentic Workflow（複雑な多段ツール呼び出し・分岐・人間介在のループ）を、各ノードの入出力・ツール呼び出し・トークン消費まで階層的に展開して観察できます。プロンプトHub（プロンプトのバージョン管理・公開）、Playground（複数モデルでプロンプトを並列テスト）、Datasets（評価用データセット）、Evaluators（LLMアズジャッジ＋カスタムコード評価）、Annotation Queue（人間レビュアーによる評価ワークフロー）、Online Evaluation（本番トラフィック上で連続評価）まで一気通貫。LangChain Academyの教材と連携しており学習体験も整っています。料金はDeveloper（個人・月5,000トレース無料）／Plus（$39/月／月10,000トレース＋追加従量）／Enterprise（要見積／SSO・自社VPC・Cloud／Self-hostedハイブリッド）。2025年からSelf-hosted Enterprise版も提供開始。

強み：LangChain／LangGraph純正で統合体験が圧倒的、Agentic Workflowの階層トレースが秀逸、Annotation Queueによる人間レビュアー評価ワークフロー、本番トラフィック上での連続評価、Playgroundでの複数モデル並列テスト、プロンプトHubでチーム共有、LangChain Academyとの教材連携、Enterpriseでセルフホスト可。

弱み：LangChain前提の最適化が強く非LangChainプロジェクトでは魅力が半減、料金がトレース数従量制で本番大規模トラフィックではコストが嵩む、SaaS版のCloud Hobbyは個人専用でチーム利用不可、UI／UXは機能過多でやや複雑、自社VPCのSelf-hostedはEnterpriseプランのみ。

向いている用途：LangChain／LangGraphで本番LLMアプリを構築する組織、Agentic Workflow（多段エージェント・人間介在ループ）の可視化が重要なプロダクト、評価データセット＋人間レビュアーで継続的にLLM品質を担保したいAIプロダクトチーム、LangChain Academyベースの教育を実施するエンタープライズAIチーム。

Helicone｜OpenAI互換のプロキシ型、コスト追跡が秀逸

Helicone（ヘリコーン）はY Combinator W23出身のスタートアップが開発する「OpenAI APIのドロップインプロキシ」として急成長したLLM観測ツールです。最大の特徴は導入のシンプルさ。OpenAI SDKのbase_urlを差し替えるだけで全リクエスト・レスポンス・コスト・レイテンシ・ユーザー単位コストが自動記録されます。Anthropic・Together AI・OpenRouter・Bedrock・Vertex AI・Cohere・Mistralなど主要プロバイダーに対応。「Sessions」機能で複数の関連リクエストを論理的にグルーピングでき、複雑なエージェントワークフローも追跡可能です。プロンプトキャッシュ・レート制限・A/Bテスト・カスタムプロパティ・ユーザートラッキング・コスト割り当てといったOps機能が充実。料金はFree（月10,000リクエスト）／Pro（$20/月／月100万リクエスト＋追加従量）／Team（$200/月／無制限ユーザー）／Enterprise（要見積／SSO・SLA保証・専用サポート）。OSS版もMITライセンスで提供。

強み：OpenAI SDKのbase_url変更のみで導入できる圧倒的シンプルさ、コスト追跡＋ユーザー単位コスト割り当てが秀逸、プロンプトキャッシュとレート制限のビルトイン、20以上のLLMプロバイダーに対応、OSS版のセルフホストも可能、PostHogやMixpanelとの連携、無料枠が月10,000リクエストと寛大、API呼び出しのオーバーヘッドが最小（数ミリ秒）、ダッシュボードが見やすい。

弱み：プロキシ型のためベンダーロックインがやや発生、Agentic Workflowの階層可視化はLangSmithに劣る、評価機能（LLMアズジャッジ・人間評価）はLangfuse／LangSmithに比べ簡素、プロンプト管理機能は基本的、複雑なエージェント可視化には別途SDK統合が必要。

向いている用途：OpenAI／Anthropic／OpenRouterをマルチプロバイダーで使う組織、SaaSアプリでユーザー単位のLLMコスト追跡・課金按分が必要なプロダクト、コスト最適化が経営KPIのLLM活用企業、レート制限・キャッシュをミドルウェアで一元化したいエンジニアリングチーム、シンプルな導入で本番監視を即座に始めたいスタートアップ。

Arize Phoenix｜MLOps出自の本格派、ドリフト検知とエンベディング可視化

Arize AIは2020年創業のMLOps企業で、従来からML本番監視・ドリフト検知の老舗として知られていました。同社が2023年にOSSとして公開したPhoenix（フェニックス）はLLM／RAG／エージェントに特化した観測ツールで、MLOps文脈で培われたドリフト検知・エンベディング可視化・統計的評価をLLMOpsに持ち込んだ点が他にない強みです。特にRAGアプリの検索品質評価はPhoenixの独壇場で、検索結果のRelevance／Hallucination／Q&A正確性をLLMアズジャッジで自動評価。エンベディングのUMAP可視化でクラスタの偏り・異常を視覚的に検知できます。OpenTelemetry互換のOpenInferenceセマンティック規約をリードし、LangChain・LlamaIndex・OpenAI・Anthropic・Bedrock・Vertex AIと統合済み。Phoenix OSSは完全無料、Arize AX（エンタープライズSaaS）は要見積で、SLA・SSO・専用サポート・ML本番監視（ドリフト・データ品質）まで一体提供。料金はPhoenix（OSS完全無料）／Arize AX Pro（$50/月〜）／Arize AX Enterprise（要見積／SSO・SOC2・専用VPC）。

強み：MLOps出自のドリフト検知・エンベディング可視化が独自、RAG評価（Relevance・Hallucination・Q&A）が秀逸、OpenInference規約をリードしOpenTelemetry標準対応、Phoenix OSSが完全無料・無制限、LangChain／LlamaIndex／Bedrock統合、ML本番監視（特徴量ドリフト・データ品質）も同一基盤、UMAPによる埋め込み可視化、データサイエンティストに馴染みやすいUI。

弱み：プロンプト管理機能はLangfuseに劣る、LLMアズジャッジのカスタマイズはLangSmithに比べ簡素、エンタープライズSaaS（Arize AX）の料金が不透明、LLM初学者には機能の多さが学習コスト、UIはMLOps寄りでLLM特化ツール比でやや硬派。

向いている用途：MLOps基盤を既に運用しLLMOpsを統合したい組織、RAGアプリの検索品質を継続的に評価したいプロダクト、ドリフト検知・エンベディング異常検知が必要な医療・金融AI、データサイエンティストとAIエンジニアが協業するチーム、本番MLとLLMを同一監視基盤に乗せたいエンタープライズ。

Weights & Biases Weave｜実験管理の王者がLLMOpsに本格参入

Weights & Biases（W&B）は2017年創業のML実験管理プラットフォームの老舗で、OpenAI・Anthropic・Meta・Microsoftなどの主要AI研究機関で標準採用される事実上の業界標準です。同社が2024年にローンチしたW&B WeaveはLLM／エージェントの観測・評価・本番監視に特化した新製品で、既存のW&B Models（実験管理）と統合されます。「LLM研究から本番運用まで同一基盤で追跡できる」のが最大の差別化要因。Pythonデコレータを関数に付けるだけでトレース・評価・データセット記録が自動化され、実験管理の延長線上でLLMアプリを開発できます。LLMアズジャッジ評価・人間評価UI・カスタムスコアラー・プロダクション監視・コスト追跡・プロンプトバージョン管理を一通り提供。料金はFree（個人・トレース月5,000無料）／Standard（$50/月／チーム機能）／Enterprise（要見積／SSO・SOC2 Type II・自社VPC・専用サポート）。世界最大のAIラボがエンドースする信頼性がエンタープライズ採用の決め手になることが多い製品です。

強み：実験管理（W&B Models）と統合された一気通貫の体験、Pythonデコレータによる導入のシンプルさ、世界最大のAIラボ採用実績による信頼性、エンタープライズSSO・SOC2 Type II・自社VPC対応、LLM評価UIが洗練、プロンプトバージョン管理＋カスタムスコアラー、研究フェーズから本番運用まで同一基盤、24/7エンタープライズサポート。

弱み：LangSmith／LangfuseほどLangChain／LlamaIndex統合が深くない、料金がやや高め（Standard $50/月から）、UI／UXは実験管理出自でLLM特化ツール比でやや独特、Agentic Workflowの可視化はLangSmithに僅かに劣る、エンタープライズ機能は最上位プランに集約。

向いている用途：W&Bを実験管理で既に採用しているAI研究組織、研究→本番を同一基盤で追跡したい大企業AIラボ、世界クラスの信頼性が要件のFortune 500企業、Pythonデコレータベースのシンプルな統合を求めるチーム、SSO・SOC2 Type II・自社VPCを満たす必要があるエンタープライズLLMOps。

料金・OpenTelemetry対応・セルフホスト機能比較表

無料プラン：Langfuse（OSS版完全無料・無制限／Cloud Hobby月10万イベント）、LangSmith（個人月5,000トレース）、Helicone（月10,000リクエスト＋OSS版）、Arize Phoenix（OSS完全無料・無制限）、W&B Weave（個人月5,000トレース）。無制限・無料セルフホストはLangfuseとPhoenixの2強です。

有料プラン（チーム・1ユーザーあたり目安）：Langfuse Cloud Pro $59/月（10万イベント）／LangSmith Plus $39/月（10,000トレース）／Helicone Pro $20/月（100万リクエスト）／Arize AX Pro $50/月〜／W&B Standard $50/月。コスト最重視ならHeliconeとLangfuseがツートップです。

OpenTelemetry／OpenInference対応：LangfuseはOTel互換SDKで業界標準準拠、Arize PhoenixはOpenInference規約をリード、LangSmithも2025年にOpenTelemetry対応。HeliconeとW&B WeaveはネイティブSDK中心です。OpenTelemetryで標準化したいならLangfuseまたはPhoenixが第一選択肢です。

セルフホスト：LangfuseはOSS版で完全セルフホスト可（最も成熟）、Arize PhoenixもOSSで自社運用可、Helicone OSS版もセルフホスト対応、LangSmith Self-hostedはEnterpriseプランのみ、W&B Self-hostedもEnterpriseプランのみ。機密性最重視ならLangfuse Self-hostedが最有力、エンタープライズ要件込みならLangSmith／W&B Enterpriseです。

エンタープライズ機能：SAML SSOは全ツールがEnterpriseプランで対応、SOC2 Type IIはLangfuse／LangSmith／Arize／W&B Weaveが取得済み、HIPAA対応はW&B Enterpriseが最も成熟、Air-gap環境はLangfuse Self-hosted＋LangSmith Self-hosted Enterpriseが対応可能です。

用途別おすすめツール

機密データを外部に出せない金融・医療・防衛系：Langfuse Self-hosted（OSS無料）またはArize Phoenix（OSS無料）。完全に自社VPC内で運用でき、外部SaaSへのデータ送信ゼロを実現できます。

LangChain／LangGraphでAgentic Workflowを構築する組織：LangSmith。LangChain純正の統合体験は他の追随を許さず、複雑なエージェントの階層トレースとAnnotation Queueによる人間レビュー評価が完備。

マルチプロバイダー（OpenAI・Anthropic・Bedrock）の本番SaaSでコスト追跡が経営課題：Helicone。OpenAI SDKのbase_url変更のみの導入シンプルさと、ユーザー単位コスト追跡・按分が秀逸。スタートアップから中堅SaaSの第一選択肢。

RAGアプリの検索品質を継続評価したいプロダクト：Arize Phoenix。RAG評価（Relevance・Hallucination・Q&A正確性）とエンベディングのUMAP可視化はPhoenixの独壇場。MLOps基盤を既に持つ組織との親和性が高い。

研究フェーズから本番までW&Bで一元管理したいエンタープライズAIラボ：W&B Weave。実験管理と本番観測が同一基盤で完結し、世界クラスのAIラボ採用実績による信頼性とSOC2 Type II・自社VPC・24/7サポートでFortune 500要件を満たします。

OSS文化＋コスト最適化＋機能網羅を全部欲しい中堅SaaS：Langfuse Cloud Pro（$59/月）またはLangfuse Self-hosted。プロンプト管理・評価・データセット・ユーザーフィードバックを全部備え、必要に応じてセルフホストにも切り替え可能。

導入時の落とし穴と回避策

1. 「全リクエストを記録するとストレージ費が爆発」問題：本番LLMアプリは1日数百万リクエストに達することも珍しくありません。サンプリング戦略（重要度の低いリクエストは10%サンプリング、エラーや低スコア応答は100%記録など）を初期設計に組み込みましょう。Langfuse／Heliconeは設定でサンプリング可能、Arize PhoenixはOpenTelemetryのサンプラーで制御できます。

2. 「ハルシネーション率を本番で測れない」問題：ハルシネーション検出はground truthがない本番環境では難しい課題です。LangSmith／Langfuse／Phoenixは「LLMアズジャッジ評価」で別の強力なLLM（GPT-4o／Claude Sonnet 4.6など）に応答品質を採点させる仕組みを提供。本番トラフィックの1〜5%を抜き出して連続評価する運用が現実解です。

3. 「機密プロンプト・PIIが観測ログに混入」リスク：医療・金融など個人情報を扱うアプリでは、プロンプト本文が観測ログに記録されると規制違反となります。SDKレベルでのマスキング（電話番号・カード番号・氏名のパターンマッチング）を必ず実装しましょう。LangfuseとHeliconeはマスキングフィルターをビルトインで提供しています。

4. 「マルチプロバイダー併用でコストが見えない」問題：OpenAI・Anthropic・Bedrock・Vertex AIを混在させるとコスト把握が難航します。HeliconeとLangfuseは各プロバイダーの料金表を内蔵し、トークン単価×トークン数でコストを自動計算。カスタムプロパティ（ユーザーID・機能ID・テナントID）を必ず付与し、後で多軸分析できる設計にしておきましょう。

5. 「評価データセットが古くなる」問題：LLM評価で使うゴールデンデータセットは時間とともに本番分布から乖離します。Langfuse／LangSmithは本番トラフィックから自動でデータセット候補を抽出する機能を提供。月次でアノテーションキューに10〜20件を流し、人間がOK／NGを付ける運用を回すと評価精度が維持されます。

よくある質問（FAQ）

Q. LangfuseとLangSmithはどちらを選ぶべきですか？

A. LangChain／LangGraphを主軸にしているならLangSmith、マルチフレームワーク・OSS文化・セルフホスト要件があるならLangfuseが第一選択肢です。LangSmithはLangChain純正の統合体験とAgentic Workflowの可視化が圧倒的、Langfuseは完全OSSで自社VPCに無制限デプロイできる柔軟性が最大の差別化要因。料金はLangfuse Cloud Proが$59/月（10万イベント）、LangSmith Plusが$39/月（10,000トレース）で、本番大規模トラフィックではLangfuseが割安です。

Q. OpenAI SDKしか使っていない場合の最も簡単な導入は？

A. Heliconeが圧倒的に簡単です。OpenAI SDKのbase_urlを「https://oai.helicone.ai/v1」に差し替えるだけで全リクエスト・コスト・レイテンシが記録されます。コードの変更は1行のみ。月10,000リクエストまで無料で、まず無料枠で本番監視を始めてから他ツールとの併用を検討するのが最短ルートです。

Q. RAGアプリの品質評価に最適なツールは？

A. Arize Phoenixが独壇場です。RAG評価専用のメトリクス（Retrieval Relevance、Hallucination、Q&A正確性、Context Recall）がビルトインで、検索された文脈とLLM応答の関係性を自動採点します。エンベディングのUMAP可視化で類似質問のクラスタを観察でき、検索品質の劣化を視覚的に検知可能。Langfuse・LangSmithでもLLMアズジャッジでカスタム評価は組めますが、Phoenixの即戦力には及びません。

Q. 機密データを外部SaaSに送らずにLLMOpsを実現するには？

A. Langfuse Self-hosted（OSS）またはArize Phoenix Self-hosted（OSS）が最有力です。両方とも自社VPC内にDocker Composeまたはk8sでデプロイでき、外部送信ゼロを実現可能。LangSmith Self-hostedとW&B Self-hostedはEnterpriseプランのみ提供（要商談）です。Helicone OSSもセルフホスト可能ですが、エンタープライズ機能（SSO・SOC2）はクラウド版限定の点に注意。

Q. OpenTelemetryに対応しているツールは？

A. LangfuseとArize Phoenixが最も成熟しています。PhoenixはOpenInferenceセマンティック規約をリードし、LangChain・LlamaIndex・OpenAI・Anthropic・Bedrock・Vertex AIの自動計装を提供。LangSmithも2025年にOpenTelemetryコレクター経由のインジェスト対応を発表。HeliconeとW&B WeaveはネイティブSDK中心で、OpenTelemetryは将来対応予定段階です。計装の標準化を最優先するならLangfuseまたはPhoenixが確実です。

Q. 小規模スタートアップでもLLMOpsツールは必要ですか？

A. 本番ユーザーが10人を超えたら必要です。LLMアプリは「動いているように見えて実は応答が劣化している」「特定ユーザーで毎回エラー」「コストが想定の3倍」といった事象が頻発し、ログ無しでは原因究明に数日かかります。Helicone（無料月10,000リクエスト）またはLangfuse Cloud Hobby（無料月10万イベント）から始めれば導入リスクはゼロ。最初の1か月で「コスト・エラー率・平均レイテンシ・ユーザー単位の使用量」のダッシュボードを整えるだけで運用品質が劇的に上がります。

2026年のLLMOps、選び方の本質

2026年のLLMOpsは、「LLMアプリを本番投入する以上、観測なしには運用が成立しない」段階に到達しました。トレース・評価・コスト追跡・プロンプト管理・ユーザーフィードバック収集——これらを単一基盤で実現できるかどうかが、AIプロダクトの品質と運用工数を決定します。まずはLangfuse Cloud Hobby／Helicone Free／Arize Phoenix OSSのいずれかで2週間トライアルし、トレース取得・コスト可視化・LLMアズジャッジ評価を実際に体験してください。次に組織の規模・セキュリティ要件・採用フレームワークに応じてLangfuse（OSS文化＋コスト最適化）／LangSmith（LangChain前提）／Helicone（マルチプロバイダーSaaS）／Arize（MLOps統合＋RAG評価）／W&B Weave（研究→本番一気通貫＋エンタープライズ信頼性）へ収束させるのが、2026年の最短最適ルートです。