AI LLMOps・LLM観測ツール比較2026|Langfuse・LangSmith・Helicone・Arize Phoenix・W&B Weaveで本番LLMを可視化する
Langfuse・LangSmith・Helicone・Arize Phoenix・Weights & Biases Weaveを徹底比較。本番LLMアプリのトレース・評価・コスト管理・プロンプト管理・OpenTelemetry対応・セルフホスト可否を、AIエンジニアとSREの実務視点で解説します。
2026年、LLMOpsは「あったら便利」から「ないと運用が止まる」へ
2026年、エンタープライズの生成AI導入は実証実験フェーズを完全に抜け、本番運用での品質保証・コスト統制・コンプライアンス対応が最大の経営課題になりました。米McKinseyの2025年生成AI調査では、本番投入したLLMアプリを抱える企業の78%が「LLM観測ツールを正式採用済み、または6か月以内に導入予定」と回答しています。Anthropic・OpenAI・Google Geminiといったマルチプロバイダー併用が標準化し、「どのモデルが、どのプロンプトで、いくらコストをかけ、どれだけハルシネーションを起こしているか」を一元管理する基盤——LLMOps/LLM Observability——なしには本番運用が回らない時代です。
本記事では、2026年現在もっとも実用的なLLM観測・LLMOpsツール5本——Langfuse・LangSmith・Helicone・Arize Phoenix・Weights & Biases Weave——を、トレース機能・評価機能・プロンプト管理・コスト追跡・OpenTelemetry対応・セルフホスト可否・料金・エンタープライズ対応の8軸で比較します。「本番LLMアプリの障害をどう検知するか」「ハルシネーション率をどう測るか」「マルチプロバイダー(OpenAI・Anthropic・Bedrock・Vertex AI)をどう統合管理するか」「機密データを外部SaaSに送りたくない場合の選択肢は」といったAIエンジニア・SRE・LLMプラットフォームチームの疑問に答えます。
主要LLMOps・LLM観測ツール比較
Langfuse|OSS×セルフホストで急成長する事実上のスタンダード
Langfuse(ラングフューズ)は2023年にベルリン発のスタートアップがローンチしたオープンソースのLLM観測プラットフォームで、2026年時点でGitHubスター数9,000超、エンタープライズ採用社数2,000社超の事実上のスタンダードに成長しました。最大の特徴は「OSS版を完全無料・無制限でセルフホストできる」こと。Docker Composeでわずか数分で立ち上がり、機密データを一切外部に出さずに本番LLMアプリを可視化できます。トレース・スパン・プロンプト管理・LLMアズジャッジ評価・データセット・実験管理・ユーザーフィードバック収集まで、LLMOpsに必要な機能をワンパッケージで提供。OpenTelemetry互換のSDKがPython・TypeScript・Java・Goに用意され、LangChain・LlamaIndex・Vercel AI SDK・OpenAI SDK・Anthropic SDKと自動統合されます。料金はSelf-hosted(OSS無料・無制限)/Cloud Hobby(月10万イベント無料)/Cloud Pro($59/月/月10万イベント+追加従量)/Cloud Team($299/月/無制限ユーザー)/Enterprise(要見積/SAML SSO・SOC2 Type II・専用VPC)。
強み:完全OSSで無制限セルフホスト可、機密データを外部に出さない選択肢、OpenTelemetry互換、LangChain/LlamaIndex/Vercel AI SDK/OpenAI/Anthropic自動統合、プロンプト管理+バージョン管理+A/Bテスト、LLMアズジャッジ評価のビルトイン、データセット管理+実験追跡、ユーザーフィードバック収集、活発なOSSコミュニティと頻繁な更新、UIが洗練されている、SOC2 Type II取得済み。
弱み:エンタープライズ向け高度機能(SSO・監査ログ・専用VPC)はEnterpriseプランのみ、ML実験管理の深さはW&Bに劣る、ドリフト検知などML的な機能は限定的、セルフホストはDevOps工数がかかる、初期セットアップ後のチューニングに学習コスト。
向いている用途:機密データを外部SaaSに出せない金融・医療・防衛・公共系、コスト最適化を最優先するスタートアップ・中堅SaaS、OSS文化の強い開発組織、LangChain/LlamaIndex採用チーム、複数のLLMプロバイダー(OpenAI・Anthropic・Bedrock・Vertex AI)を一元管理したい組織、自社VPCでLLMOps基盤を内製したい企業。
LangSmith|LangChain純正、Agentic Workflowの可視化に強い
LangSmith(ラングスミス)はLangChainを開発した米LangChain社が提供する公式の観測・評価プラットフォームで、LangChain/LangGraphと組み合わせた時の可視化体験は他の追随を許さない水準です。LangGraphベースのAgentic Workflow(複雑な多段ツール呼び出し・分岐・人間介在のループ)を、各ノードの入出力・ツール呼び出し・トークン消費まで階層的に展開して観察できます。プロンプトHub(プロンプトのバージョン管理・公開)、Playground(複数モデルでプロンプトを並列テスト)、Datasets(評価用データセット)、Evaluators(LLMアズジャッジ+カスタムコード評価)、Annotation Queue(人間レビュアーによる評価ワークフロー)、Online Evaluation(本番トラフィック上で連続評価)まで一気通貫。LangChain Academyの教材と連携しており学習体験も整っています。料金はDeveloper(個人・月5,000トレース無料)/Plus($39/月/月10,000トレース+追加従量)/Enterprise(要見積/SSO・自社VPC・Cloud/Self-hostedハイブリッド)。2025年からSelf-hosted Enterprise版も提供開始。
強み:LangChain/LangGraph純正で統合体験が圧倒的、Agentic Workflowの階層トレースが秀逸、Annotation Queueによる人間レビュアー評価ワークフロー、本番トラフィック上での連続評価、Playgroundでの複数モデル並列テスト、プロンプトHubでチーム共有、LangChain Academyとの教材連携、Enterpriseでセルフホスト可。
弱み:LangChain前提の最適化が強く非LangChainプロジェクトでは魅力が半減、料金がトレース数従量制で本番大規模トラフィックではコストが嵩む、SaaS版のCloud Hobbyは個人専用でチーム利用不可、UI/UXは機能過多でやや複雑、自社VPCのSelf-hostedはEnterpriseプランのみ。
向いている用途:LangChain/LangGraphで本番LLMアプリを構築する組織、Agentic Workflow(多段エージェント・人間介在ループ)の可視化が重要なプロダクト、評価データセット+人間レビュアーで継続的にLLM品質を担保したいAIプロダクトチーム、LangChain Academyベースの教育を実施するエンタープライズAIチーム。
Helicone|OpenAI互換のプロキシ型、コスト追跡が秀逸
Helicone(ヘリコーン)はY Combinator W23出身のスタートアップが開発する「OpenAI APIのドロップインプロキシ」として急成長したLLM観測ツールです。最大の特徴は導入のシンプルさ。OpenAI SDKのbase_urlを差し替えるだけで全リクエスト・レスポンス・コスト・レイテンシ・ユーザー単位コストが自動記録されます。Anthropic・Together AI・OpenRouter・Bedrock・Vertex AI・Cohere・Mistralなど主要プロバイダーに対応。「Sessions」機能で複数の関連リクエストを論理的にグルーピングでき、複雑なエージェントワークフローも追跡可能です。プロンプトキャッシュ・レート制限・A/Bテスト・カスタムプロパティ・ユーザートラッキング・コスト割り当てといったOps機能が充実。料金はFree(月10,000リクエスト)/Pro($20/月/月100万リクエスト+追加従量)/Team($200/月/無制限ユーザー)/Enterprise(要見積/SSO・SLA保証・専用サポート)。OSS版もMITライセンスで提供。
強み:OpenAI SDKのbase_url変更のみで導入できる圧倒的シンプルさ、コスト追跡+ユーザー単位コスト割り当てが秀逸、プロンプトキャッシュとレート制限のビルトイン、20以上のLLMプロバイダーに対応、OSS版のセルフホストも可能、PostHogやMixpanelとの連携、無料枠が月10,000リクエストと寛大、API呼び出しのオーバーヘッドが最小(数ミリ秒)、ダッシュボードが見やすい。
弱み:プロキシ型のためベンダーロックインがやや発生、Agentic Workflowの階層可視化はLangSmithに劣る、評価機能(LLMアズジャッジ・人間評価)はLangfuse/LangSmithに比べ簡素、プロンプト管理機能は基本的、複雑なエージェント可視化には別途SDK統合が必要。
向いている用途:OpenAI/Anthropic/OpenRouterをマルチプロバイダーで使う組織、SaaSアプリでユーザー単位のLLMコスト追跡・課金按分が必要なプロダクト、コスト最適化が経営KPIのLLM活用企業、レート制限・キャッシュをミドルウェアで一元化したいエンジニアリングチーム、シンプルな導入で本番監視を即座に始めたいスタートアップ。
Arize Phoenix|MLOps出自の本格派、ドリフト検知とエンベディング可視化
Arize AIは2020年創業のMLOps企業で、従来からML本番監視・ドリフト検知の老舗として知られていました。同社が2023年にOSSとして公開したPhoenix(フェニックス)はLLM/RAG/エージェントに特化した観測ツールで、MLOps文脈で培われたドリフト検知・エンベディング可視化・統計的評価をLLMOpsに持ち込んだ点が他にない強みです。特にRAGアプリの検索品質評価はPhoenixの独壇場で、検索結果のRelevance/Hallucination/Q&A正確性をLLMアズジャッジで自動評価。エンベディングのUMAP可視化でクラスタの偏り・異常を視覚的に検知できます。OpenTelemetry互換のOpenInferenceセマンティック規約をリードし、LangChain・LlamaIndex・OpenAI・Anthropic・Bedrock・Vertex AIと統合済み。Phoenix OSSは完全無料、Arize AX(エンタープライズSaaS)は要見積で、SLA・SSO・専用サポート・ML本番監視(ドリフト・データ品質)まで一体提供。料金はPhoenix(OSS完全無料)/Arize AX Pro($50/月〜)/Arize AX Enterprise(要見積/SSO・SOC2・専用VPC)。
強み:MLOps出自のドリフト検知・エンベディング可視化が独自、RAG評価(Relevance・Hallucination・Q&A)が秀逸、OpenInference規約をリードしOpenTelemetry標準対応、Phoenix OSSが完全無料・無制限、LangChain/LlamaIndex/Bedrock統合、ML本番監視(特徴量ドリフト・データ品質)も同一基盤、UMAPによる埋め込み可視化、データサイエンティストに馴染みやすいUI。
弱み:プロンプト管理機能はLangfuseに劣る、LLMアズジャッジのカスタマイズはLangSmithに比べ簡素、エンタープライズSaaS(Arize AX)の料金が不透明、LLM初学者には機能の多さが学習コスト、UIはMLOps寄りでLLM特化ツール比でやや硬派。
向いている用途:MLOps基盤を既に運用しLLMOpsを統合したい組織、RAGアプリの検索品質を継続的に評価したいプロダクト、ドリフト検知・エンベディング異常検知が必要な医療・金融AI、データサイエンティストとAIエンジニアが協業するチーム、本番MLとLLMを同一監視基盤に乗せたいエンタープライズ。
Weights & Biases Weave|実験管理の王者がLLMOpsに本格参入
Weights & Biases(W&B)は2017年創業のML実験管理プラットフォームの老舗で、OpenAI・Anthropic・Meta・Microsoftなどの主要AI研究機関で標準採用される事実上の業界標準です。同社が2024年にローンチしたW&B WeaveはLLM/エージェントの観測・評価・本番監視に特化した新製品で、既存のW&B Models(実験管理)と統合されます。「LLM研究から本番運用まで同一基盤で追跡できる」のが最大の差別化要因。Pythonデコレータを関数に付けるだけでトレース・評価・データセット記録が自動化され、実験管理の延長線上でLLMアプリを開発できます。LLMアズジャッジ評価・人間評価UI・カスタムスコアラー・プロダクション監視・コスト追跡・プロンプトバージョン管理を一通り提供。料金はFree(個人・トレース月5,000無料)/Standard($50/月/チーム機能)/Enterprise(要見積/SSO・SOC2 Type II・自社VPC・専用サポート)。世界最大のAIラボがエンドースする信頼性がエンタープライズ採用の決め手になることが多い製品です。
強み:実験管理(W&B Models)と統合された一気通貫の体験、Pythonデコレータによる導入のシンプルさ、世界最大のAIラボ採用実績による信頼性、エンタープライズSSO・SOC2 Type II・自社VPC対応、LLM評価UIが洗練、プロンプトバージョン管理+カスタムスコアラー、研究フェーズから本番運用まで同一基盤、24/7エンタープライズサポート。
弱み:LangSmith/LangfuseほどLangChain/LlamaIndex統合が深くない、料金がやや高め(Standard $50/月から)、UI/UXは実験管理出自でLLM特化ツール比でやや独特、Agentic Workflowの可視化はLangSmithに僅かに劣る、エンタープライズ機能は最上位プランに集約。
向いている用途:W&Bを実験管理で既に採用しているAI研究組織、研究→本番を同一基盤で追跡したい大企業AIラボ、世界クラスの信頼性が要件のFortune 500企業、Pythonデコレータベースのシンプルな統合を求めるチーム、SSO・SOC2 Type II・自社VPCを満たす必要があるエンタープライズLLMOps。
料金・OpenTelemetry対応・セルフホスト機能比較表
無料プラン:Langfuse(OSS版完全無料・無制限/Cloud Hobby月10万イベント)、LangSmith(個人月5,000トレース)、Helicone(月10,000リクエスト+OSS版)、Arize Phoenix(OSS完全無料・無制限)、W&B Weave(個人月5,000トレース)。無制限・無料セルフホストはLangfuseとPhoenixの2強です。
有料プラン(チーム・1ユーザーあたり目安):Langfuse Cloud Pro $59/月(10万イベント)/LangSmith Plus $39/月(10,000トレース)/Helicone Pro $20/月(100万リクエスト)/Arize AX Pro $50/月〜/W&B Standard $50/月。コスト最重視ならHeliconeとLangfuseがツートップです。
OpenTelemetry/OpenInference対応:LangfuseはOTel互換SDKで業界標準準拠、Arize PhoenixはOpenInference規約をリード、LangSmithも2025年にOpenTelemetry対応。HeliconeとW&B WeaveはネイティブSDK中心です。OpenTelemetryで標準化したいならLangfuseまたはPhoenixが第一選択肢です。
セルフホスト:LangfuseはOSS版で完全セルフホスト可(最も成熟)、Arize PhoenixもOSSで自社運用可、Helicone OSS版もセルフホスト対応、LangSmith Self-hostedはEnterpriseプランのみ、W&B Self-hostedもEnterpriseプランのみ。機密性最重視ならLangfuse Self-hostedが最有力、エンタープライズ要件込みならLangSmith/W&B Enterpriseです。
エンタープライズ機能:SAML SSOは全ツールがEnterpriseプランで対応、SOC2 Type IIはLangfuse/LangSmith/Arize/W&B Weaveが取得済み、HIPAA対応はW&B Enterpriseが最も成熟、Air-gap環境はLangfuse Self-hosted+LangSmith Self-hosted Enterpriseが対応可能です。
用途別おすすめツール
機密データを外部に出せない金融・医療・防衛系:Langfuse Self-hosted(OSS無料)またはArize Phoenix(OSS無料)。完全に自社VPC内で運用でき、外部SaaSへのデータ送信ゼロを実現できます。
LangChain/LangGraphでAgentic Workflowを構築する組織:LangSmith。LangChain純正の統合体験は他の追随を許さず、複雑なエージェントの階層トレースとAnnotation Queueによる人間レビュー評価が完備。
マルチプロバイダー(OpenAI・Anthropic・Bedrock)の本番SaaSでコスト追跡が経営課題:Helicone。OpenAI SDKのbase_url変更のみの導入シンプルさと、ユーザー単位コスト追跡・按分が秀逸。スタートアップから中堅SaaSの第一選択肢。
RAGアプリの検索品質を継続評価したいプロダクト:Arize Phoenix。RAG評価(Relevance・Hallucination・Q&A正確性)とエンベディングのUMAP可視化はPhoenixの独壇場。MLOps基盤を既に持つ組織との親和性が高い。
研究フェーズから本番までW&Bで一元管理したいエンタープライズAIラボ:W&B Weave。実験管理と本番観測が同一基盤で完結し、世界クラスのAIラボ採用実績による信頼性とSOC2 Type II・自社VPC・24/7サポートでFortune 500要件を満たします。
OSS文化+コスト最適化+機能網羅を全部欲しい中堅SaaS:Langfuse Cloud Pro($59/月)またはLangfuse Self-hosted。プロンプト管理・評価・データセット・ユーザーフィードバックを全部備え、必要に応じてセルフホストにも切り替え可能。
導入時の落とし穴と回避策
1. 「全リクエストを記録するとストレージ費が爆発」問題:本番LLMアプリは1日数百万リクエストに達することも珍しくありません。サンプリング戦略(重要度の低いリクエストは10%サンプリング、エラーや低スコア応答は100%記録など)を初期設計に組み込みましょう。Langfuse/Heliconeは設定でサンプリング可能、Arize PhoenixはOpenTelemetryのサンプラーで制御できます。
2. 「ハルシネーション率を本番で測れない」問題:ハルシネーション検出はground truthがない本番環境では難しい課題です。LangSmith/Langfuse/Phoenixは「LLMアズジャッジ評価」で別の強力なLLM(GPT-4o/Claude Sonnet 4.6など)に応答品質を採点させる仕組みを提供。本番トラフィックの1〜5%を抜き出して連続評価する運用が現実解です。
3. 「機密プロンプト・PIIが観測ログに混入」リスク:医療・金融など個人情報を扱うアプリでは、プロンプト本文が観測ログに記録されると規制違反となります。SDKレベルでのマスキング(電話番号・カード番号・氏名のパターンマッチング)を必ず実装しましょう。LangfuseとHeliconeはマスキングフィルターをビルトインで提供しています。
4. 「マルチプロバイダー併用でコストが見えない」問題:OpenAI・Anthropic・Bedrock・Vertex AIを混在させるとコスト把握が難航します。HeliconeとLangfuseは各プロバイダーの料金表を内蔵し、トークン単価×トークン数でコストを自動計算。カスタムプロパティ(ユーザーID・機能ID・テナントID)を必ず付与し、後で多軸分析できる設計にしておきましょう。
5. 「評価データセットが古くなる」問題:LLM評価で使うゴールデンデータセットは時間とともに本番分布から乖離します。Langfuse/LangSmithは本番トラフィックから自動でデータセット候補を抽出する機能を提供。月次でアノテーションキューに10〜20件を流し、人間がOK/NGを付ける運用を回すと評価精度が維持されます。
よくある質問(FAQ)
Q. LangfuseとLangSmithはどちらを選ぶべきですか?
A. LangChain/LangGraphを主軸にしているならLangSmith、マルチフレームワーク・OSS文化・セルフホスト要件があるならLangfuseが第一選択肢です。LangSmithはLangChain純正の統合体験とAgentic Workflowの可視化が圧倒的、Langfuseは完全OSSで自社VPCに無制限デプロイできる柔軟性が最大の差別化要因。料金はLangfuse Cloud Proが$59/月(10万イベント)、LangSmith Plusが$39/月(10,000トレース)で、本番大規模トラフィックではLangfuseが割安です。
Q. OpenAI SDKしか使っていない場合の最も簡単な導入は?
A. Heliconeが圧倒的に簡単です。OpenAI SDKのbase_urlを「https://oai.helicone.ai/v1」に差し替えるだけで全リクエスト・コスト・レイテンシが記録されます。コードの変更は1行のみ。月10,000リクエストまで無料で、まず無料枠で本番監視を始めてから他ツールとの併用を検討するのが最短ルートです。
Q. RAGアプリの品質評価に最適なツールは?
A. Arize Phoenixが独壇場です。RAG評価専用のメトリクス(Retrieval Relevance、Hallucination、Q&A正確性、Context Recall)がビルトインで、検索された文脈とLLM応答の関係性を自動採点します。エンベディングのUMAP可視化で類似質問のクラスタを観察でき、検索品質の劣化を視覚的に検知可能。Langfuse・LangSmithでもLLMアズジャッジでカスタム評価は組めますが、Phoenixの即戦力には及びません。
Q. 機密データを外部SaaSに送らずにLLMOpsを実現するには?
A. Langfuse Self-hosted(OSS)またはArize Phoenix Self-hosted(OSS)が最有力です。両方とも自社VPC内にDocker Composeまたはk8sでデプロイでき、外部送信ゼロを実現可能。LangSmith Self-hostedとW&B Self-hostedはEnterpriseプランのみ提供(要商談)です。Helicone OSSもセルフホスト可能ですが、エンタープライズ機能(SSO・SOC2)はクラウド版限定の点に注意。
Q. OpenTelemetryに対応しているツールは?
A. LangfuseとArize Phoenixが最も成熟しています。PhoenixはOpenInferenceセマンティック規約をリードし、LangChain・LlamaIndex・OpenAI・Anthropic・Bedrock・Vertex AIの自動計装を提供。LangSmithも2025年にOpenTelemetryコレクター経由のインジェスト対応を発表。HeliconeとW&B WeaveはネイティブSDK中心で、OpenTelemetryは将来対応予定段階です。計装の標準化を最優先するならLangfuseまたはPhoenixが確実です。
Q. 小規模スタートアップでもLLMOpsツールは必要ですか?
A. 本番ユーザーが10人を超えたら必要です。LLMアプリは「動いているように見えて実は応答が劣化している」「特定ユーザーで毎回エラー」「コストが想定の3倍」といった事象が頻発し、ログ無しでは原因究明に数日かかります。Helicone(無料月10,000リクエスト)またはLangfuse Cloud Hobby(無料月10万イベント)から始めれば導入リスクはゼロ。最初の1か月で「コスト・エラー率・平均レイテンシ・ユーザー単位の使用量」のダッシュボードを整えるだけで運用品質が劇的に上がります。
2026年のLLMOps、選び方の本質
2026年のLLMOpsは、「LLMアプリを本番投入する以上、観測なしには運用が成立しない」段階に到達しました。トレース・評価・コスト追跡・プロンプト管理・ユーザーフィードバック収集——これらを単一基盤で実現できるかどうかが、AIプロダクトの品質と運用工数を決定します。まずはLangfuse Cloud Hobby/Helicone Free/Arize Phoenix OSSのいずれかで2週間トライアルし、トレース取得・コスト可視化・LLMアズジャッジ評価を実際に体験してください。次に組織の規模・セキュリティ要件・採用フレームワークに応じてLangfuse(OSS文化+コスト最適化)/LangSmith(LangChain前提)/Helicone(マルチプロバイダーSaaS)/Arize(MLOps統合+RAG評価)/W&B Weave(研究→本番一気通貫+エンタープライズ信頼性)へ収束させるのが、2026年の最短最適ルートです。
AI Scout編集部
AIツール・SaaS専門のレビューチーム。最新のAI技術動向を追い、実際にツールを使用した上で、正確で信頼性の高い情報を提供しています。