2023年以降、生成AIブームでChatGPT API・Claude API・Gemini APIなどを使ったプロダクト開発が爆発的に増えました。しかし、PoCは順調だったのに本番展開すると精度が下がる、想定外の回答を返す、コストが膨らむ、ユーザーから「使えない」と言われる ― そんな声が増えています。IT/AI救済センターのAI/LLM救済サービスは、こうした「動いてはいるけど期待通りじゃない」AIシステムを立て直すことに特化しています。
よくある「動かない」パターンは5つあります。第一はRAGの精度が低いケース。社内ドキュメントを取り込んだRAGが、ユーザーの質問に対して的外れな回答を返す、もしくは「分かりません」と言ってばかり。チャンキング戦略、Embedding モデルの選定、再ランキング、メタデータフィルタなど、改善の余地が大きい領域です。私たちは Recall / Precision / nDCG といった IR の指標で精度を計測しながら、段階的に改善します。
第二はAgentが暴走するケース。LangChain や Claude SDK で組んだ Agent が、無限ループに入る、想定外のToolを呼ぶ、コストが青天井になる。Tool 設計、Plan-Execute パターンの整理、ガードレール設計の見直しが必要です。
第三はプロンプトインジェクション対策が甘いケース。ユーザー入力がシステムプロンプトを上書きしてしまう、機密情報を引き出されてしまう。プロンプトの構造化、入力サニタイズ、出力フィルタリングなど、多層防御の設計が必要です。
第四は本番運用でコストが想定の10倍になるケース。トークン消費の見積もりが甘く、月10万円のはずが月100万円に。プロンプトキャッシング、モデルの使い分け(廉価モデル → 高精度モデルの段階利用)、レート制限の設計などでコストを劇的に下げます。
第五はハルシネーション(誤答)が止まらないケース。LLMが「もっともらしい嘘」を返してくる。RAGによる事実根拠の引用、検証ステップの挿入、信頼度スコアの計算など、嘘を出さない仕組みを設計します。
救済のアプローチは5ステップで進めます。まず現状分析。プロンプト・コード・運用ログ・ユーザーフィードバックを総合的に確認します。次に問題定義。「漠然と動かない」を「Recall が低い」「コストが想定の3倍」など計測可能な問題に分解。それから改善仮説の構築。データ拡充・プロンプト改善・検索改善・モデル変更などの選択肢を整理します。A/B検証で一つひとつの改善を計測しながら適用。最後に本番運用設計として、モニタリング、コスト管理、フィードバックループの設計を行います。
取り扱う技術スタックは多岐にわたります。OpenAI / Anthropic / Google / Cohere / Mistral / Llama 系の各種LLM、LangChain / LlamaIndex / Semantic Kernel、Pinecone / Weaviate / Qdrant / pgvector、Vercel AI SDK / Streamlit / Gradio など主要なAI開発ライブラリ。Python / TypeScript の両方で実装可能です。
他社にAI開発を依頼している途中で「これで本当に大丈夫?」と不安になった場合、第三者視点でのセカンドオピニオンも承ります。NDAを締結したうえで、現プロジェクトを評価し、リスクと改善余地を中立的に評価します。
よくある「動かない」パターンは5つあります。第一はRAGの精度が低いケース。社内ドキュメントを取り込んだRAGが、ユーザーの質問に対して的外れな回答を返す、もしくは「分かりません」と言ってばかり。チャンキング戦略、Embedding モデルの選定、再ランキング、メタデータフィルタなど、改善の余地が大きい領域です。私たちは Recall / Precision / nDCG といった IR の指標で精度を計測しながら、段階的に改善します。
第二はAgentが暴走するケース。LangChain や Claude SDK で組んだ Agent が、無限ループに入る、想定外のToolを呼ぶ、コストが青天井になる。Tool 設計、Plan-Execute パターンの整理、ガードレール設計の見直しが必要です。
第三はプロンプトインジェクション対策が甘いケース。ユーザー入力がシステムプロンプトを上書きしてしまう、機密情報を引き出されてしまう。プロンプトの構造化、入力サニタイズ、出力フィルタリングなど、多層防御の設計が必要です。
第四は本番運用でコストが想定の10倍になるケース。トークン消費の見積もりが甘く、月10万円のはずが月100万円に。プロンプトキャッシング、モデルの使い分け(廉価モデル → 高精度モデルの段階利用)、レート制限の設計などでコストを劇的に下げます。
第五はハルシネーション(誤答)が止まらないケース。LLMが「もっともらしい嘘」を返してくる。RAGによる事実根拠の引用、検証ステップの挿入、信頼度スコアの計算など、嘘を出さない仕組みを設計します。
救済のアプローチは5ステップで進めます。まず現状分析。プロンプト・コード・運用ログ・ユーザーフィードバックを総合的に確認します。次に問題定義。「漠然と動かない」を「Recall が低い」「コストが想定の3倍」など計測可能な問題に分解。それから改善仮説の構築。データ拡充・プロンプト改善・検索改善・モデル変更などの選択肢を整理します。A/B検証で一つひとつの改善を計測しながら適用。最後に本番運用設計として、モニタリング、コスト管理、フィードバックループの設計を行います。
取り扱う技術スタックは多岐にわたります。OpenAI / Anthropic / Google / Cohere / Mistral / Llama 系の各種LLM、LangChain / LlamaIndex / Semantic Kernel、Pinecone / Weaviate / Qdrant / pgvector、Vercel AI SDK / Streamlit / Gradio など主要なAI開発ライブラリ。Python / TypeScript の両方で実装可能です。
他社にAI開発を依頼している途中で「これで本当に大丈夫?」と不安になった場合、第三者視点でのセカンドオピニオンも承ります。NDAを締結したうえで、現プロジェクトを評価し、リスクと改善余地を中立的に評価します。
対応領域・特徴
- ✓ RAG構築・改善 — チャンキング・Embedding・再ランキング・精度計測。
- ✓ プロンプト設計 — 構造化・ガードレール・インジェクション対策。
- ✓ エージェント設計 — Tool定義・Plan-Execute・コスト制御。
- ✓ セカンドオピニオン — 他社プロジェクトの中立評価とリスク提示。