AIエージェントは本物の仕事をどこまでこなせるか|フィリピンBPOとAI活用の現実

最新ベンチマークが示すAIエージェントの実力と限界を、フィリピン進出を検討する日本企業や在フィリピン日本人向けに解説。BPO業務へのAI導入手順、データ規制、失敗回避のコツまで実務目線でまとめました。

執筆者
執筆者執筆者

運営者・AIエンジニア / IT歴36年以上・マニラ在住13年以上

AIエージェントは本物の仕事をどこまでこなせるか|フィリピンBPOとAI活用の現実

AIエージェントは「本物の仕事」をどこまでこなせるか — Agents' Last Examが示す現実とフィリピンのBPO戦略

世界最先端AIでも専門業務の合格率は24%という最新試験の結果をもとに、フィリピンのBPOやAIエージェント導入で日本企業が押さえるべき現実的な進め方を解説します。


Part 1: このテーマが重要な理由

Step 1: フィリピンビジネスでの背景 (3分)

「最先端のAIでも、本物の専門的な仕事は4回に1回ほどしか最後までやり切れない」。これが、UC Berkeley(カリフォルニア大学バークレー校)が公開した新しい試験の結果が示した現実です。この試験は「Agents' Last Exam(エージェントの最終試験、略してALE)」と呼ばれ、AIが人の代わりに価値のある専門業務をこなせるかどうかを測ります。

フィリピンは、世界有数のBPO(ビジネス・プロセス・アウトソーシング、企業の業務を外部で請け負う産業)の集積地です。コールセンターや、経理のシェアードサービス、ITヘルプデスクなど、多くの仕事が国外の企業からこの国に集まっています。だからこそ「AIが知的な業務をどこまで置き換えられるか」という問いは、フィリピン経済の将来に直接かかわります。

フィリピンに進出する日本企業や、現地で働く日本人にとっても、この結果は重要です。AIに過大な期待をかけて一気に人員を置き換えようとすると、失敗する可能性が高いからです。一方で、AIをうまく使えば、現地スタッフ一人ひとりの仕事の質を底上げできます。今回の試験は、その「ちょうどよい距離感」を考えるための材料になります。

マニラのオフィスで、あなたが日本人マネージャーだとします。本社から「AIエージェントで経理チームを半分に減らせないか」と聞かれました。あなたは同僚のフィリピン人ITリーダーにこう切り出します。「先週バークレーが出した試験の結果を見てほしいんです。今いちばん賢いAIでも、本物の専門業務の合格率は24%でした。だから『全部任せる』のではなく、『どの作業を手伝わせるか』を一緒に決めましょう」。この一言が、現実的な計画づくりの出発点になります。

Step 2: 元記事の要点を整理する (5分)

元記事の事実だけを取り出して、主要なポイントを表にまとめました。

項目内容
試験の名前Agents' Last Exam(エージェントの最終試験、略称ALE)
作った組織UC Berkeley(カリフォルニア大学バークレー校)のRDI(責任ある分散型知能センター)
関わった専門家300人を超える各分野の専門家による助言委員会
試験の目的AIが経済的に価値のある長い工程の専門業務をこなせるかを測ること
1位OpenAIのGPT-5.5(Codexという枠組みで動作)、合格率24.0%
3位AnthropicのClaude Fable 5(Mythos級の新モデル、公開翌日に試験)、合格率22.0%
最も難しい段階の結果多くの最新モデルが合格率0.0%という厳しい成績
全体の示唆世界最先端のAIでも、本物の専門業務の大半をやり切れていない

VentureBeat — 「Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents' Last Exam benchmark」(2026年6月10日)

この表は学習目的で公開情報の事実をもとに作成したものです。詳細は上記リンクの元記事をご確認ください。

関連: AIエージェント元年——フィリピン日系企業が2026年に取り組む技術と活用法 で詳しく解説しています。

Step 3: 理解度チェック (5分)

Q1. 今回の新しい試験「Agents' Last Exam(ALE)」を作ったのは、どこの大学の研究組織でしょうか。

ヒント: アメリカ西海岸にある、計算機科学で有名な州立大学です。

Q2. 1位になったAIモデルの名前と、その合格率は何%だったでしょうか。

ヒント: OpenAIのモデルで、合格率は20%台前半でした。

Q3. AnthropicのClaude Fable 5は何位で、合格率は何%だったでしょうか。

ヒント: 1位との差は、合格率でわずか2ポイントでした。

Q4. この試験が測ろうとしているのは、どのような種類の作業でしょうか。

ヒント: 単発のクイズではなく、長い工程が必要な、価値のある専門業務です。

Q5. 最も難しい段階で、多くの最新モデルが記録した合格率は何%だったでしょうか。

ヒント: 「ほとんど手も足も出なかった」と表現できる数字です。


関連: フィリピンの中小企業こそAIエージェントを活用すべき理由|業務自動化で競争力を高める方法 で詳しく解説しています。

Part 2: 実務への応用

Step 4: フィリピンでの導入ステップ (10分)

今回の結果が伝えているのは、「AIを丸ごと信用して人を置き換える」のではなく、「人の作業を手伝わせて質を上げる」という使い方です。フィリピンの職場でこの考え方を導入する手順を、表にまとめました。

ステップやることフィリピン特有の注意点
1. 業務の切り分け自社の業務を「短い定型作業」と「長い専門業務」に分けるBPO拠点では作業が細かく分かれていることが多く、切り分けの相性が良いです
2. 小さく試すまずは1つのチームで、補助としてAIを試します月数千〜数万ペソ規模の小さな予算から始め、効果を見てから広げると安全です(金額は社内で必ず見積もってください)
3. データの確認AIに渡してよい情報と、渡してはいけない情報を決めます個人情報を扱う場合は、NPC(国家プライバシー委員会)が所管するデータプライバシー法(RA 10173)の確認が必要です
4. 人による点検AIの出した結果を、必ず人が確認する流れを作ります「上司の顔を立てる」文化が残る職場では、ミスを指摘しにくいことがあります。点検は役割として明確に決めましょう
5. 効果の記録どれだけ時間が減ったかを記録し、次の判断材料にします口頭での合意が多い現場では、決めたことを文書に残すと後の認識のずれを防げます

各ステップで大切なのは、「全部任せる」前提を捨てることです。今いちばん賢いAIでも合格率は24%です。だからこそ、人が最終確認をする仕組みを最初から組み込んでください。

Step 5: よくある失敗と対策 (5分)

フィリピンでAIエージェントの導入に取り組むとき、よく起きる失敗を3つ紹介します。

失敗パターン1: 「AIに全部任せられる」と思い込む

NG例: 本社の指示で、経理チームの人数を先に半分に減らしてからAIを入れました。しかしAIが長い工程の途中で作業を取りこぼし、月末の締め作業が回らなくなりました。

OK例: まず人を減らさずにAIを補助として試し、どの作業を任せられるかを3か月かけて見極めました。効果が確認できた作業だけを、少しずつAIに移しました。

失敗パターン2: データの扱いを決めずに使い始める

NG例: 顧客の個人情報をそのままAIに入力して作業を効率化しようとし、社内に明確なルールがありませんでした。後でデータプライバシー法に触れる恐れが見つかり、作業を全面的にやり直すことになりました。

OK例: 始める前に、AIに渡してよい情報の範囲を決めました。個人情報は伏せた形に変えてから使い、NPCの規則に沿った運用にしました。

失敗パターン3: 現地スタッフへの説明を省く

NG例: 日本人マネージャーだけでAI導入を決め、現地スタッフには「明日からこのツールを使う」とだけ伝えました。スタッフは「自分の仕事が奪われる」と不安になり、現場で使われませんでした。

OK例: 導入の前にスタッフ向けの説明会を開き、「人を減らすためではなく、作業を楽にするため」という目的をていねいに伝えました。質問を受ける時間も取り、納得してもらってから始めました。


Part 3: さらに深く学ぶ

Step 6: 関連する技術用語 (5分)

AIエージェント(AI agent/自律型のAI)は、人が一つひとつ指示しなくても、目標に向けて自分で手順を考えて作業を進めるAIのことです。たとえばマニラのBPO拠点では、問い合わせメールの内容を読み取り、過去の記録を調べて下書きの返信まで用意する、といった一連の流れを任せる使い方が考えられます。

Agents' Last Exam(ALE/エージェントの最終試験)は、AIエージェントが本物の専門業務を最後までやり切れるかを測るための試験です。コールセンター運営の会社が新しいAIツールを比べるとき、こうした試験の結果を見れば、宣伝文句に惑わされず実力を判断する手がかりになります。

ロングホライズン業務(long-horizon workflow/長い工程の仕事)は、いくつもの手順を順番にこなして、ようやく完成する種類の仕事を指します。マニラの経理シェアードサービスでいえば、伝票の確認から仕訳、月末の締めまでつながった一連の作業がこれにあたり、AIが途中で手順を取りこぼしやすい領域です。

ベンチマーク(benchmark/性能の比較基準)は、複数のAIを同じ条件で比べて、どれがどれだけできるかをそろえて測る共通の物差しのことです。フィリピンでAIツールを選ぶ担当者は、こうした共通の物差しの数字を根拠にすると、社内に説明しやすくなります。

ハーネス(harness/AIを動かす実行の枠組み)は、AIモデル本体を実際の作業につなげて動かすための仕組みのことです。今回の試験でも、同じモデルでもどの枠組みで動かすかによって成績が変わったため、現地でツールを選ぶときは「中身のAI」と「動かす枠組み」の両方を見る必要があります。

Step 7: 自社への応用を考える (10分)

自社の業務のうち「AIに任せられる部分」と「人が担う部分」を切り分ける

今回の結果は、AIがすべてをこなせるわけではないことを示しています。まずは自社の業務を細かく分け、短い定型作業と長い専門業務に仕分けてみましょう。

考えるヒント: 「もしAIが途中で手順を1つ忘れたら、誰がどこで気づけるか」を基準に考えると、人が担うべき部分が見えてきます。

BPO拠点でのAI導入を「置き換え」でなく「底上げ」として設計する

人を減らす道具としてAIを入れると、現場の反発を招きやすくなります。一人ひとりの作業を楽にし、より価値の高い仕事に時間を回すという発想に切り替えてみましょう。

考えるヒント: 「AIを入れたことで、スタッフが新しくできるようになった仕事は何か」を導入後に確認すると、底上げできているかが分かります。

AI性能の誇大広告に振り回されない評価の仕組みを社内に作る

AIの宣伝では高い数字が並びますが、本物の業務での合格率は今回24%にとどまりました。自社で導入を判断するとき、共通の比較基準の数字を確認する習慣を作りましょう。

考えるヒント: 「この数字は、どんな試験で、誰が測ったものか」を毎回確認するだけでも、判断の質が上がります。

次のアクション: 来週のチーム会議で、自社の業務を1つ選び、それを「短い定型作業」と「長い専門業務」に分けて紙に書き出してみてください。AI導入を考える出発点になります。


Part 4: FAQ

Q1. フィリピンのBPO拠点で、AIエージェントは本当にスタッフを置き換えられますか。

今すぐ全面的に置き換えるのは現実的ではありません。今回の試験では、最先端のAIでも本物の専門業務の合格率は24%でした。長い工程の仕事ほどAIは途中で取りこぼします。当面は、スタッフの作業を手伝わせて質を上げる使い方が向いています。

Q2. AIを使うとき、フィリピンのデータ関連の法律で気をつけることはありますか。

個人情報を扱う場合は注意が必要です。フィリピンにはデータプライバシー法(RA 10173)があり、NPC(国家プライバシー委員会)が所管しています。顧客の個人情報をそのままAIに入力する前に、社内で扱いのルールを決め、必要に応じて法務に確認してください。

Q3. 小さく試したいのですが、どのくらいの予算から始められますか。

まずは1つのチームで小さく試すのがおすすめです。月数千〜数万ペソ規模の小さな予算から始め、効果を見てから広げる進め方が安全です。具体的な金額はツールや使う量で変わるため、必ず社内で見積もってください。

Q4. 日本本社は「すぐ自動化しろ」と言いますが、現地では何を説明すべきですか。

本社には、最先端のAIでも本物の業務の大半をやり切れていないという今回のデータを示すとよいでしょう。そのうえで、人による最終確認を残した段階的な進め方を提案してください。数字を根拠にすると、無理な計画を防ぎやすくなります。

Q5. 現地スタッフがAI導入に不安を感じています。どう伝えればよいですか。

「人を減らすためではなく、作業を楽にするため」という目的を、導入の前にていねいに伝えてください。フィリピンの職場では、上司に直接不安を言いにくいこともあります。説明会で質問を受ける時間を取り、納得してもらってから始めると、現場で使われやすくなります。


活用のコツ(3 Tips)

まず自社の業務を「短い作業」と「長い工程の仕事」に仕分けする

今回の結果から分かるのは、AIが長い工程の仕事を苦手とすることです。仕分けをしておくと、どこにAIを使い、どこに人を残すかの判断がはっきりします。最初の一歩として、紙に2つの欄を作って書き出してみてください。

人による最終確認を仕組みとして組み込む

合格率が24%ということは、AIの出した結果には間違いが多く含まれます。誰が、どの段階で確認するかを役割として決め、確認なしで業務が進まない流れを作りましょう。これがミスや事故を防ぐ土台になります。

AIの宣伝の数字を、共通の比較基準で確かめる習慣を持つ

宣伝では高い数字が目立ちますが、本物の業務での実力は別です。ツールを選ぶときは「どんな試験で、誰が測ったか」を毎回確認してください。社内に説明するときの根拠にもなります。


ボーナス: PH AI Worksの活用法

PH AI Worksは、フィリピンでのAI・テクノロジー活用を支援する企業です。今回のテーマである「AIエージェントを現実的に業務へ取り入れる」取り組みについて、現地の事情を踏まえたお手伝いができます。

次のステップとして、たとえば以下のような内容をご相談いただけます。

  • 自社の業務のうち、どの作業をAIに任せ、どこを人が担うかの切り分けについて
  • フィリピンのデータプライバシー法(RA 10173)を踏まえた、AI利用時の情報の扱いについて
  • 現地スタッフが安心して使えるようにするための、導入の進め方や説明会の設計について

まずはお気軽にお問い合わせください。無料でご相談いただけます。


参考・出典

この記事を書いた人

執筆者
執筆者

運営者 / AIエンジニア(IT歴36年以上)

  • 東京都出身・マニラ在住13年以上
  • IT歴36年以上(開発・SEO・AI)
  • IBM認定 生成AIエンジニア
  • AIチャットボット・RAG・AIエージェント開発

IT歴36年以上、マニラでの実務経験13年以上の日本人AIエンジニア(運営者)です。AIチャットボットや業務自動化、AIエージェント、生成AIマーケティングなど、フィリピンの日系企業が「成果に直結するAI」を導入できるよう、現場目線で記事を書いています。ご相談は日本語・英語どちらでも対応します。

AI導入の無料相談

御社の課題をお聞きし、最適なAI導入プランをご提案します。

無料相談を予約する(0円・30分)