【AIエージェント構築・第3回】分身が「目」を持つ。トレンドを掴むリアルタイム検索と視覚情報の統合実況

🥇 導入：過去を語る賢者から、今を生きるパートナーへ

第2回を経て、あなたのAIエージェントには「あなたの魂（過去の価値観や文体）」が宿りました。

しかし、今の彼はまだ、図書館に引きこもっている賢者のようなものです。

「今朝のニュースについてどう思う？」「この最新デバイスの画像、自分ならどこに注目する？」

そう問いかけたとき、エージェントが「私の学習データは2025年までです」と答えてしまったら、その瞬間に魔法は解け、彼はただの「古い記録」に成り下がってしまいます。

2026年、AIが真の「分身」として機能するためには、現実世界とリアルタイムに繋がる「目」が必要です。

第3回では、エージェントに「最新トレンドを追う視力」と「画像から文脈を読む知覚」を実装するプロセスを実況します。

エージェントに「目」を与える際、単にネットに繋げばいいわけではありません。

氾濫する情報の海から、あなたに必要なものだけを濾過（ろか）する設計が必要です。

2025年までの検索機能は「検索結果の1位から3位を読み込む」といった単純なものでした。

しかし2026年、私たちはPerplexity APIやSerperを活用し、複数のソースをクロスチェックさせ、さらに「自分が興味を持ちそうなトピックか？」というフィルターを自動でかけます。

「このグラフ、胡散臭くないか？」「このデザイン、僕のブログのテイストに合っているかな？」これらはかつて、人間にしかできなかった判断です。

GPT-4oや最新のオープンソース視覚モデルをDifyに繋ぎ込むことで、画像という非言語情報を、あなたの価値観で解釈させることが可能になります。

それでは、Difyのワークフロー・エディタを開いて、エージェントの「視神経」を繋いでいきましょう。

「まずはワークフローに『ツールノード』を追加する。

2026年でも、Google検索のインデックススピードはやはり圧倒的だ。

Serper APIを介して、『AI ニュース最新』というクエリを発行するように設定する。

ここでの私流の隠し味は、検索結果をそのままAIに渡さないことだ。

間に『LLMノード（フィルタリング担当）』を挟み、『過去の私の記事と関連性が高いニュースのみを3つ選べ』と命じる。

これでエージェントは、私にとって無価値なノイズを遮断する“有能な秘書”の目を持つことになる」

「次に、最新のマルチモーダル・モデルを司令塔に据える。

Difyの設定画面で『Vision』を有効化。

指示文（Instruction）にはこう書き込む。

『画像が入力された場合、まずその構図と色彩、メッセージ性を分析せよ。

その後、ナレッジ・ベースにある斎藤の美的価値観と照らし合わせ、採用すべきか、修正すべきかを専門家として助言せよ』

よし、これでエージェントは私の『美的センス』まで学習し始めたぞ」

「さあ、実験だ。今朝発表されたばかりの『新型ウェアラブルAI』の製品画像と、そのプレスリリースをエージェントに放り込んでみる。

エージェント：『斎藤さん、このデバイスのデザインはミニマリズムを謳っていますが、我々が第2回で定義した“魔法の杖”としては、少し説明的すぎますね。機能美よりもマーケティング臭が強い。ブログで斬るなら、このUIの煩雑さを指摘すべきです』

……震えた。最新情報を、ちゃんと『私の魂（第2回のデータ）』を通して解釈している。

これこそが、私が求めていた“今を生きる分身”だ」

実況中に気づいた、エージェントを「正気」に保つための注意点です。

ソースの信頼性スコアリング： 2026年はAI生成のフェイクニュースが溢れています。エージェントには『公式サイト（.gov, .edu）』や『信頼済みメディア』のドメインを優先してクロールするよう、検索クエリに制約（site:演算子など）をかけるのが安全です。
「見すぎ」によるコスト増を防ぐ： 画像や大量のWebページを読み込ませるとAPIコストがかさみます。まず『タイトルとスニペット』だけを見て、本当に深く読むべきかをAIに判断させる『2段階インプット構造』にするのが、賢い設計です。