舞台:株式会社トリリス精機
登場人物:相馬直哉(情報システム・実務担当)、三浦智子(情報企画部マネージャー)
株式会社トリリス精機では、社内情報とAIを活用した“社内FAQチャットボット”を導入しました。
非構造化データがAIを止める!現場で出来るAI-Ready化
9:15
相馬直哉のデスクにあるチャット画面が、不満げな通知音を鳴らした。
「相馬さん、これ全然ダメです。使い物になりません。」
送り主は、製造ラインの若手リーダーだった。
相馬は眉をひそめ、昨日リリースしたばかりの『社内FAQチャットボット(β版)』のログを開く。
置き場所は一本化した。バックアップも固めた。その完璧に整頓された“ナレッジハブ”を、最新の生成AIに読み込ませたはずだった。最強の頭脳が、我々の知恵を語り出す――その期待は、わずか数時間で裏切られた。
『ライン3のセンサーA、感度調整の基準値は?』
現場からの切実な問いに対し、AIの回答はこうだ。
『申し訳ありません。関連する情報が見つかりません。一般的なセンサー調整の手順は以下の通りです……』
嘘だ。相馬はマウスを握りしめる。そのマニュアルなら、間違いなくナレッジハブの「製造部」フォルダに入っている。
「なんで読まないんだ……。検索インデックスは正常、アクセス権限も付与済みだぞ。」
9:30
焦る相馬の背後で、いつもの足音が止まった。
「インフラは繋がっている。でも、“言葉”が届いていないのね。」
三浦智子だった。手には温かいコーヒーを持っているが、目は笑っていない。
「見てみましょう。AIが何を“読まされている”のかを。」
会議室の大型モニターに、問題のマニュアルファイルを映し出す。
人間が見れば、それは立派なマニュアルだった。紙で保管されていたものを複合機でスキャンしたPDFファイル。『ライン3調整基準書』という表題も明記されている。
「これのどこが悪いんですか?」
「相馬くん、マウスでその文字をなぞってみて。」
言われるままカーソルを動かす。しかし、文字を選択することはできない。範囲指定しようとすると、ページ全体が青く囲まれるだけだ。
「画像……ですね。」
「そう。人間には『文字』に見えるけれど、AIにとっては『風景写真』と同じ。ただのピクセルの集合体よ。」
三浦はモニターの隅を指さす。
「OCR(光学文字認識)がかかっていない画像PDF。これが第一の壁。AIは中身を読めないから、ファイル名だけで推測して、自信なさげに『分かりません』と答えるしかなかった。」
次は、技術部が作成した Word 形式の『トラブルシューティング集』を開く。こちらは文字を選択できるテキストデータだ。
「これなら読めるはずです。」
「でも、AIは要約に失敗している。なぜだと思う?」
三浦がスクロールする。全50ページ。見出しのフォントは太字で大きくされているが、文書構造としての『見出し設定』は使われていない。ただのベタ打ちの長文が、延々と続いていた。
「AIはね、文脈の区切りが分からないの。『現象』と『対策』がどこで分かれているのか。構造のない長文は、AIにとって句読点のないお経を聞かされるようなものよ。」
さらに三浦は、営業部の『顧客連絡先一覧.xlsx』を指差した。
「これは論外。個人の携帯番号が生で入っている。AIサービスのセキュリティフィルターが『個人情報(PII)』として検知して、読み込みを拒否しているわ。」
相馬は天井を仰いだ。
棚は作った。本も並べた。けれど、その本はページが貼り付いて開けなかったり、白紙だったりしたのだ。
「……僕たちがやるべきなのは、高度なプロンプトエンジニアリングじゃなかったんですね。」
「ええ。もっと泥臭い仕事。『翻訳』よ。」
三浦はきっぱりと言った。
「人間用の文書を、機械が読める言葉(マシンリーダブル)に整える。それができて初めて、AIは我々の同僚になれる。」
13:00
まずは複合機の設定画面に入り、スキャン時の保存形式を『サーチャブルPDF(OCR付き)』に固定。過去の画像PDFは、変換ツールでテキスト付きに処理していく。
次に Word ファイル。見かけだけの太字を解除し、ホームタブにある『見出し1』『見出し2』のスタイルを適用していく。
(まるで、HTMLのタグ付けだな……)
インフラエンジニアである彼には馴染み深い作業だった。見た目ではなく、構造を定義する。ここが大見出し、ここが小見出し。そうやってタグ付けすることで、AIは文章を意味の塊(チャンク)として認識できるようになる。
個人情報が含まれるファイルは、マスタ管理されたIDや「営業担当へ連絡」という役割名に置き換えた。
17:15
窓の外はすっかり暗くなっていた。
相馬は再びチャットボットを開き、震える指で同じ質問を打ち込んだ。
『ライン3のセンサーA、感度調整の基準値は?』
カーソルが点滅する。一秒、二秒。
AIが滑らかに文字を紡ぎ始めた。
『基準値は45.5です。ただし、気温が10度以下の場合は補正が必要です。詳細は以下のドキュメントの3ページ目を参照してください。』
回答の下に、青いリンクが表示される。
[出典] ライン3調整基準書.pdf (正本URL)
クリックすると、該当のPDFが開き、求めていた数値がハイライトされていた。
「……よしっ。」
小さくガッツポーズをした相馬の肩を、三浦が軽く叩いた。
「お疲れ様。これでようやく、スタートラインね。」
「AIは魔法使いじゃなかったです。ただの、すごく真面目な読書家でした。」
「そうね。私たちが丁寧に書けば、丁寧に返してくれる。」
17:20
三浦の声が少し低くなった。
「でも、気をつけて。読めるようになったということは、もしそこに『古い嘘』が書いてあったら、AIはそれを真実として世界中に語りふらすってことよ。」
モニターの光が、二人の顔を青白く照らす。
読み込ませたフォルダの隅に、5年前の日付のファイル『旧・安全基準.pdf』が亡霊のように残っているのが、相馬の目に入った。
今回の物語で相馬さんが直面したのは、多くの企業が生成AI導入(特にRAG:社内データ検索)で最初にぶつかる「非構造化データの壁」です。
「データはあるのにAIが答えてくれない」「トンチンカンな要約をする」という現象の9割は、AIの性能不足ではなく、食べさせた文書の「消化不良」に原因があります。
私たちインフラエンジニアの視点で見ると、サーバーやネットワークがつながっていても、パケットの中身が暗号化されていたり、プロトコルが合わなければ通信できないのと同じです。AIにとっての「プロトコル」を合わせる作業、それが「AI-Ready(エーアイ・レディ)化」です。現場ですぐに取り組めるポイントは以下の3点です。
1.「絵」を「文字」にする(OCRの常時適用)
紙をスキャンしただけのPDFは、AIの目には「風景写真」と同じに見えています。文字情報が含まれていないため、検索もできず、内容も理解されません。
- インフラ側の対策:複合機にOCRが連動している場合には、複合機(MFP)のデフォルト設定を「PDF」から「サーチャブルPDF(OCR付き)」に変更してください。これだけで、明日から作られるスキャンデータはすべてAIが読めるようになります。
- 過去データの対策:Acrobat Pro やPDF編集ソフトのバッチ処理機能を使い、主要なフォルダを一括でテキスト認識させます。
2.「見た目」ではなく「構造」で作る(スタイルの活用)
Word や PowerPoint で資料を作る際、見出しを「太字+フォントサイズ大」で表現していませんか? 人間の目には見出しに見えても、AIには「ただの大きな文字が混じった長文」として処理され、文脈の切れ目(チャンク)を誤認する原因になります。
- 対策:Word の「ホーム」タブにある「スタイル(見出し1、見出し2……)」機能を使いましょう。
これはHTMLでいう<h1><h2>タグと同じ役割を果たします。構造化された文書は、AIが「ここから話題が変わった」と正確に理解できるため、回答精度が劇的に向上します。
3.「個人」を「役割」に変える(クレンジング)
AIに読ませるデータに、個人の携帯番号やメールアドレスが含まれていると、AIサービスのセキュリティフィルター(PII検出)に引っかかり、学習や参照が拒否されることがあります。
- 対策:マニュアルや規定類からは個人名を削除し、「担当営業」「サポート窓口」といった「役割名」に書き換えましょう。これはセキュリティリスクを下げるだけでなく、担当変更のたびにマニュアルを修正する手間を省くことにもつながります。

AI-Ready化(AIにとっての「プロトコル」を合わせる作業例)
AIは魔法使いではありません。私たちが用意したテキストしか読めない、真面目な読書家です。
「スキャン設定を変える」「スタイル機能を使う」。こうした地味なインフラ整備とルールの徹底こそが、高価なGPUサーバーを買うよりも確実に、御社のAIを賢くします。
さて、AIが社内データをスラスラと読めるようになりました。しかし、ここで新たな問題が浮上します。
もし、AIが読み込んだそのマニュアルが、「5年前に廃止された古い手順書」だったら?
AIは自信満々に、古い誤った手順を社員に教えてしまうでしょう。
次回予告(内容紹介)
次回、第5回では、AIに嘘をつかせないための「データの捨て方」とライフサイクル管理について解説します。
本コラムの主旨は単に情報やノウハウを伝えることではなく、読者の方からのフィードバックを受けて各テーマの解像度を高め、実践を積み上げていきたいというものです。
皆様の組織ではどのような課題を持っていますか、解決した事例はありますか。コラムの中で是非ご意見を紹介させてください。
▼是非こちらのフォームよりご意見、ご感想をお寄せください。▼
■著者紹介■
村松 真(むらまつ まこと)
出身:東京都稲城市
ひとこと:情シスの皆様に寄り添うコラムをお届けします
Microsoft Top Partner Engineer Award 2023年 受賞
エンジニアとしてのキャリアに加え、経営や組織開発、文書管理、Microsoft の製品知識、情報セキュリティなど幅広い視点で、中堅中小企業のお客様を支援。

大学に入学した1982年からコンピューターにさわりはじめ、社会人になってからはプログラマー、SE、開発管理などソフトウェア開発全般を経験しました。その後日本マイクロソフト社の有償サポートのマネージャを経てソフトクリエイト社に入社しました。
ソフトクリエイト入社後はサーバー構築やクライアントのドメイン移行や運用支援など、インフラ構築系案件のプロジェクトマネージャーとして経験を積んできました。
2019年に中小企業診断士の資格を取得し、コンピューターシステムだけではなく、経営視点や組織開発、文書管理、情報セキュリティなど様々な角度からお客様のソリューション支援を行っています。
長年情シスのお客様と接していて、頑張っているのになかなか報われない姿をみてどうやったら応援できるだろうかと考え続けてきました。
DXによる変革と、AI活用による業務変革がすべてのお客様に求められる現代において、情シスの価値が爆上がりするチャンスが到来しました。
この機を捉えてブレイクする情シスに寄り添うコラムをお届けしたいと思います。


