お問い合わせ

技術コラム

リンクのチェック

投稿日:2025年12月15日|最終更新日:2025年12月15日

書籍やWebの記事の文中には複数のURLが出てくることがあります。しかしWebページは削除されたりURLが変更されたりすることがあります。また、正確なテキストでなければならず、誤脱字が許されません。そのため、編集や校正の際に有効なURLかチェックする必要があります。少量のURLであれば手作業でチェックすることも可能ですが、数が多いと現実的ではありません。

そこでこの記事では、ChatGPTやPythonを活用してテキストやPDFのリンクをチェックする方法を考えてみます。

テキストのリンクをチェック

まずはChatGPTに丸投げしてみましょう。

添付のテキストに含まれるURLがアクセス可能かチェックしてください

ところが短縮URLなどはチェックすることができませんでした。仕方がないので

URLを一覧にしてください。短縮URLを展開してアクセス可能かチェックするPythonスクリプトも書いてください

と頼んでみたところ、URL一覧テキストと、URLテキストを引数としてアクセス結果をまとめたCSVを生成するPythonスクリプトを得ることができました。エラーになったURLだけ一覧にする、出力形式をHTMLにする、といった対応をすれば、エラーになったものだけ手動でチェックすることも容易です(ボット対策などで弾かれることがあります)。

PDFのリンクをチェック

これまたChatGPTに丸投げしてみましょう。

このPDFに含まれるURLを抽出してください

といったプロンプトでURLを取得すれば、テキスト向けに得たPythonスクリプトを利用できます。PDFを引数として、アクセス結果をまとめたCSVを生成するPythonスクリプトに変更することも可能ですね。

リンクの妥当性をチェック

さて、テキストやPDFをもとに「機械的にURLを抽出して、アクセス可能かをチェックする」というのは単にプログラミングの問題で、ChatGPTの力を借りずに解決することもできます。

せっかくなのでLLMらしい活用もしてみましょう。

添付のテキストに含まれる URLがアクセス可能かチェックをしてください。
文脈に合致しているかも確認してください。 URL・リンク切れしているか・内容が妥当か・備考(妥当でない場合の内容の指摘など)、を、最終的に一覧にまとめてください。

というプロンプトを実行してみました(短縮URLは事前にスクリプトで展開しています)。ダミーの例として、

 

ChatGPT(https://chatgpt.com/ja-JP/overview/)は、OpenAI(https://openai.com/)によって開発された大規模言語モデルを活用した対話型AIサービスです。ユーザーは自然言語で質問を投げかけることで、文章生成、要約、翻訳、コードのサンプル作成など、さまざまなタスクを支援してもらうことができます。

また、ChatGPTは教育や学習支援の分野でも利用が広がっています。たとえばKhan Academy(https://www.khanacademy.org/)では学習体験のパーソナライズに活用されており、プログラミング学習のプラットフォームでも解説補助として使われています。

さらに、開発者向けにはAPI(https://platform.openai.com/docs/)が提供されており、独自のアプリケーションやサービスに自然言語処理機能を組み込むことが可能です。技術者はこのAPIを利用することで、FAQの自動応答システムや文章校正支援ツールなどを構築できます。

一方で、ChatGPTの回答内容は常に正確とは限らず、情報源の検証や事実確認はユーザー側に求められます。そのため、信頼性の高い情報を確認する際には、Wikipedia(https://ja.wikipedia.org/wiki/ChatGPT)やニュースメディアなど、他の一次情報源と併用することが推奨されています。

 

というテキストを対象に実行してみたところ、以下のようになりました。

 

 

URLを確認しつつ、文脈に合ったものか判断しているようです。ここではプレーンなテキストを対象にしたからか、WikipediaのURLが見落とされました。URLの数が増えるとさらに見落としは増えそうですが、URL箇所がテキスト上で明示されていれば(例えばMarkdown記法の [text](url) のように機械的に検索しやすいもの)見落としは減ります。また、人力でのチェックと合わせて利用することを考えれば、多少の見落としがあっても利用価値はあると考えられます。

社内勉強会での「索引の作り方」の話題の際に「(生成AIを利用して)索引項目の選定をどれだけ“いい感じ”にできるか」という話が出たのでURLのチェックにも活用してみましたが、それなりに参考になりそうな印象を受けました。索引項目をゼロから選ぼうとする「より詳しく説明している箇所で」「重要そうな」項目を探す必要があるのでまた難易度は上がりそうですが、「この項目の解説ページとしてこのページを選ぶのは妥当か」といったチェックには利用できるかもしれません。また業務の中で必要になったら活用してみようと思います。