AIでスクショからHTML生成「Screenshot to Code」を使ってみた感想とかかったコスト

今日Twitter(X)で話題になっていた、ウェブページのスクリーンショットを送るとHTMLコードを生成してくれるAIツール「Screenshot to Code」を使ってみました。CSSは、Tailwind CSSを当てているようです。利用するAIはGPT-4 Vision(画像解析ができるGPT-4)、ページ内のダミー画像も生成したいなら追加でDALL-E 3を使います。

使い方

GithubにあるScreenshot to Codeのページの情報を元にローカルにセットアップする方法と、開発者がホストしてくれてる環境に手持ちのOpenAI keyを入れて使う2種類の方法があります。

後者の方が簡単なので、Screenshot to Codeがホストされてる環境でお試しすることにしました。

ホスト環境を使う場合の事前準備

Wikipediaページを生成してみた

準備完了したので、日本語版Wikipediaのトップページを投げて生成してもらいました。

生成ツールに投げてみた日本語Wikipediaスクショ
生成ツールに投げてみた日本語Wikipediaスクショ

投げてから生成完了まで、ノーカット50秒の動画です。あっちゅうまです。

生成されたコードはこちらです。

See the Pen Screenshot to Code by kaori kotobuki (@kaori-kotobuki) on CodePen.

生成後のページのスクショ

感想

生成スピードの速さ、日本語の読み取り、ページの大まかな構造を反映したそれっぽいHTMLコードが生成できているところには驚きつつも、現時点ではイマイチかなと思う部分もありました。

  • Tailwind CSSを当てているだけらしく、スタイルはとてもプレーン
  • ヘッダー部分の要素は再現できているが、ヒーローイメージ(球体とウィキペディアへようこその文字辺り)とその両肩にあるツール(メインページ・ノート・ソースを閲覧 など)はスキップされてしまった
  • 建築の写真は画像のサイズも配置も違ってるのでもうちょい頑張ってほしい
  • 今日の一枚エリアにあるニホンリスの説明がなぜかシマリスになっていた
  • アップロードできる画像サイズに制限があり、縦長のページ全体の再現は難しかった

とはいえ現時点での精度で侮っちゃダメで、数週間もしたらもっと精緻なHTMLコード作れるようになっていそうです。コードはオープンソースで提供されているので、これをカスタムしていけばHTMLのたたき台生成として使えるようになるかもしれません。

かかったコスト

2回試してかかったコストはこちらです。

GPT-4 Turboに$0.09、Image models(DALL-E)に$0.24、合計で$0.33でした。
ダミーイメージ生成をナシにして、GPT-4のコストだけにすると1回あたり$0.045なので7円弱です。激安でした。

関連記事

前の記事へ

ChatGPTで「You're making too many requests, please slow down.」と言われたら、スマホからリトライしよう

次の記事へ

荻窪のタイ古式マッサージで、押されて伸ばされて回されて引っ張られてきた