機械学習では、100枚/1,000枚単位で画像が必要になる場合があります。
Mac標準搭載の自動化ソフトAutomatorで、収集可能かどうか試してみました。
Contents
環境など
Mac OS 10.13.3
Safari
Automator
Automatorの設定
・Safariの現在のWebページを取得
・WebページからイメージのURLを取得
「URLを取得するイメージ」では、以下の選択が可能です。
1.「このWEBページ上にあるイメージ」現在表示されているサムネール画像です。こちらは解像度が低いですね。
2.「このWEBページからリンクされているイメージ」リンク先の画像です。サムネールよりは解像度が高いことが期待できます。
・URLをダウンロード
「場所」でダウンロード先を指定します
これで、Safariで一番上に表示されているページの画像を収集します
検索エンジンで画像検索・自動収集
各検索エンジンで「メロン」をキーワードに検索。画像検索表示をSafariに表示した状態でAutomatorを動かします。結果は以下の通りでした。
サムネール画像の収集
1.「このWEBページ上にあるイメージ」現在表示されているサムネール画像です。解像度が低いです
こちらで試してみたところ、
Google:○
bing:○
Yahoo:○
いずれも成功しました!
ただし、ページを構成している画像(ロゴ等)も収集されてしまう、という欠点が露呈しました。
リンク先の画像の収集
2.「このWEBページからリンクされているイメージ」リンク先の画像です。サムネールよりは解像度が高いことが期待できます。
次に、リンク先画像の取得を試してみましょう
Google:×
bing:○
Yahoo:○
Googleは収集不可となりました。これは検索エンジンの方で負荷回避のために接続をキャンセルしているのかもしれません。
bingとYahooでは、数十枚程度の自動収集は可能ということが判明しました。
100枚程度の自動収集
次に、画像検索ページのページをスクロールすることで100枚程度の画像を表示した状態で、Automatorを動かしてみましょう。
bing:△(上限枚数あり?)
Yahoo:△(上限枚数あり?)
数十枚まではダウンロードできましたが、表示された画像の数よりは明らかに少ないです。
マクロ的な動きの動作に関しては、やはりどこかでキャンセルされる模様です。
結論
数十枚程度であれば検索からの自動収集が可能ですが、それ以上の枚数となると別の手段を講じる必要があるみたいです。
それと、bingとYahooでは検索結果が多少異なるので、とりあえず両方の画像検索を試せば、100枚程度の収集は可能であると思います。(検索ワードによっては、強く似通ってしまうかもしれませんが)