パラキャリ・サラリーマン|過去の未来の自分へのメモ

本業サラリーマンしながら、副業から始めた事業で起業。過去の自分に向けて、もっと早く知っていたら役に立った事を雑記ブログで気楽に書いていきます。過去の自分と同じく仕事好き・副業から起業したいと考えている人の参考にでもなれば嬉しいです。

スクレイピングツール37選|無料・有料からWebサービス・ソフトウェア・プラグインを網羅

f:id:zakkiworkdiary:20181015181308p:plain

世の中には様々なスクレイピングツールがあります、その中でも使えるスクレイピングツールを37選、無料有料、そしてインストールが必要なソフトウェアなのか、WEBサービスなのかをそれぞれ特徴別に分けてご紹介します。

下記それぞれご紹介していきます;

  • 無料のWEBサービス型スクレイピングツール
  • 無料のソフトウェア型スクレイピングツール
  • 無料のプラグイン型スクレイピングツール
  • 有料のWEBサービス型スクレイピングツール
  • 有料のソフトウェア型スクレイピングツール
  • その他スクレイピングツール
  • 自分でスクレイピングするために

無料のスクレイピングツール

無料のスクレイピングツールの多くは、有料版の機能が制限されたお試し版である事が多いです。

なので、クロールできるサイト数が限られていたり、そもそも使用できる期間が決まっていたりします。

小規模なスクレイピングであれば、お試し版でも可能ですが、複雑で大量なスクレイピングには有料版をおすすめします。

下記では有料サービスの無料版でも、非常に使えるスクレイピングツールを「無料」としてご紹介します。

無料のWEBサービス型スクレイピングツール

最近のスクレイピングツールはWebサービス版が増えてきました。無駄なソフトウェアをインストール必要も手間もなく、常に新しい状態で使えるソフトウェアは人気です。

Webhose.io

f:id:zakkiworkdiary:20181015180030p:plain

https://webhose.io/

Webサービス型なので、インストールなどの手間が必要ありません。さらに、ブログや記事、Eコマースなどの専用のスクレイピングに特化しています。

80legs

f:id:zakkiworkdiary:20181015180049p:plain

http://80legs.com/

Webベースのスクレイピングツールです、URLを記入するだけとスクレイピングしたい箇所を選択するだけでスクレイピングが完了します。無料ならクロールが1つ動かせ、10,000URLまでスクレイピング可能です。

uScraper

f:id:zakkiworkdiary:20181015180101p:plain

https://www.uscraper.com/

無料でもスクレイピングのダッシュボードが使えるスクレイピングツールです。有料版でも月10ドル前後と、かなり低価格帯で提供しているスクレイピングツールです。

Crawl Monster

f:id:zakkiworkdiary:20181015180111p:plain

https://www.crawlmonster.com/

SEOやマーケティング担当がサイトオーディットを行う専用のスクレイピングツールです。基本的なサイトのスクレイピングから、問題のあるページの発見などのサービスがあります。フリー版は100URL、1サイトまでしか使えません。

Crawly

f:id:zakkiworkdiary:20181015180127p:plain

クローリングしたWEBサイトURLと、Eメールアドレスを提供するとスクレイピングした結果を、CSVやJSONでメールへ届けてくれます。細かい調整などはできません。

無料のソフトウェア型スクレイピングツール

ソフトウェア型のスクレイピングツールは、ソフトのダウンロードとインストールが必要です。

しかしインストールすることによって、自社のオンプレサーバーに実装することや、細かい設定なども可能になります。

Octparse

f:id:zakkiworkdiary:20181015180137p:plain

http://jp.octoparse.com/

Import.ioと同じように実際にサイトを除きながらスクレイピング対象を選択できます。UIもわかりやすく、感覚的に操作ができます。無料でもお使いになられますが、1万件までで、クローリングも10までです。

parsehub

f:id:zakkiworkdiary:20181015180150p:plain

https://www.parsehub.com/

ソフトウェア型のスクレイピングツールです。URL指定とスクレイピングしたい箇所を選択するだけで、スクレイピングを実行します。無料版は40分に200ページまでしか対応できません。有料版には様々なサポートが揃っています。

Coyotek WebCopy

f:id:zakkiworkdiary:20181015180203p:plain

https://www.cyotek.com/cyotek-webcopy

Windows用の無料のスクレイピングソフトです。HTMLから構成情報を取得しスクレイピングを行います。Javascriptにも対応していますっっっs。

HTTrack

f:id:zakkiworkdiary:20181015180214p:plain

https://www.httrack.com/

Windows、Macにも対応したスクレイピングツールです。選択した対象をスクレイピングするのではなく、対象のサイトの画像などを含む構成情報も丸々ローカルにコピーすることができます。

Getleft

f:id:zakkiworkdiary:20181015180225p:plain

https://sourceforge.net/projects/getleftdown/

無料で公開されているスクレイピングツールです。ユーザーが設定するサイト情報や、画像などもまとめてダウンロードすることができます。

無料のプラグイン型スクレイピングツール

最近ではChromeなどのプラグインとしてのスクレイピングツールも増えてきました。

操作は実際に開いているページをスクレイピングするので、感覚的にわかりやすく、別のソフトを立ち上げる事や、Webサービスを開く必要がなくお手軽に行なえます。

Web Scraper

f:id:zakkiworkdiary:20181015180237p:plain

https://www.webscraper.io/

Chromeの拡張機能(プラグイン)なので、特にソフトウェアなどをインストールする必要はありません。ごっそりとサイト構成をスクレイピングしてくる使用なので、細かい調整には向きませんが、シンプルなのサイトには適しています。「Cloub Web Scraper」はクラウド型の有料版です。スクレイピングするページによって値段がかわります。

Scraper

f:id:zakkiworkdiary:20181015180247p:plain

https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd?hl=jp

完全無料のChrome拡張機能です。シンプルな作りで、アクセスしているサイトをスクレイピングしてくれます。シンプルなWebサイトに適しています。

Outwit Hub

f:id:zakkiworkdiary:20181015180258p:plain

https://www.outwit.com/products/hub/

Chromeを使わない人にはFirefoxようのスクレイピングプラグインもあります。使い方もシンプルで、簡単な構成のWebサイトスクレイピングに適しています。

Web Robots / Instant Data Scraper

f:id:zakkiworkdiary:20181015180312p:plain

https://webrobots.io/

Chromeプラグインは無料で提供されています。感覚的な使い方と、シンプルなUIで電話帳サイトなどリスト系のサイトのスクレイピングが適しています。

有料のスクレイピングツール

本格的なスクレイピングを行うときはやはり有料がおすすめです。特にエンタープライズ向けなどは、上記の無料版である程度使用感を確かめてから、有料版に進むのがよいでしょう。

有料のWEBサービス型スクレイピングツール

有料のWebサービスの中には、ユーザーは何をクロールするか指定するだけであとはすべて会社側がサービスとしてクロールを請け負うという形もあります。

import.io

f:id:zakkiworkdiary:20181015180328p:plain

https://www.import.io/

URLを入力するだけで、誰でも簡単にWebサイトをスクレイピングできるサービスです。ページの追加や、スクレイピングの対象の指定など、感覚的に操作できるすぐれものです。Webサービスなので、何もインストールなどする必要がないことも良いところです。

以前はこのサービス無料だったので、下記関連記事で、実施に物件データをスーモからスクレイピングした事があります。

Dexi.io

f:id:zakkiworkdiary:20181015180357p:plain

https://dexi.io/

import.ioと同じようにWebサービスなので、無駄なインストールやダウンロードは必要ありません。UIや使い方も大変シンプルで使いやすい使用となっています、スクレイピングを自動で動かし続けることや、その後の分析サービスまでも対応しています。

Connotate

f:id:zakkiworkdiary:20181015180408p:plain

https://www.connotate.com/

Connotateは企業向けのクローリングサービスを行うWEBサービスです。特にユーザーが何かを設定するツールを提供しているわけではなく、スクレイピング関連のコンサルティングからデータの取得までを行っています。

Content Grabber

f:id:zakkiworkdiary:20181015180417p:plain

http://www.contentgrabber.com/

スクレイピングツールというよりかは、スクレイピングのコンサルティングと実際のクローリング、データクレンジングを行う企業のサービスです。

Screen Scraper

f:id:zakkiworkdiary:20181015180431p:plain

https://www.screen-scraper.com/

ユーザーはプログラミングなどを全くする必要がなく、指定のサイトと納品データ・フォーマットを選ぶだけでスクレイピングを実行してくれます。

Salestools.io

f:id:zakkiworkdiary:20181015180441p:plain

https://salestools.io/

主に営業やセールスの新規開拓の為のメールアドレス取得や、電話番号取得に特化したスクレイピングツールです。取得したいドメインを指定するだけで所属する企業のメールアカウントなどをスクレイピングします。

ScrapeHero

f:id:zakkiworkdiary:20181015180453p:plain

https://www.scrapehero.com/

エンタープライズ用に低価格でスクレイピングを提供するサービスです。ウェブサイトでは何でもスクレイピングできます。と謳っています。

有料のソフトウェア型スクレイピングルール

インストール型の中には、Windows専用もものなどもあります。自社のIPアドレスや、サーバー環境を使いカスタマイズしたスクレイピングを行うには良いでしょう。

Fminer

f:id:zakkiworkdiary:20181015180502p:plain

http://www.fminer.com/

ソフトウェア型のスクレイピングツールです。WindowsとMacにも対応しており、プロ版はODBCへの直接接続ができます。

Grepsr

f:id:zakkiworkdiary:20181015180515p:plain

https://www.grepsr.com/

有料のソフトウェアです。自分でプロジェクトをソフトウェアで作成し、それを送信すると人が実際にレビューしてセットアップしてくれます。プロのサポートを受けながらスクレイピングできるユニークなサービスです。

websundew

f:id:zakkiworkdiary:20181015180524p:plain

http://www.websundew.com/

Windows専用のスクレイピングソフトウェアです。感覚的に操作できます。また、有料版ではありますが、15日間の無料トライアルも用意されています。

Mozenda

f:id:zakkiworkdiary:20181015180532p:plain

https://www.mozenda.com/

クラウドベースのソフトウェアから、オンプレミスのサービスも提供している、エンタープライズ向けのスクレイピングツールです。カスタマーサービスもしっかりしています。

Easy Web Extract

f:id:zakkiworkdiary:20181015180545p:plain

http://webextract.net/

Windows向けのスクレイピングソフトウェアを提供しています。シンプルなUIでスクレイピングの対象を選択し実行します。無料お試し版も用意してあり、2週間のトライアルが行なえます。

Helium Scraper

f:id:zakkiworkdiary:20181015180556p:plain

http://www.heliumscraper.com/en/index.php?p=home

Windows向けのスクレイピングソフトウェアです。より感覚的な動作を使い、スクレイピングの対象を選択、データの加工などを行います。

Web Content Extractor

f:id:zakkiworkdiary:20181015180607p:plain

http://www.newprosoft.com/

Windows専用のスクレイピングソフトです。誰でも使えるような操作方法やUIを使い、スクレイピング行います。

WebHarvy Web Scraper

f:id:zakkiworkdiary:20181015180616p:plain

https://www.webharvy.com/

Windows用のスクレイピングソフトです。スケジュールを設定することや、細かい設定もプログラミングなしで行えます。また、Chromeを使用していることも特徴的です。

Winautomation

f:id:zakkiworkdiary:20181015180628p:plain

https://www.winautomation.com/product/

Windows用に動くスクレイピングソフトですが、細かいデータの処理の自動化を行える、今話題のRPAに近いソフトです。30日間の無料体験版もあります。

その他のスクレイピングツール

WEBサービスでもなければ、ソフトウェアでもない、そしてプラグインでもないスクレイピングツールもあります。

無料のその他スクレイピングツール

下記は特にお金をかけずにスクレイピングを行うことができるツールです。中にはPythonなどのコーディングは必要になってくるものもあります。

Googleスプレッドシート

f:id:zakkiworkdiary:20181015180640p:plain

https://www.google.com/sheets/about/

誰でもしっているGoogleスプレッドシートですが、「ImportXML」という関数を使うことで指定のサイトの構成を取得できます。行を上手く組み合わせることで、サイト全体の構成をスクレイピングすることができます。

quickcode.io

f:id:zakkiworkdiary:20181015180650p:plain

quickcode.io

quickcode.ioはスクレイピングツールではなく、スクレイピングを自分で行う為にRやPythonなどのコードを学べるサービスです。スクレイピングに特化しているサービスなので、スクレイピングから、データサーバーへのアップロード、ダウンロードまでを学べます。

Beautiful Soup

f:id:zakkiworkdiary:20181015180700p:plain

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Beautiful Soupはツールではなく、Pythonのライブラリです。PythonでBeautiful Soupのライブラリを使うことで、サイトの構成化を行ってテーブルを作ったり、特定のクラスの抽出などを無料でコーティングすることができます。

Common Crawl

f:id:zakkiworkdiary:20181015180708p:plain

http://commoncrawl.org/

オープンソースのスクレイピングサービスを提供しているウェブサイトです。サイトからS3バケットにアクセスでき、誰でもスクレイピングしたデータやプロジェクトが閲覧できます。

WP Web Scraper

f:id:zakkiworkdiary:20181015180719p:plain

http://wp-ws.net/

ワードプレスのプラグイン機能として使えるスクレイピングツールです。ワードプレスからスクレイピングしたい対象などを予め設定しておき、ショートコードなどで記事に貼り付けることで、スクレイピングした結果を公開することができます。

有料のその他スクレイピングルール

有料版も、優秀なAPIサービスなどが用意されています。自社でスクレイピングをしようしたサービスなどを開発したい時など便利です。

Scrapinghub

f:id:zakkiworkdiary:20181015180734p:plain

https://scrapinghub.com/

クラウドベースのスクレイピングツールで、ScrapinHubがクローリングしたいページを構成化されたデータに変換します。開発者がAPIなどを使ってそれらにアクセスすることができます。

Diffbot

f:id:zakkiworkdiary:20181015180743p:plain

https://www.diffbot.com/

スクレイピングを行う上でのウェブ構成情報を構成化するAPIを提供しているスクレイピングサービスです。開発者などがAPIを使うことでクローリングしやすくするものです。

自分で行うスクレイピング

スクレイピングは難しそうにも思えますが、上記のBeautiful SoupやAPIサービスなどを使用して思ったより簡単に自分で行うこともできます。

下記スクレイピングの為の書籍とPython の基礎知識があれば、自身で簡単なスクレイピングできてしまいます。

Python ユーザーには▼

Rユーザーには▼

Pythonをそもそも基礎から学びたい、という方にはオンラインコースがオススメ▼

はじめてのPython 少しづつ丁寧に学ぶプログラミング言語Python3のエッセンス