doestar
(ドエスタ)
(ドエスタ)
Playwright道場へようこそ~
Playwrightは、Microsoft製のWebテストと自動化のためのフレームワークです。
自動テストや、Webスクレイピング(ウェブサイトの情報抽出)にとても便利なフレームワークです。一緒に学んでいきましょう。
ぺんぞう
実践的なWebスクレイピング技術を学ぼうぞ
Playwrightは、2024.1.27 時点でもGithub で最も注目される自動テスト・Webスクレイピングフレームワークじゃ。もし、どのフレームワークを使えばいいか迷ったらまずPlaywrightを試してみてはいかがかな?
さあ、稽古じゃ~~~
【入門編】 インストールと自動テスト
まずは、下記の記事を参考にPlaywrightのインストール、そして実際に実行してみましょう。No.1だけでもOK。
No | 説明 | 投稿記事 |
1 | Playwrightの概要とメリット、インストール方法codegenによる自動テストコードの生成方法の紹介 | 【2023年】Python Playwrightで自動テストしてみよう |
2 | page.goto(url)によるエラー発生時の対処方法 | 【2023年】Python Playwrightで自動テストしてみよう(2) page.goto エラー対策 |
3 | Safari、Firefox上でテストする方法 | 【2023年】Python Playwrightで自動テストしてみよう(3) url読み込み / SafariとFireFox |
【実践編】Webスクレイピング
つぎに、Webスクレイピングを使って、必要な情報を抽出してみましょう。
No | 説明 | 投稿記事 |
1 | HTML/CSSのおさらい page.locator()でPage情報抽出 サイトのPage情報確認方法 | 【2023年】Python PlaywrightでWebスクレイピング(1) page.locator()とPage情報確認方法 |
2 | Table情報抽出 get_attribute()でURLを取得 | 【2023年】Python PlaywrightでWebスクレイピング(2) – Table情報抽出 / get_attribute() |
3 | url.csvによるデータ収集 pate.locator().all_inner_texts()でタイトル名と登録日を一括取得 | 【2023年】Python PlaywrightでWebスクレイピング(3) – URLリストによるデータ収集とall_inner_texts()を用いた一括取得 |
4 | tracingによる処理時間分析 | 【2023年】Python PlaywrightでWebスクレイピング(4) – tracingによる処理時間分析 – |
5 | asyncioを用いた非同期処理による高速化 | 【2023年】Python PlaywrightでWebスクレイピング(5) 非同期と並列処理で高速化(asyncio) |
6 | ダウンロードボタンからのファイルダウンロード(同期/非同期) | 【2023年】Python PlaywrightでWebスクレイピング(6) Downloadボタンでファイル保存(sync/async) |
さいごに
Playwright道場を閲覧ありがとうございます。
自分の仕事に活用されている方、副業にトライしている方、また仕事に副業にトライしようと考えている方がこの記事を読んで参考になれば幸いです。
副業をお考えの方へ
いくつか副業サイトを紹介しておきますね。
クラウドワークス
募集している仕事数が多いです。2023/4/12現在で募集中の仕事数は10,000件以上ありました。
データ収集に関して、300程度の募集中の仕事が見つかりました。他にも同様のサービスでランサーズもありますね。
Bizseek
2023/4/12現在では募集されている仕事数は少なかったですが、手数料が最安の10%。
参考
Playwright 公式サイト
– Locator
– inner_text
– get_attribute
– all_inner_texts
Playwright (GitHub)