WebScraping
をテンプレートにして作成
LECTURE
担当科目一覧
コンピュータ概論/2024
データサイエンス/2024
3DCG演習/2024
情報デザイン研究/2024
卒業研究/2024
KEYWORDS
WEB DESIGN
SOCIAL DESIGN
SQUARES
LINKS
九州産業大学
芸術学部
芸術研究科
九産大美術館
九産大図書館
年間スケジュール
動画ニュース他
交通情報
気象・環境情報
危機に備えて
K'sLife
Office365Mail
Tools
SEARCH
開始行:
*Web Scraping
機械学習のためのデータ収集技術
~
**はじめに
Web Scrapingとは、Webサイトから記事情報や画像を抽出する技...
~
***ご注意ください
WebScrapingは、人間が記事を読む場合と違って、プログラムが...
~
***簡単な方法
Webスクレイピングというキーワードで検索すると、Python を...
-Webクローラーツールを使う
[[Google:Webクローラーツール]]
-ブラウザの拡張機能を使う
--Firefox アドオン
---[[DownThemAll>https://addons.mozilla.org/ja/firefox/ad...
---[[WebScrapbook>https://addons.mozilla.org/ja/firefox/a...
--Chrome 拡張機能
--[[Scraper>https://chrome.google.com/webstore/detail/scr...
~
~
**[[Python]] でプログラムを書く
Pythonでは [[Scrapy>Google:Python Scrapy]] という有名なフ...
-[[Python]] がインストールされている必要があります。
-[[Terminal]] を利用します(統合開発環境がある方はそれで...
以下、[[Requests>Google:Python Requests]] によるページの...
~
***Requests によるページの取得
Requests は、Webページを取得・解析するためのライブラリで...
-まずは、pip コマンドで requests をインストールして下さい。
$ pip install requests
注)Python3系であればコマンドは pip3、2系であれば pip で...
-以下のソースを ''sample.py'' として、カレントディレクト...
import requests
r = requests.get('https://design.kyusan-u.ac.jp/index.ht...
print("// HEADER //////////////")
print(r.headers,"\n")
print("// HTML CONTENT ////////")
print(r.content,"\n")
-プログラムの解説
--import 文で Request を読み込みます。
--requests.get()関数でurlを指定すると、ページの情報が取得...
--r.header でページのヘッダー情報が取得できます。
--r.content でページの内容が取得できます。
-カレントディレクトリで以下を実行すると結果が表示されます。
$ python sample.py
-結果をターミナル出力ではなく、テキストファイルとして書き...
$ python sample.py > result.txt
~
***Beautiful Soup による要素情報の抽出
Beautiful Soup は、HTMLを指定してその情報を抽出する場合に...
-まずは、pip コマンドで Beautiful Soup をインストールして...
$ pip install beautifulsoup4
-BeautifulSoup は以下のように2つの引数を指定します。
--第一引数:解析対象を指定
--第二引数:パーサを指定 "html.parser"
-以下を ''sample2.py'' として、カレントディレクトリに置い...
import requests
from bs4 import BeautifulSoup
r = requests.get('https://design.kyusan-u.ac.jp/socialde...
soup = BeautifulSoup(r.content, "html.parser")
print(soup.find("h1"))
-プログラムの解説
--import で Request を、また from で Beautiful Soup から ...
--requests.get() 関数で URL の示すページの情報を読み込み...
--ページのコンテンツを HTMLパーサーで解析して、変数 soup ...
//--パーサーは何を元に解析するかを意味する語で、この事例...
--soup.find でタグ指定すると、当該部分(先頭のひとつ)を...
-カレントディレクトリで以下を実行すると結果が表示されます。
$ python sample2.py
<h1 id="pageTitle"><a href="・・">SocialDesign</a> </h1>
-プログラムの最終行を以下のようにすると、テキストのみ抽出...
print(soup.find("h1").text)
-soup.find では、先頭の1つしか選ばれませんが、soup.find_...
import requests
from bs4 import BeautifulSoup
r = requests.get('https://design.kyusan-u.ac.jp/socialde...
soup = BeautifulSoup(r.content, "html.parser")
for i in soup.find_all("h3"):
print(i.text)
~
//***画像のスクレイピング
//(書きかけです。)
~
~
~
終了行:
*Web Scraping
機械学習のためのデータ収集技術
~
**はじめに
Web Scrapingとは、Webサイトから記事情報や画像を抽出する技...
~
***ご注意ください
WebScrapingは、人間が記事を読む場合と違って、プログラムが...
~
***簡単な方法
Webスクレイピングというキーワードで検索すると、Python を...
-Webクローラーツールを使う
[[Google:Webクローラーツール]]
-ブラウザの拡張機能を使う
--Firefox アドオン
---[[DownThemAll>https://addons.mozilla.org/ja/firefox/ad...
---[[WebScrapbook>https://addons.mozilla.org/ja/firefox/a...
--Chrome 拡張機能
--[[Scraper>https://chrome.google.com/webstore/detail/scr...
~
~
**[[Python]] でプログラムを書く
Pythonでは [[Scrapy>Google:Python Scrapy]] という有名なフ...
-[[Python]] がインストールされている必要があります。
-[[Terminal]] を利用します(統合開発環境がある方はそれで...
以下、[[Requests>Google:Python Requests]] によるページの...
~
***Requests によるページの取得
Requests は、Webページを取得・解析するためのライブラリで...
-まずは、pip コマンドで requests をインストールして下さい。
$ pip install requests
注)Python3系であればコマンドは pip3、2系であれば pip で...
-以下のソースを ''sample.py'' として、カレントディレクト...
import requests
r = requests.get('https://design.kyusan-u.ac.jp/index.ht...
print("// HEADER //////////////")
print(r.headers,"\n")
print("// HTML CONTENT ////////")
print(r.content,"\n")
-プログラムの解説
--import 文で Request を読み込みます。
--requests.get()関数でurlを指定すると、ページの情報が取得...
--r.header でページのヘッダー情報が取得できます。
--r.content でページの内容が取得できます。
-カレントディレクトリで以下を実行すると結果が表示されます。
$ python sample.py
-結果をターミナル出力ではなく、テキストファイルとして書き...
$ python sample.py > result.txt
~
***Beautiful Soup による要素情報の抽出
Beautiful Soup は、HTMLを指定してその情報を抽出する場合に...
-まずは、pip コマンドで Beautiful Soup をインストールして...
$ pip install beautifulsoup4
-BeautifulSoup は以下のように2つの引数を指定します。
--第一引数:解析対象を指定
--第二引数:パーサを指定 "html.parser"
-以下を ''sample2.py'' として、カレントディレクトリに置い...
import requests
from bs4 import BeautifulSoup
r = requests.get('https://design.kyusan-u.ac.jp/socialde...
soup = BeautifulSoup(r.content, "html.parser")
print(soup.find("h1"))
-プログラムの解説
--import で Request を、また from で Beautiful Soup から ...
--requests.get() 関数で URL の示すページの情報を読み込み...
--ページのコンテンツを HTMLパーサーで解析して、変数 soup ...
//--パーサーは何を元に解析するかを意味する語で、この事例...
--soup.find でタグ指定すると、当該部分(先頭のひとつ)を...
-カレントディレクトリで以下を実行すると結果が表示されます。
$ python sample2.py
<h1 id="pageTitle"><a href="・・">SocialDesign</a> </h1>
-プログラムの最終行を以下のようにすると、テキストのみ抽出...
print(soup.find("h1").text)
-soup.find では、先頭の1つしか選ばれませんが、soup.find_...
import requests
from bs4 import BeautifulSoup
r = requests.get('https://design.kyusan-u.ac.jp/socialde...
soup = BeautifulSoup(r.content, "html.parser")
for i in soup.find_all("h3"):
print(i.text)
~
//***画像のスクレイピング
//(書きかけです。)
~
~
~
ページ名: