DataScience
をテンプレートにして作成
LECTURE
担当科目一覧
コンピュータ概論/2024
データサイエンス/2024
3DCG演習/2024
情報デザイン研究/2024
卒業研究/2024
KEYWORDS
WEB DESIGN
SOCIAL DESIGN
SQUARES
LINKS
九州産業大学
芸術学部
芸術研究科
九産大美術館
九産大図書館
年間スケジュール
動画ニュース他
交通情報
気象・環境情報
危機に備えて
K'sLife
Office365Mail
Tools
SEARCH
開始行:
*データサイエンス
Data Science
~
データサイエンス(Data Science)とは、データそのものの性...
数値や文字(カテゴリ)として得られるデータを統計的手法や...
関連する諸分野との関係を図で表すと、以下のようになります。
[[GoogleImage:Data Science Machine Learning AI]]
~
***CONTENTS
#contents2_1
~
**はじめに
'''''データ至上主義の限界'''''
データサイエンスは「x は A のグループに属する」とか「Aよ...
しかし、それをそのまま未来のデザインに適用してよいか・・...
例えば、採用面接で Aさん、Bさんのどちらを採用するか・・と...
また例えば、A,B どちらの商品企画を実際に採用するか・・に...
要するに、データというものは参考にはなりますが、そればか...
~
~
**データサイエンス序説
***モデルを見出すこと
データサイエンスの最大の関心事は、物事の背景にある「関係...
「気温が上がると、商品Aの売上が上がる」、「こういう動作を...
「アクセルを踏み込むとスピードが上がる」のように、操作す...
~
***BigDataの活用
しかし、人間の感覚・知覚や記憶力には限界があります。事項...
例えば、あるスーパーマーケットにおいて一定期間中の商品の...
発見された連動関係を未来に利用するかどうかを決めるのは人...
~
***データサイエンスにできること
-判別:情報の判断・仕分け・検索、音声・画像の認識、異常検...
-予測:数値予測、ニーズ・意図予測、マッチングなど
-実行:作業の自動化、表現生成、行動の最適化など
~
~
**関数について
***関数の式
関数とは「入力と出力(ああすればこうなる)」の関係を表し...
y = f ( x )
教科書に出てくる関数の式ですね。ここで嫌になる方もいるか...
y = ax +b
と書くことができます。この「a, b によって特徴づけられた、...
~
***数学の教科書であれば・・
2つの点 (2,5) , (4,9) を通る直線の式を y = ax + b として...
5 = 2a + b
9 = 4a + b
これを解いて、a = 2, b =1 ( 直線の式は y = 2x + 1)が答...
ここまでだと全然面白くないのですが、では「 x = 10 のとき...
しかし、現実的ではありません。
~
#image(LeastSquaresMethod.png,right,30%)
***実際の問題になると・・
数学の問題というのは、与えられるデータの数も値も、手計算...
y = ax + b という直線的な関係を前提とした場合、データが2...
しかし、実際に複数のデータをグラフにプロットすると、明ら...
現実世界から得られるデータには様々な誤差が含まれていたり...
そこで実際には、[[最小二乗法>Google:最小二乗法]]という[[...
データサイエンスがやろうとしていることは、基本的にこの応...
実際の現象は非常に複雑で、要因(変数)が多数ある(x0, x1,...
~
***プログラム例
上記の計算を実際に行うプログラムの例を以下に掲載していま...
ipynb(JupyterNotebook)形式で、GitHubに置いていますが、...
-GitHub:[[LeastSquaresMethod.ipynb>https://github.com/ko...
-nbviewer:[[LeastSquaresMethod.ipynb>https://nbviewer.ju...
~
~
**説明変数と目的変数
データサイエンスでは、入力と出力、原因と結果など、2つの...
関数モデルを '''y = f(X) ''' と書いた場合の、X が説明変数...
~
***説明変数:explanatory variable
物事の原因となる変数。一般に x を使います。文献によってい...
-特徴量 feature / attribute
-データ data
-予測変数 predictor variable
-独立変数 independent variable
-入力 input
~
***目的変数:target variable
物事の結果(予測)となる変数。一般に y を使います。文献に...
-ラベル label
-ターゲット target
-応答変数 response variable
-従属変数 dependent variable
-出力 output
~
***付記
各種記事では X vs Y の組み合わせは以下のパターンが多いよ...
-説明変数 vs 目的変数
-特徴量 vs ラベル
-データ vs ターゲット &small(scikit-learn ではこの表現);
-予測変数 vs 応答変数
-独立変数 vs 従属変数
-入力 vs 出力
~
~
**データサイエンスの手法
***概要
まずは、様々な手法を分類した事例です。
-教師あり学習
--分類
--回帰
-教師なし学習
--クラスタリング
--次元圧縮
-強化学習
--機器制御
--戦略の構築(囲碁・将棋など)
-その他
--推薦(Recommend) &small(教師あり、教師なし);
--異常検知 &small(教師あり、半教師あり、教師なし);
--文章・音声・画像の生成
--同、変換
~
***データの取得
データサイエンスの学習や実践には、大量のデータが必要にな...
-[[OpenData]]
-[[WebScraping]]
~
***データの読み込み|ReadData
統計処理を行うには、.csv や .xlsx などのデータファイルを...
-通常の Python環境で作業する場合 > [[Pandas]]
-GoogleColaboratory で作業する場合 > [[GoogleColaborator...
~
***可視化|Data Visualization
可視化とは、物事の関係性を視覚的に捉えられるように、デー...
-詳細:[[DataVisualization]]
~
***線形回帰|Linear Regression
-線形回帰は、''説明変数'' X と''目的変数'' y との間にある...
-詳細:[[LinearRegression]]
~
***ロジスティック回帰|Logistic Regression
-ロジスティック回帰とは、線形回帰分析を分類問題に応用した...
-詳細:[[LogisticRegression]](準備中)
~
***サポートベクターマシン|Support Vector Machine(SVM)
サポートベクターマシンは ''教師あり・分類'' の手法の一つ...
[[GoogleImage:サポートベクターマシン カーネル法]]
-詳細:[[SupportVectorMachine]](準備中)
~
***決定木|Decision Tree
決定木は、対象がどのカテゴリー(名義尺度)に属するかを予...
-詳細:[[DecisionTree]]
~
***ランダムフォレスト|Random Forest
条件分岐をもった幾つかの決定木をランダムに構築して、それ...
-詳細:[[RandomForest]](準備中)
~
***ニューラルネットワーク|Neural Network(NN)
ニューラルネットワークは、''教師あり・クラス分類'' の代表...
-詳細:[[NeuralNetwork]]
~
***主成分分析|Principal Component Analysis(PCA)
主成分分析とは''教師なし・次元削減''の手法のひとつで、多...
-詳細:[[Statistics/PCA]]
~
***k-means法|k-means Clustering
k-means法は、''教師なし・クラスタリング''の代表的な手法の...
-詳細:[[k-means]]
~
***付記:機械学習とデータマイニング
これまで紹介してきたいくつかの事例は、 [[機械学習>Machine...
機械学習とは、大量のデータを利用した反復的な学習によって...
両者の目的の違いから言うと、機械学習の主目的が、入力デー...
~
***付記:クラス分類とクラスタリング
この2つは、言葉は似ていますが、全く異なることを目指して...
-クラス分類:対象を既存のグループに振り分ける問題(正解が...
例:手書きの数字を認識させる|「教師あり」の学習
-クラスタリング:特徴の違うグループを見出す問題(絶対的な...
例:顧客のグルーピング|「教師なし」の学習
~
~
**プログラムの開発環境
***Google Colaboratory
[[Google Colaboratory>https://colab.research.google.com/]...
-記事を独立させました。> [[GoogleColaboratory]]
~
***Jupyter Notebook
IPython(Pythonを対話的に実行するためのシェル)と WebUI ...
-[[Python]] :汎用プログラミング環境
-[[IPython>https://ipython.org/]] :Pythonを対話的に実行...
-[[Jupyter Notebook>https://jupyter.org/]]:対話型プログ...
-[[Anaconda>https://www.anaconda.com/anaconda-data-scienc...
--Anaconda > Jupyter Notebook(Python)
--Anaconda > Spyder(Python)
--Anaconda > R-Studio(R)
~
***Orange
Orange は汎用のデータサイエンスツールで、スロベニア Ljubl...
-[[Orange]]:データフロープログラミング環境
http://orange.biolab.si
~
~
**Python ライブラリ
いくつかの定番ライブラリを紹介します。
~
***Pandas|データ解析用ライブラリ(BSD)
https://pandas.pydata.org/
Pandas は、データの読込、集計、並べ替え、欠損値の補完など...
データ分析の過程では、Pandasでデータを整形した後、NumPyで...
Pandas の特徴は ''DataFrame'' にあります。DataFrame には...
-記事を独立させました > [[Pandas]]
~
***NumPy|行列演算等の数値計算モジュール(修正BSD)
http://www.numpy.org/
NumPy は、数値計算や行列演算を行うライブラリで、浮動小数...
NumPy は、データの前処理の終了後、整形済みデータに対して...
~
***SciPy|NumPyベースの数値解析(New BSD)
https://www.scipy.org/
SciPyは、NumPy(配列オブジェクトとその他の基本的な機能を...
~
***Matplotlib|グラフ描画ライブラリ(BSD)
https://matplotlib.org/
Matplotlibは、Pythonの代表的なグラフ描画ライブラリで、2D...
~
***seaborn|ビジュアライゼーションライブラリ(BSD)
https://seaborn.pydata.org/
seabornとは、matplotlibをベースにしたグラフ描画ライブラリ...
-matplotlibのデフォルトよりも美しいグラフテーマ群
-データのパターンを明らかにする美しいプロットのためのカラ...
-データのサブセット間の分布を可視化するための関数群
-複数種類のデータの線形回帰と可視化ツール群
-時系列データの状態推定と誤差推定の関数
-グリット状の複雑なグラフを簡単に描画するシステム
~
***pillow|画像処理
https://pillow.readthedocs.io/en/stable/
リサイズやトリミングなどの基本的な処理を行う画像処理ライ...
-記事を独立させました > [[Pillow]]
~
//***graph-tool|グラフの操作および統計解析(GPL)
//https://graph-tool.skewed.de/
//~
***scikit-learn|定番機械学習ライブラリ(BSD)
http://scikit-learn.org/stable/
scikit-learn (サイキット・ラーン)は Python用のオープン...
分類(クラス分類)向きのものと、回帰(予測)向きのもの、...
-記事を独立させました > [[scikit-learn]]
~
***TensorFlow|機械学習用ライブラリ(Apache License 2.0 b...
https://www.tensorflow.org/
TensorFlowとは、Google がオープンソースとして開発・公開し...
TensorBoardと呼ばれる視覚化のためのツールが含まれていて、...
&small(Tensor(テンソル)とは線形的な量を表す概念を一般化...
~
***Keras|ニューラルネットワークライブラリ(MIT)
https://keras.io/ja/
Kerasは、オープンソースのニューラルネットワークライブラリ...
~
~
**データライブラリ
データサイエンスの学習には、プログラムの動作を試すのにサ...
なお、[[R>OpenSource]] や [[Orange>OpenSource]] には、...
~
***統計用データリポジトリ
-''Open Data 一般''
> ページを独立させました。[[OpenData]]
-朱鷺の杜(ときのもり)Wiki|DataSet
http://ibisforest.org/index.php?DataSet
-UCI Machine Learning Repository
カリフォルニア大学アーバイン校が運営する、機械学習やデー...
http://archive.ics.uci.edu/ml/index.html
-''Kaggle''|The Home of Data Science & Machine Learning
世界中の機械学習・データサイエンスに携わる人が集まるコミ...
https://www.kaggle.com/
-GitHub
https://github.com/awesomedata/awesome-public-datasets
-AWS パブリックデータセット
Amazon AWSが公開する誰でも無料で利用可能なパブリックデー...
https://registry.opendata.aws/
-国立情報学研究所
https://www.nii.ac.jp/dsc/idr/datalist.html
~
'''''以下、個別のデータセットで著名なものの一例です。'''''
~
***iris.csv
irisデータとは、英国の植物学者ロナルド・フィッシャー氏が ...
以下、様々なURLから、そのデータを取得することができます...
-http://archive.ics.uci.edu/ml/datasets/Iris
-https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-...
-https://ja.osdn.net/frs/g_redir.php?m=kent&f=irisdss%2FI...
~
//***HairEyeColor
//統計学を受講する592人の学生について、髪と目の色と性別の...
//-https://raw.githubusercontent.com/vincentarelbundock/R...
//~
***The Boston Housing Dataset
ボストンの物件の価格と、物件の人口統計に関する情報。
&color(red){解説記事の多さから、紹介していますが、このデ...
CRIM・・・犯罪発生率(人口単位)
ZN・・・25,000平方フィート以上の住宅区画の割合
INDUS・・・非小売業の土地面積の割合(人口単位)
CHAS・・・チャールズ川沿いかどうか(1:Yes、0:No)
NOX・・・窒素酸化物の濃度(pphm単位)
RM・・・1戸あたりの平均部屋数
AGE・・・1940年よりも前に建てられた家屋の割合
DIS・・・ボストンの主な5つの雇用圏までの重み付きの郷里
RAD・・・幹線道路へのアクセス指数
TAX・・・10,000ドルあたりの所得税率
PTRATIO・・・教師あたりの生徒の数(人口単位)
B・・・アフリカ系アメリカ人居住者の割合(人口単位)
LSTAT(%)・・・低所得者の割合
MEDV・・・ 所有者が住んでいる住宅価格の中央値(単位 $1000...
-https://www.cs.toronto.edu/~delve/data/boston/bostonDeta...
--http://lib.stat.cmu.edu/datasets/boston
-https://raw.githubusercontent.com/selva86/datasets/maste...
~
***Wine Quality
ポルトガルワインの一種であるヴィーニョ・ヴェルデ(Vinho V...
Alcohol・・・アルコール
Malic acid・・・リンゴ酸
Ash・・・灰
Alcalinity of ash・・・灰のアルカリ性
Magnesium・・・マグネシウム
Total phenols・・・フェノール類全量
Flavanoids・・・フラバノイド
Nonflavanoid phenols・・・非フラバノイドフェノール類
Proanthocyanins・・・プロアントシアニン
Color intensity・・・色彩強度
Hue・・・色調
OD280/OD315 of diluted wines・・・蒸留ワインのOD280/OD315
Proline・・・プロリン
-https://archive.ics.uci.edu/ml/datasets/wine+quality
--http://archive.ics.uci.edu/ml/machine-learning-database...
--http://archive.ics.uci.edu/ml/machine-learning-database...
--http://archive.ics.uci.edu/ml/machine-learning-database...
~
***THE MNIST DATABASE
手書き文字のサンプルデータ配布サイト。MNIST(エムニスト)...
http://yann.lecun.com/exdb/mnist/
~
***MegaFace and MF2
約70万人分の顔写真(同一人につき複数画像)が用意されてい...
-http://megaface.cs.washington.edu/
~
~
**APPENDIX
***関連ページ
//-[[DataScience]]
-[[Data]]
-[[Statistics]]
-[[DataVisualization]]
-[[MachineLearning]]
--[[DecisionTree]]
--[[k-means]]
--[[LinearRegression]]
--[[LogisticRegression]]
--[[NeuralNetwork]]
--[[PrincipalComponentAnalysis>Statistics/PCA]]
--[[MultipleCorrespondenceAnalysis>Statistics/MCA]]
--[[RandomForest]]
--[[SupportVectorMachine]]
-[[DataMining]]
-[[ArtificialIntelligence]]
-[[ArtificialIntelligence/Links]]
-[[Python]]
--[[scikit-learn]]
-[[Orange]]:Open source machine learning and data visual...
-[[OpenData]]
~
~
終了行:
*データサイエンス
Data Science
~
データサイエンス(Data Science)とは、データそのものの性...
数値や文字(カテゴリ)として得られるデータを統計的手法や...
関連する諸分野との関係を図で表すと、以下のようになります。
[[GoogleImage:Data Science Machine Learning AI]]
~
***CONTENTS
#contents2_1
~
**はじめに
'''''データ至上主義の限界'''''
データサイエンスは「x は A のグループに属する」とか「Aよ...
しかし、それをそのまま未来のデザインに適用してよいか・・...
例えば、採用面接で Aさん、Bさんのどちらを採用するか・・と...
また例えば、A,B どちらの商品企画を実際に採用するか・・に...
要するに、データというものは参考にはなりますが、そればか...
~
~
**データサイエンス序説
***モデルを見出すこと
データサイエンスの最大の関心事は、物事の背景にある「関係...
「気温が上がると、商品Aの売上が上がる」、「こういう動作を...
「アクセルを踏み込むとスピードが上がる」のように、操作す...
~
***BigDataの活用
しかし、人間の感覚・知覚や記憶力には限界があります。事項...
例えば、あるスーパーマーケットにおいて一定期間中の商品の...
発見された連動関係を未来に利用するかどうかを決めるのは人...
~
***データサイエンスにできること
-判別:情報の判断・仕分け・検索、音声・画像の認識、異常検...
-予測:数値予測、ニーズ・意図予測、マッチングなど
-実行:作業の自動化、表現生成、行動の最適化など
~
~
**関数について
***関数の式
関数とは「入力と出力(ああすればこうなる)」の関係を表し...
y = f ( x )
教科書に出てくる関数の式ですね。ここで嫌になる方もいるか...
y = ax +b
と書くことができます。この「a, b によって特徴づけられた、...
~
***数学の教科書であれば・・
2つの点 (2,5) , (4,9) を通る直線の式を y = ax + b として...
5 = 2a + b
9 = 4a + b
これを解いて、a = 2, b =1 ( 直線の式は y = 2x + 1)が答...
ここまでだと全然面白くないのですが、では「 x = 10 のとき...
しかし、現実的ではありません。
~
#image(LeastSquaresMethod.png,right,30%)
***実際の問題になると・・
数学の問題というのは、与えられるデータの数も値も、手計算...
y = ax + b という直線的な関係を前提とした場合、データが2...
しかし、実際に複数のデータをグラフにプロットすると、明ら...
現実世界から得られるデータには様々な誤差が含まれていたり...
そこで実際には、[[最小二乗法>Google:最小二乗法]]という[[...
データサイエンスがやろうとしていることは、基本的にこの応...
実際の現象は非常に複雑で、要因(変数)が多数ある(x0, x1,...
~
***プログラム例
上記の計算を実際に行うプログラムの例を以下に掲載していま...
ipynb(JupyterNotebook)形式で、GitHubに置いていますが、...
-GitHub:[[LeastSquaresMethod.ipynb>https://github.com/ko...
-nbviewer:[[LeastSquaresMethod.ipynb>https://nbviewer.ju...
~
~
**説明変数と目的変数
データサイエンスでは、入力と出力、原因と結果など、2つの...
関数モデルを '''y = f(X) ''' と書いた場合の、X が説明変数...
~
***説明変数:explanatory variable
物事の原因となる変数。一般に x を使います。文献によってい...
-特徴量 feature / attribute
-データ data
-予測変数 predictor variable
-独立変数 independent variable
-入力 input
~
***目的変数:target variable
物事の結果(予測)となる変数。一般に y を使います。文献に...
-ラベル label
-ターゲット target
-応答変数 response variable
-従属変数 dependent variable
-出力 output
~
***付記
各種記事では X vs Y の組み合わせは以下のパターンが多いよ...
-説明変数 vs 目的変数
-特徴量 vs ラベル
-データ vs ターゲット &small(scikit-learn ではこの表現);
-予測変数 vs 応答変数
-独立変数 vs 従属変数
-入力 vs 出力
~
~
**データサイエンスの手法
***概要
まずは、様々な手法を分類した事例です。
-教師あり学習
--分類
--回帰
-教師なし学習
--クラスタリング
--次元圧縮
-強化学習
--機器制御
--戦略の構築(囲碁・将棋など)
-その他
--推薦(Recommend) &small(教師あり、教師なし);
--異常検知 &small(教師あり、半教師あり、教師なし);
--文章・音声・画像の生成
--同、変換
~
***データの取得
データサイエンスの学習や実践には、大量のデータが必要にな...
-[[OpenData]]
-[[WebScraping]]
~
***データの読み込み|ReadData
統計処理を行うには、.csv や .xlsx などのデータファイルを...
-通常の Python環境で作業する場合 > [[Pandas]]
-GoogleColaboratory で作業する場合 > [[GoogleColaborator...
~
***可視化|Data Visualization
可視化とは、物事の関係性を視覚的に捉えられるように、デー...
-詳細:[[DataVisualization]]
~
***線形回帰|Linear Regression
-線形回帰は、''説明変数'' X と''目的変数'' y との間にある...
-詳細:[[LinearRegression]]
~
***ロジスティック回帰|Logistic Regression
-ロジスティック回帰とは、線形回帰分析を分類問題に応用した...
-詳細:[[LogisticRegression]](準備中)
~
***サポートベクターマシン|Support Vector Machine(SVM)
サポートベクターマシンは ''教師あり・分類'' の手法の一つ...
[[GoogleImage:サポートベクターマシン カーネル法]]
-詳細:[[SupportVectorMachine]](準備中)
~
***決定木|Decision Tree
決定木は、対象がどのカテゴリー(名義尺度)に属するかを予...
-詳細:[[DecisionTree]]
~
***ランダムフォレスト|Random Forest
条件分岐をもった幾つかの決定木をランダムに構築して、それ...
-詳細:[[RandomForest]](準備中)
~
***ニューラルネットワーク|Neural Network(NN)
ニューラルネットワークは、''教師あり・クラス分類'' の代表...
-詳細:[[NeuralNetwork]]
~
***主成分分析|Principal Component Analysis(PCA)
主成分分析とは''教師なし・次元削減''の手法のひとつで、多...
-詳細:[[Statistics/PCA]]
~
***k-means法|k-means Clustering
k-means法は、''教師なし・クラスタリング''の代表的な手法の...
-詳細:[[k-means]]
~
***付記:機械学習とデータマイニング
これまで紹介してきたいくつかの事例は、 [[機械学習>Machine...
機械学習とは、大量のデータを利用した反復的な学習によって...
両者の目的の違いから言うと、機械学習の主目的が、入力デー...
~
***付記:クラス分類とクラスタリング
この2つは、言葉は似ていますが、全く異なることを目指して...
-クラス分類:対象を既存のグループに振り分ける問題(正解が...
例:手書きの数字を認識させる|「教師あり」の学習
-クラスタリング:特徴の違うグループを見出す問題(絶対的な...
例:顧客のグルーピング|「教師なし」の学習
~
~
**プログラムの開発環境
***Google Colaboratory
[[Google Colaboratory>https://colab.research.google.com/]...
-記事を独立させました。> [[GoogleColaboratory]]
~
***Jupyter Notebook
IPython(Pythonを対話的に実行するためのシェル)と WebUI ...
-[[Python]] :汎用プログラミング環境
-[[IPython>https://ipython.org/]] :Pythonを対話的に実行...
-[[Jupyter Notebook>https://jupyter.org/]]:対話型プログ...
-[[Anaconda>https://www.anaconda.com/anaconda-data-scienc...
--Anaconda > Jupyter Notebook(Python)
--Anaconda > Spyder(Python)
--Anaconda > R-Studio(R)
~
***Orange
Orange は汎用のデータサイエンスツールで、スロベニア Ljubl...
-[[Orange]]:データフロープログラミング環境
http://orange.biolab.si
~
~
**Python ライブラリ
いくつかの定番ライブラリを紹介します。
~
***Pandas|データ解析用ライブラリ(BSD)
https://pandas.pydata.org/
Pandas は、データの読込、集計、並べ替え、欠損値の補完など...
データ分析の過程では、Pandasでデータを整形した後、NumPyで...
Pandas の特徴は ''DataFrame'' にあります。DataFrame には...
-記事を独立させました > [[Pandas]]
~
***NumPy|行列演算等の数値計算モジュール(修正BSD)
http://www.numpy.org/
NumPy は、数値計算や行列演算を行うライブラリで、浮動小数...
NumPy は、データの前処理の終了後、整形済みデータに対して...
~
***SciPy|NumPyベースの数値解析(New BSD)
https://www.scipy.org/
SciPyは、NumPy(配列オブジェクトとその他の基本的な機能を...
~
***Matplotlib|グラフ描画ライブラリ(BSD)
https://matplotlib.org/
Matplotlibは、Pythonの代表的なグラフ描画ライブラリで、2D...
~
***seaborn|ビジュアライゼーションライブラリ(BSD)
https://seaborn.pydata.org/
seabornとは、matplotlibをベースにしたグラフ描画ライブラリ...
-matplotlibのデフォルトよりも美しいグラフテーマ群
-データのパターンを明らかにする美しいプロットのためのカラ...
-データのサブセット間の分布を可視化するための関数群
-複数種類のデータの線形回帰と可視化ツール群
-時系列データの状態推定と誤差推定の関数
-グリット状の複雑なグラフを簡単に描画するシステム
~
***pillow|画像処理
https://pillow.readthedocs.io/en/stable/
リサイズやトリミングなどの基本的な処理を行う画像処理ライ...
-記事を独立させました > [[Pillow]]
~
//***graph-tool|グラフの操作および統計解析(GPL)
//https://graph-tool.skewed.de/
//~
***scikit-learn|定番機械学習ライブラリ(BSD)
http://scikit-learn.org/stable/
scikit-learn (サイキット・ラーン)は Python用のオープン...
分類(クラス分類)向きのものと、回帰(予測)向きのもの、...
-記事を独立させました > [[scikit-learn]]
~
***TensorFlow|機械学習用ライブラリ(Apache License 2.0 b...
https://www.tensorflow.org/
TensorFlowとは、Google がオープンソースとして開発・公開し...
TensorBoardと呼ばれる視覚化のためのツールが含まれていて、...
&small(Tensor(テンソル)とは線形的な量を表す概念を一般化...
~
***Keras|ニューラルネットワークライブラリ(MIT)
https://keras.io/ja/
Kerasは、オープンソースのニューラルネットワークライブラリ...
~
~
**データライブラリ
データサイエンスの学習には、プログラムの動作を試すのにサ...
なお、[[R>OpenSource]] や [[Orange>OpenSource]] には、...
~
***統計用データリポジトリ
-''Open Data 一般''
> ページを独立させました。[[OpenData]]
-朱鷺の杜(ときのもり)Wiki|DataSet
http://ibisforest.org/index.php?DataSet
-UCI Machine Learning Repository
カリフォルニア大学アーバイン校が運営する、機械学習やデー...
http://archive.ics.uci.edu/ml/index.html
-''Kaggle''|The Home of Data Science & Machine Learning
世界中の機械学習・データサイエンスに携わる人が集まるコミ...
https://www.kaggle.com/
-GitHub
https://github.com/awesomedata/awesome-public-datasets
-AWS パブリックデータセット
Amazon AWSが公開する誰でも無料で利用可能なパブリックデー...
https://registry.opendata.aws/
-国立情報学研究所
https://www.nii.ac.jp/dsc/idr/datalist.html
~
'''''以下、個別のデータセットで著名なものの一例です。'''''
~
***iris.csv
irisデータとは、英国の植物学者ロナルド・フィッシャー氏が ...
以下、様々なURLから、そのデータを取得することができます...
-http://archive.ics.uci.edu/ml/datasets/Iris
-https://raw.githubusercontent.com/uiuc-cse/data-fa14/gh-...
-https://ja.osdn.net/frs/g_redir.php?m=kent&f=irisdss%2FI...
~
//***HairEyeColor
//統計学を受講する592人の学生について、髪と目の色と性別の...
//-https://raw.githubusercontent.com/vincentarelbundock/R...
//~
***The Boston Housing Dataset
ボストンの物件の価格と、物件の人口統計に関する情報。
&color(red){解説記事の多さから、紹介していますが、このデ...
CRIM・・・犯罪発生率(人口単位)
ZN・・・25,000平方フィート以上の住宅区画の割合
INDUS・・・非小売業の土地面積の割合(人口単位)
CHAS・・・チャールズ川沿いかどうか(1:Yes、0:No)
NOX・・・窒素酸化物の濃度(pphm単位)
RM・・・1戸あたりの平均部屋数
AGE・・・1940年よりも前に建てられた家屋の割合
DIS・・・ボストンの主な5つの雇用圏までの重み付きの郷里
RAD・・・幹線道路へのアクセス指数
TAX・・・10,000ドルあたりの所得税率
PTRATIO・・・教師あたりの生徒の数(人口単位)
B・・・アフリカ系アメリカ人居住者の割合(人口単位)
LSTAT(%)・・・低所得者の割合
MEDV・・・ 所有者が住んでいる住宅価格の中央値(単位 $1000...
-https://www.cs.toronto.edu/~delve/data/boston/bostonDeta...
--http://lib.stat.cmu.edu/datasets/boston
-https://raw.githubusercontent.com/selva86/datasets/maste...
~
***Wine Quality
ポルトガルワインの一種であるヴィーニョ・ヴェルデ(Vinho V...
Alcohol・・・アルコール
Malic acid・・・リンゴ酸
Ash・・・灰
Alcalinity of ash・・・灰のアルカリ性
Magnesium・・・マグネシウム
Total phenols・・・フェノール類全量
Flavanoids・・・フラバノイド
Nonflavanoid phenols・・・非フラバノイドフェノール類
Proanthocyanins・・・プロアントシアニン
Color intensity・・・色彩強度
Hue・・・色調
OD280/OD315 of diluted wines・・・蒸留ワインのOD280/OD315
Proline・・・プロリン
-https://archive.ics.uci.edu/ml/datasets/wine+quality
--http://archive.ics.uci.edu/ml/machine-learning-database...
--http://archive.ics.uci.edu/ml/machine-learning-database...
--http://archive.ics.uci.edu/ml/machine-learning-database...
~
***THE MNIST DATABASE
手書き文字のサンプルデータ配布サイト。MNIST(エムニスト)...
http://yann.lecun.com/exdb/mnist/
~
***MegaFace and MF2
約70万人分の顔写真(同一人につき複数画像)が用意されてい...
-http://megaface.cs.washington.edu/
~
~
**APPENDIX
***関連ページ
//-[[DataScience]]
-[[Data]]
-[[Statistics]]
-[[DataVisualization]]
-[[MachineLearning]]
--[[DecisionTree]]
--[[k-means]]
--[[LinearRegression]]
--[[LogisticRegression]]
--[[NeuralNetwork]]
--[[PrincipalComponentAnalysis>Statistics/PCA]]
--[[MultipleCorrespondenceAnalysis>Statistics/MCA]]
--[[RandomForest]]
--[[SupportVectorMachine]]
-[[DataMining]]
-[[ArtificialIntelligence]]
-[[ArtificialIntelligence/Links]]
-[[Python]]
--[[scikit-learn]]
-[[Orange]]:Open source machine learning and data visual...
-[[OpenData]]
~
~
ページ名: