LogoMark.png

Orange

Orange

https://orange.biolab.si/

Orange とは、データビジュアライゼーション、機械学習、データマイニング用のソフトウエアで、 科学計算(Python・R)用の統合環境 Anaconda にも採用されています。スロベニアの Ljubljana大学で開発が始まり、現在はクロスプラットフォームのオープンソースソフトウエアとして公開されています。定義済みのウィジェットをワークフロー状に配置することで、データの分析作業をすばやく直感的に行うことができます。

orange.jpg

関連ページ:DataScience



インストール

使い方

WorkFlow.jpg

ワークフロー図

ウインドウ左側にあるウイジェットを、ワークシート上に並べて連結するとともに、それぞれ必要な設定(処理)を加える・・という流れです。フローの起点は、データファイルの読み込みになるのが普通です。


ウィジェット一覧

ワークフローに置かれるウィジェットは、以下の5種類です。

Data.jpg
Visualize.jpg
Model.jpg
Evaluate.jpg
Unsupervised.jpg
DataVisualizeModelEvaluateUnsupervised




ウィジェットの機能

File

File.jpg

フローの起点となる「ファイルの読み込み」を行います。csvはもちろん、Excel 形式のデータなども読むことができます。


SelectRows

SelectRows.jpg

条件に合う行のみを抽出(欠損のある行の削除など)するためのウィジェットです。右図の例では「すべての変数が定義されているもの」つまり、一つでも欠損のある行は削除する・・という操作を行うので、データ件数は、521件から 216件に絞り込まれることがわかります。

注)以下の事例では、この絞り込みは行っていません。


DataTable

処理対象となっているデータの全体像を確認できます。

FeatureStatistics

FeatureStatistics.jpg

データの基本的な統計情報を表示します。center の欄には、平均値(数値項目の場合)またはモード(カテゴリの場合)が表示されます。

Correlations

Correlations.jpg

カラム間の相関係数を算出します。このサンプルデータでは、GPAと出席率の間に高い相関がある(出席率が良い学生は成績もよい)ことがわかります。


BoxPlot

ボックスプロット(箱ひげ図)を表示します。サブグループに分割して比較する場合は、以下のような補足情報も表示されます。

BoxPlot01.jpg
BoxPlot02.jpg
男女別のGPA分布比較出身県別のGPA分布比較


Distributions

分布(ヒストグラム)を表示します。算出された統計量からパラメトリックな曲線をあてはめた表示も可能で、カテゴリ間の比較が見やすくなっています。

Distributions01.jpg
Distributions02.jpg
男女別のGPA比較
カーネル密度にフィット
出身県別の出席率比較
正規分布にフィット


ScatterPlot

ScatterPlot.jpg

散布図を表示します。相関係数が表示されるとともに、カテゴリごとのデータの色分けなどが可能です。





PAGES

GUIDE

DATA

添付ファイル: fileorange.jpg 345件 [詳細] fileBoxPlot01.jpg 266件 [詳細] fileBoxPlot02.jpg 285件 [詳細] fileCorrelations.jpg 242件 [詳細] fileDistributions01.jpg 258件 [詳細] fileDistributions02.jpg 268件 [詳細] fileFeatureStatistics.jpg 273件 [詳細] fileFile.jpg 248件 [詳細] fileScatterPlot.jpg 276件 [詳細] fileSelectRows.jpg 285件 [詳細] fileData.jpg 296件 [詳細] fileEvaluate.jpg 267件 [詳細] fileModel.jpg 306件 [詳細] fileUnsupervised.jpg 243件 [詳細] fileVisualize.jpg 288件 [詳細] fileWorkFlow.jpg 276件 [詳細]
Last-modified: 2021-02-10 (水) 14:08:25