background preloader

Exploratory data analysis

Exploratory data analysis
In statistics, exploratory data analysis (EDA) is an approach to analyzing data sets to summarize their main characteristics, often with visual methods. A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond the formal modeling or hypothesis testing task. Exploratory data analysis was promoted by John Tukey to encourage statisticians to explore the data, and possibly formulate hypotheses that could lead to new data collection and experiments. EDA is different from initial data analysis (IDA),[1] which focuses more narrowly on checking assumptions required for model fitting and hypothesis testing, and handling missing values and making transformations of variables as needed. Overview[edit] Exploratory data analysis, robust statistics, nonparametric statistics, and the development of statistical programming languages facilitated statisticians' work on scientific and engineering problems. EDA development[edit] Data science process flowchart Related:  DoEap math

What Can Classical Chinese Poetry Teach Us About Graphical Analysis? - Statistics and Quality Data Analysis | Minitab A famous classical Chinese poem from the Song dynasty describes the views of a mist-covered mountain called Lushan. The poem was inscribed on the wall of a Buddhist monastery by Su Shi, a renowned poet, artist, and calligrapher of the 11th century. Deceptively simple, the poem captures the illusory nature of human perception. Written on the Wall of West Forest Temple --Su Shi From the side, it's a mountain ridge. Looking up, it's a single peak. Our perception of reality, the poem suggests, is limited by our vantage point, which constantly changes. In fact, there are probably as many interpretations of this famous poem as there are views of Mt. Centuries after the end of the Song dynasty, imagine you are traversing a misty mountain of data using the Chinese language version of Minitab 17... From the interval plot, you are extremely (95%) confident that the population mean is within the interval bounds. These graphs are all of the same data set. Take it from Su Shi.

概要 | Gephi, オープンソースのグラフ可視化ソフトウェア Gephi は、グラフの探索や分析を行う必要のあるユーザー向けのツールです。Gephi は、たとえて言えば、データを対象に扱う Photoshop のようなものです。ユーザーは描画されたグラフと対話し、構造や形状、色などを操作しながら、隠された属性を引き出します。Gephi が目標としているのは、データ解析の支援を通じて、仮説を立てたり、パターンを直感的に把握したり、データソーシング時に構造的な特異点や欠陥を分離したりできるようにすることです。Gephi は、伝統的な統計手法を補うツールです。今日では、インタラクティブなインタフェースを備えたビジュアルシンキングを行うことによって、推論が容易になることが知られています。 リアルタイムでの可視化 非常に高速なグラフ可視化エンジンにより、大規模グラフの理解とパターン発見をスピードアップ。 レイアウト グラフの形状は、レイアウトアルゴリズムによって決まります。 メトリクス 統計・メトリクスフレームワークでは、ソーシャルネットワーク分析 (SNA) とスケールフリーネットワークで最もよく使われるメトリクスが用意されています。 動的ネットワーク分析 Gephi は、動的ネットワーク分析 (DNA) に革新をもたらす理想的なプラットフォームです。 マップ作成 ランキングやパーティションのデータを使ってネットワーク表現を有意義なものにすることができます。 カスタマイズ可能な SVG エクスポートプリセットの保存 クラスタリングと階層グラフ Gephi では、ソーシャルコミュニティや生化学的経路、ネットワークトラフィックグラフなど、大規模な階層構造グラフの探索と編集が容易なので、マルチレベルグラフの探索を行うことができます。 動的フィルタリング ネットワークをフィルタリングすることで、ネットワーク構造やデータに基づいてノードやエッジを選択することができます。 ユーザー中心のインタフェース Gephpi は、テストを重ねて作られたシンプルなインタフェースを備えています。 モジュール方式 Gephi 0.7 アーキテクチャはモジュール化されているので、開発者は簡単に機能を追加したり拡張したりできます。 ごく簡単な操作で新しいコネクタや外部データソースを追加可能NetBeans プラットフォームを土台として構築拡張機能用 API Plugins Center

Multilinear principal component analysis Multilinear principal component analysis (MPCA)[1] is a mathematical procedure that uses multiple orthogonal transformations to convert a set of multidimensional objects into another set of multidimensional objects of lower dimensions. There is one orthogonal (linear) transformation for each dimension (mode): hence multilinear. This transformation aims to capture as high a variance as possible, accounting for as much of the variability in the data as possible, subject to the constraint of mode-wise orthogonality. MPCA is a multilinear extension of principal component analysis (PCA). The major difference is that PCA needs to reshape a multidimensional object into a vector, while MPCA operates directly on multidimensional objects through mode-wise processing. E.g., for 100x100 images, PCA operates on vectors of 10000x1 while MPCA operates on vectors of 100x1 in two modes. MPCA is a basic algorithm for dimension reduction via multilinear subspace learning. The algorithm[edit]

Anscombe's quartet All four sets are identical when examined using simple summary statistics, but vary considerably when graphed Anscombe's quartet comprises four datasets that have nearly identical simple statistical properties, yet appear very different when graphed. Each dataset consists of eleven (x,y) points. They were constructed in 1973 by the statistician Francis Anscombe to demonstrate both the importance of graphing data before analyzing it and the effect of outliers on statistical properties.[1] For all four datasets: The first scatter plot (top left) appears to be a simple linear relationship, corresponding to two variables correlated and following the assumption of normality. The quartet is still often used to illustrate the importance of looking at a set of data graphically before starting to analyze according to a particular type of relationship, and the inadequacy of basic statistic properties for describing realistic datasets.[2][3][4][5][6] The datasets are as follows. See also[edit]

図式順テキスト記法(DOTN) 檜山正幸 (HIYAMA Masayuki) Tue Apr 25 2006:start Thu Apr 27 2006:draft 圏論の計算のために、テキストエディタとキーボードだけでも容易に入力可 能な記法を提案し、計算を実行してみる。この記法は、図式順(diagrammatic order)に左から右に向かって書き記す方式である。 1. 圏論の計算のために、テキストエディタとキーボードだけでも容易に入力可 能な記法を案出しようと何度か試みて、何度か(試みと同じ回数)挫折した。 注1 英字に対する太字、下線など修飾が使えれば、それをギリシャ文字の代わり に使える。 テキストによる式は、diagrammatic order、つまり左から右に読めること に拘った。 2. 記号を次のように使い分ける。 圏の対象:a, b, x, y など(英小文字、始めのほうと終わりのほう) 圏の射:f, g など(英小文字、中間のあたり) 圏:A, B, C, D など(英大文字、始めのほう) 関手:F, G など(英大文字、中間のあたり) 自然変換:α, β など(ギリシャ文字小文字) 特に断りがなくても、a∈Cは、aがCの対象であることを示す。 fとgの(この順での)結合(composition;合成)はf;gと書く。 (f;g);h = f;(g;h) : a→d in C a^;f = f;b^ = f : a→b in C 3. f:a→b in C、F:C→D、G:D→E のとき、 F(a)ではなくて、a.Fを使う。 記法の約束からただちに次が従う: F:C→D、G:D→Eのとき、a. a.F -[f.F]→b.F a.α| |b.α | | in D v v a.G -[f.G]→b.G 自然変換α::F⇒G:C→D、β::G⇒H:C→Dに対して、自然変換 (α|β)::F⇒ H:C→Dを次のように定義する。 a. (α|β)を、αとβの‘縦結合’と呼ぶ。 a. in D a.F -[f.F]→b.F a.α| |b.α | (1) | v v a.G -[f.G]→b.G a.β| |b.β | (2) | v v a.H -[f.H]→b.H これは次のように計算できる。 αとβの自然性を仮定する。 4. 関手F:C→Dに対して、自然変換ι::F⇒F:C→Dを次のように定義する。 次のように計算できる。

Parallel coordinates Parallel coordinates is a common way of visualizing high-dimensional geometry and analyzing multivariate data. This visualization is closely related to time series visualization, except that it is applied to data where the axes do not correspond to points in time, and therefore do not have a natural order. Therefore, different axis arrangements may be of interest. History[edit] Parallel coordinates were often said to be invented by Philbert Maurice d'Ocagne (fr) in 1885,[1] but even though the words "Coordonnées parallèles" appear in the book title this work has nothing to do with the visualization techniques of the same name (the book only describes a method of coordinate transformation, see fulltext PDF of the book by clicking the link in the references). Higher dimensions[edit] Adding more dimensions in parallel coordinates (often abbreviated ||-coords or PCs) involves adding more axes. Statistical considerations[edit] Reading[edit] Limitations[edit] Software[edit] See also[edit] Radar chart

Design of Experiments (DOE) Tutorial Design of experiments (DOE) is a powerful tool that can be used in a variety of experimental situations. DOE allows for multiple input factors to be manipulated determining their effect on a desired output (response). By manipulating multiple inputs at the same time, DOE can identify important interactions that may be missed when experimenting with one factor at a time. All possible combinations can be investigated (full factorial) or only a portion of the possible combinations (fractional factorial). Fractional factorials will not be discussed here. When to Use DOE Use DOE when more than one input factor is suspected of influencing an output. DOE can also be used to confirm suspected input/output relationships and to develop a predictive equation suitable for performing what-if analysis. DOE Procedure Acquire a full understanding of the inputs and outputs being investigated. Conduct and Analyze Your Own DOE Summary More complex studies can be performed with DOE.

関手と自然変換:コゥゼンの記号法 - 檜山正幸のキマイラ飼育記 関手と自然変換:コゥゼンの記号法 デクスター・コゥゼン(Dexter Kozen)は、クリーネ代数の研究者として有名ですが、その他の分野でも面白いアイディアを色々導入している計算科学者です。 コォゼンは、明らかに圏論が使えそうな状況でも(わざと?)使ってなかったりするので、圏論嫌いなのかなと思っていました。が、圏論に関する論文も書いています。コォゼンの計算法は、グロービュラー図やストリング図を駆使する絵算派とは対極的で、テキスト記号で頑張るやり方です。 F, Gなどを関手、α, βなどを自然変換として、関手の反図式順結合を「・」で表します。 (α・F)X := αF(X) 「・」の左右を入れ替えると定義が変わります。 (F・α)X := F(αX) 記号「・」を次の3つの意味でオーバーロードしている点に注意してください。 関手の結合 関手が右から作用する、関手と自然変換の結合 関手が左から作用する、関手と自然変換の結合 オーバーロードされた記号「・」を一種の乗法とみなすと、結合律が成立します。 (α・G)・F = α・(G・F) G・(F・α) = (G・F)・α ここで、一時的な記号法として、自然変換の縦結合(vertical composition)を「+」で表します。 (β + α)X := βX・αX (「・」は関手の結合) さて、この記号法で次の“分配律”が成立します。 (α + β)・F = α・F + β・F G・(α + β) = G・α + G・β 要するに、「関手をスカラー、自然変換をベクトル」とみなして、スカラー乗法の性質が成立するというわけです。 絵算派の僕としては、以上のことは、2-圏や二重圏の交替律(interchange law)をグロービュラー図/タイル図に描けば明らかな事実なので「そりゃそうだろう」とも思うのですが、「ベクトル空間のスカラー乗法に似てる」とおぼえておくのは悪くはないですね。

Terminology in Data Analytics As data continue to grow at a faster rate than either population or economic activity, so do organizations' efforts to deal with the data deluge, and use it to capture value. And so do the methods used to analyze data, which creates an expanding set of terms (including some buzzwords) used to describe these methods. This is a field in flux, and different people may have different conceptions of what terms mean. Comments on this page and its "definitions" are welcome. Since many of these terms are subsets of others, or overlapping, the clearest approach is to start with the more specific terms and move to the more general. Predictive modeling: Used when you seek to predict a target (outcome) variable (feature) using records (cases) where the target is known. Predictive analytics: Basically the same thing as predictive modeling, but less specific and technical. Supervised Learning: Another synonym for predictive modeling. Unsupervised Learning: Business intelligence: Data mining: Text mining: 1.

The R Project for Statistical Computing 確率っていったい何だろう - hiroyukikojimaの日記 確率っていったい何だろう このところ、15年ぶりにエレキギターを弾いている。なぜなら、ゼミ生たちがバンドを組んで11月にゼミライブをするので、それに混ぜてもらうことになったからだ。 ゼミ生の数人がかわるがわるにヴォーカルをとり、10曲くらいコピー曲をやる。 本当は、一曲ぐらい自分のオリジナルをやりたくて、バンドメンバーもそれに備えていてくれたのだが、ぼくにとって人生を左右する2つのできごとが今同時進行していて、時間的に無理になった。 ほんとは、今回の話題はこれで終わりでいいんだけど、これじゃこのブログの読者は満足してくれないだろうから、少しだけアカデミックなことも書こう。 先月に刊行した松原望先生との共著『戦略とゲームの理論』東京図書の第6章に、ぼくが「シェーファー・ウォフクのゲーム論的確率論」を解説している。 現在、確率理論といえば、コルモゴロフが完成したもので、集合論と測度論(要するにルベーグ積分理論)を道具にしたものだ。 確かにここまでは、「不確実性」というものを一定以上の程度で表現できてるように思える。 ところで、このような「不確実性とは何か、それをどう表現するか」というテーマは、数学者がずっと考え続けてきたもので、今は、コルモゴロフ流が主流になってしまったけれど、他にも有望なアプローチはいくつかあった。 このコレクティフの理論は、非常に面白いものであるが、その操作性の低さと数学的な困難から、結局は長い間放置されてしまったのである。 しかし、コレクティフの考え方の先に、新しい方向性を見出した数学者が遂に現れた。 この定理における「必勝戦略」は、決して難しいものでない。 実は、ぼくが塾で働いていたとき、確率の斬新な教材を創ることが、ぼくの中学部主任としての最後の仕事となった。 議論は白熱し、教員たちはそれなりに興奮しながら作った教材だったが、今思えば、成功したとは言い難いしろものかもしれない。 そのころは、まさかぼくが、近い将来、経済学者となって、確率的意思決定理論を専門にすることになるなどとは、まったく頭の片隅にもなかった。 今回は軽く書くつもりだったのに、終わってみると、またまた長くなってたっす。

Experimentation for Improvement About the Course Would you like to: improve the quality of drinking water;make a stronger concrete or brick;increase the sales from your store;find the right combination of settings for your favourite recipe;improve the quality of your company's product;reduce waste;minimize energy use? No matter what your area of interest (and there are no limits to the applications!) In this course we will learn to use efficient factorial experiments, fractional factorials and response surface methods. By the end of this 6-week course you will be able to design your own experimental program, changing multiple variables, and interpret the experimental data using simple tools, based on sound statistical principles. These tools and methods can be beneficial to solve the challenges you set for yourself above. Verified Certificates: Link Coursework to Your Identity Personal Certificate URLShareable Course Records"Add to LinkedIn" FeatureDedicated Technical Support Course Syllabus Week 1: Why experiment?

Linear Logic 1. Legend This entry uses special symbols that have become standard in texts on linear logic. We've told your web browser to display them as certain Unicode symbols. However, not all browsers will have these symbols available in all fonts. Follow the instructions on our Displaying Special Characters page if the symbol displayed in the middle column of the following table doesn't look roughly like the graphic displayed in the right column. 2. 2.1 A bit of history Linear logic was introduced by Jean-Yves Girard in his seminal work Girard 1987. Indeed, one could present a first fragment of linear logic, known as multiplicative additive linear logic (MALL), as the outcome of two simple observations: So, if we want to eliminate the non-constructive proofs without destroying the symmetry of the sequent calculus, as is done in intuitionistic logic, we can try to eliminate the contraction and weakening rules instead. 2.2 Linear logic and computer science At a given moment these two sciences met. 3.

Design of Experiments – Full Factorial Designs In designs where there are multiple factors, all with a discrete group of level settings, the full enumeration of all combinations of factor levels is referred to as a full factorial design. As the number of factors increases, potentially along with the settings for the factors, the total number of experimental units increases rapidly. In many cases each factor takes only two levels, often referred to as the low and high levels, the design is known as a 2^k experiment. expand.grid(Factor1 = c("Low", "High"), Factor2 = c("Low", "High"), Factor3 = c("Low", "High")) which creates the following design: Factor1 Factor2 Factor3 1 Low Low Low 2 High Low Low 3 Low High Low 4 High High Low 5 Low Low High 6 High Low High 7 Low High High 8 High High High We could also make use of the gen.factorial function from the AlgDesign package. To create the full factorial design for an experiment with three factors with 3, 2, and 3 levels respectively the following code would be used: