2012年05月24日

多変量解析:比例ハザード分析

IBM SPSS「医療統計:多変量解析」講座の続き。

過去のブログ
・多変量解析:重回帰分析
http://skellington.blog.so-net.ne.jp/2012-05-18

・多変量解析:多重ロジスティック回帰分析
http://skellington.blog.so-net.ne.jp/2012-05-21


以下、講座の備忘録。

--------------------------------------------------

・比例ハザード分析
David Cox, British statistician, 化学者
まだ生きている

coxの比例ハザード分析とも呼ぶ

比例ハザード分析の事例
1974年 Prentice, R.L.

多重ロジスティック回帰:予測のための手法
比例ハザード分析:影響要因を見つける手法
- 予測ための手法ではない
- スコアの算出はできない(様々な意見がある)

いつの日か全員発生する(死亡する)ことを想定して計算されている

2群の差の検定
ログランク検定が一般的
最近では、他の検定手法もあるらしい

Df Betaの分析
必ずしも行う必要はない

ログマイナスログ
カテゴリーごとにハザード比が一定しているか?

--------------------------------------------------

2012年05月21日

多変量解析:多重ロジスティック回帰分析

IBM SPSS「医療統計:多変量解析」講座の続き。

ロジスティック回帰の推薦書らしい。

医者のためのロジスチック・Cox回帰入門

医者のためのロジスチック・Cox回帰入門

  • 作者: 高橋 善弥太
  • 出版社/メーカー: 日本医学館
  • 発売日: 2010/12
  • メディア: 単行本




以下、講座の備忘録。

---------- 重回帰分析 ----------

・多重ロジスティック回帰分析
手順
1. データは正規分布か?
正規分布か否かは問題としない

2. 名義尺度の変数は存在するか?

3. 多重共線性は存在するか?
r > 0.9 以上は、一方を削除

4. 2変量解析を行い、変数間の関係を探る
最近では、t検定などは行わず、いきなりロジスティック回帰を行う
昔は、有意になりそうなものを候補に入れて計算していた

5. 重回帰、判別分析で独立変数を絞る

6. 多重ロジスティック回帰分析を行う

尤度比を使う(Waldは使わない)

有意確率は、有意である必要はない。
1つ1つの変数が有意かどうかは関係なく、モデル自体が有意かどうかが大切

1つ1つが有意かどうかを選ぶのは、wald 検定を選ぶ
しかし、wald 検定で変数を選ぶのは良くないといわれている

Hosmer-Lemeshow 検定
p ≧ 0.05 なら適合が良い

判別分類表
70%以上の的中率が良い(経験的な意見で根拠がない)

1986年スペースシャトルの打ち上げにロジスティック回帰が使われている
前日に、落ちる確率は分かっていたが、NASAは打ち上げてしまった

オッズ比を100乗する場合は、信頼区間も100乗すれば良い

β 母集団の回帰係数

1.0以上と1.0以下の場合、逆数をとって影響度の強さを比較する

----------------------------------------

2012年05月18日

多変量解析:重回帰分析

IBM SPSS「医療統計:多変量解析」を受けてきた。


SPSSで学ぶ医療系多変量データ解析―分析内容の理解と手順解説、バランスのとれた医療統計入門

SPSSで学ぶ医療系多変量データ解析―分析内容の理解と手順解説、バランスのとれた医療統計入門

  • 作者: 対馬 栄輝
  • 出版社/メーカー: 東京図書
  • 発売日: 2008/10/08
  • メディア: 単行本



「医療統計」自体には興味がないのだが、cox回帰に興味があったのがきっかけ。
以下、講座の備忘録。

---------- 重回帰分析 ----------
重回帰分析の目的にひとつに「交絡因子を取り除く」がある

結果の読み方
1. 分散分析表の検定で p < 0.05
2. 回帰係数の検定で p < 0.05
定数は、変数が0の時の有意性をみている
3. 標準(偏)回帰係数の大きさ
1に近いほど影響が大きい ≒ 相関係数
4. R2 > 0.5, AICという指標もある
自由度調整済みR2

データは正規分布か?
1つ1つの変数を正規分布するかを調べるは間違い
yと残差が正規分布する必要がある
→ 多変量正規分布
しかし、正規分布についてはあまり気にしなくても良いといわれる

多重共線性
相関の高い組み合わせ |r|>0.9がある時は、不安定なモデル
一方を除外する
VIF ≧ 10

相関性は正だが、式の符号はマイナスになる場合がある
他の変数との影響が原因

ステップワイズ法 vs. 総当たり法

SPSSでAICを出す方法
1. シンタックス
2. /STATISTICS ***** の後に SELECTION を追記する

Durbin-Watson 2に近いほうが良い
2から遠ざかると残差に周期性がある

----------------------------------------

2012年05月16日

アソシエーション分析の先にあるもの

社内のデータマイニングのスキルアップとして、分析手法のまとめをやり始めた。

最近では、データマイニングというとなんだか安っぽい感じがしてしまうのは気のせいだろうか。。。
データサイエンスとかって言葉の方が良いのかもしれないが、あえて、データマイニングという言葉で資料を書き始めている。

また、実際の分析においては、クロス集計で9割くらいは分かる。
時間とコストを考えると、クロス集計しか行わない場合も多い。

クロス集計だけで良いかといえば、そうではなく、残りの1割を知っているのと知っていないのでは分析の幅が大きく違ってくるように思う。

後、分かりやすく分析手法からのまとめをしているが、本当は分析手法から入るのではなく、「今、解決したいマーケティング課題は?」から入った方が筋は良いはずだ。

さて、まずは分かりやすいアソシエーションルールからまとめ始めている。

言葉で説明することは簡単なのだが、「ふ〜ん」で終わらないために、また、事例を聞いて、いかに自分の業務にリンクすることができるか、そのために、どんな事例を説明すれば良いのか、試行錯誤している今日この頃。


Rによるデータサイエンス - データ解析の基礎から最新手法まで

Rによるデータサイエンス - データ解析の基礎から最新手法まで

  • 作者: 金 明哲
  • 出版社/メーカー: 森北出版
  • 発売日: 2007/10/13
  • メディア: 単行本(ソフトカバー)


2012年05月12日

DM研究会 第16回総会&懇親会

DM研究会 第16回総会&懇親会

今日は、久々にデータマイニング研究会がありました。
いつも平日でしたが、今回は珍しく土曜日に開催でした。

今回の基調講演の内容は、
『ベイジアンネットワークを活用したコールセンターの解約阻止コミュニケーション分析のご紹介』
でした。

最近、ベイジアンネットワークを使った分析をしていなかったので、懐かしい気持ちが半分と、新鮮な気持ちが半分な感じでした。

その後は、恒例(?)の懇親会。

乃家 九段下店(のいえ)
http://www.hotpepper.jp/strJ000233742/

2012年05月10日

IBM SPSS Modeler の warning メッセージ

IBM SPSS Modeler(旧クレメンタイン)のバージョンを14.2にあげました。

とりあえず、バッチモードとかちゃんと起動するかチェックしたところ、

----------------------------------------
java.util.prefs.WindowsPreferences
WARNING: Could not open/create prefs root node Software\JavaSoft\Prefs at root 0
x80000002. Windows RegCreateKeyEx(...) returned error code 5.
----------------------------------------

というエラー(warning)が表示された。
warningメッセージなので、アウトプットは、きちんと出ています。

以前のバージョンでは、出てこなかったので、SPSSに問い合わせたところ、

----------------------------------------
・Windows 7で発生する現象
・アドミン権限を持っていないとレジストリの書き込み関連でエラーがでる
----------------------------------------

って回答でした。

確かに、Windows 7上で動かしてはいるものの、アドミン権限を持ったユーザで動かしているんですけどね。。。

まぁ、ちゃんと動いているなら、警告メッセージは、無視して良いか。。。

2012年05月08日

KDD Cup 2012 trac2のデータが公開

KDD Cup 2012 trac2のデータが公開されていました。

trac1自体、全然手がつけられていない状況。。。
悲しい。

時間もあまりないので、ショートトラックだけでも分析したいですね。

と思ってデータをダウンロードしたら、会社のネットワークが混雑しているのか、データ量が多いのか、なんだかんだと、ダウンロードするのに半日以上かかりました。

明日から、少しずつ分析やっていきます。

締め切りは6月1日。
ってことで、5月31日中にアップロードするのがよさそうです。

2012年04月10日

Average Precision(平均適合率)とは

KDD Cup(Knowledge Discovery and Data Mining Cup)にエントリーした。

スコアの評価方法は、適合率 (Precision) と再現率 (Recall)など、いろいろあるけど、今回のスコアの評価方法は、Average Precision(平均適合率)と呼ばれるもので測定するみたいだ。

Average Precisionってことだが、定義は、
ap@n = Σ k=1,...,n P(k) / (number of items clicked in m items)

これでは、分かり難いけど、具体的な例が載っていた。





































































































Item(i)modelA_HitmodelA_p(i)modelA_决(i)modelB_HitmodelB_p(i)modelB_决(i)
111/11/311/11/3
212/21/301/20
302/3001/30
413/41/312/41/3
503/5002/50
603/6002/60
703/7002/70
803/8013/81/3
903/9003/90
1003/10003/100


モデルAの評価
AP(A)=(1/1+2/2+3/4)×1/3≒0.92

モデルBの評価
AP(B)=(1/1+2/4+3/8)×1/3≒0.62

モデルAとモデルBを比較すると、モデルAの方が早い段階でヒットしているので、モデルAの方が良いモデルってことになります。

実際、モデルAの方のスコアが高いですね。

2012年03月26日

成果報告会の結果

データ解析コンペティションの成果報告会に行ってきました。

平成23年度データ解析コンペティション成果報告会http://www.isc.senshu-u.ac.jp/~thc0640/dac23.html

結果ですが、
【課題設定部門】は、GDO賞(1位)。
【一般部門】は、優秀賞(2位)。
でした。





完全優勝できなかったのは残念ですが、やりきった感はあります。

また、どのチームの発表も素晴らしく、課題部門、フリー部門のどちらもどのチームが優勝してもおかしくない内容だったと思います。

データコンペの出場は、いったん、今年で打ち切り。

完全に引退ってわけではなく、おもしろい&興味があるデータがある時は出ますし、今年は、国内の大会ではなく、海外の大会に出てみようかと考えています。

また、出場はしませんが、発表内容を聴きに会場には行く予定なので、引き続きよろしくお願いします。

2012年03月21日

平成23年度データ解析コンペティション成果報告会

「平成23年度データ解析コンペティション成果報告会」が3月26日(月)13:00〜NTTデータ豊洲センタービルで行います。

今年は、【課題設定部門】と【フリー一般部門】の二部門で発表です。
昨日が印刷用の原稿の〆切りだったのですが、無事に提出が完了。

フリー編、課題編とも、先日発表した「日本OR学会・DB学会 データ解析コンペティション」を大幅にバージョンアップしたものになっています。

お時間のある方は聞きに来てください。

平成23年度データ解析コンペティション成果報告会
http://www.isc.senshu-u.ac.jp/~thc0640/dac23.html

2012年03月03日

春のいずみ、フリー編

データ解析、コンペのフリー編の発表がありました。
課題編に引き続き、1位(殊勲賞)を頂きました。

ダブル受賞できるとは思っていなかったので、正直、驚きです。

他のチームの発表を見ていて感じたことは、、、
こういうアクセスログの分析って、リコメンドとか購買予測って話が多かったです。
多かったというか、うちのチーム以外、みんなそうでした。(^^;

ただ、ECサイトのリコメンドとかって、安価に提供している会社も多いですし、あえて内製でエンジンを作る管理費やコスト、そして、乗り換えためのスイッチングコストを考えると、ちょっと現実的ではない気がします。

もちろん、メルマガリコメンドをやったとして、多少のアクションを生み出すことは可能でしょう。
しかし、多くのアクションを生んでいるところ、かつ、制御可能な施策を考えると、集客部分の分析にフォーカスをした方がいいことは自然な発想かと思いました。

分析を始める前に、どこに目を付けるのかという全体俯瞰(森の部分)があり、さらに詳細の分析に入っていく(木の部分)というのが大切で、森を見たり、木を見たり、そして、また、森に戻ったりというステップが大切だと思います。

話を戻し、発表の後、その場にいた学生さんや教員の人と飲みに行きました。
みんなとても優勝な人で良い刺激になりました。

大学の周りって安く飲めるお店が多くて良いですね。

2012年02月25日

春のいずみ+

データ解析コンペ、OR学会、DB学会最終発表、課題部門で優勝しました!(・∀・)

20120225_img01.jpg

チーム名は、"春のいずみ+"
20120225_img02.jpg

うちの息子「春飛(はるひ)」と西郷さんの娘「いずみ」を足したチーム名です。

-----
とりあえず、優勝できたことは、素直に嬉しいです。

ただ、どこのチームも僅差だったと思うので、また、別のデータでやったら、順位は変わっていたのかなぁと思います。

こだわったポイントは、バランス力です。
こういうのって、何かのモデルをとことん突き詰めていくってのもありかと思います。

一方で、精度を上げるためには、どのモデルを使うか、そして、パラメータをどうチューニングするかってことも大切ですし、変数をどのように作りこむかも大切。

また、いくつかのチームが高すぎる精度を出していましたが、オーバーフィットの問題。
つまり、頑健性や安定性の担保も必要です。

さらに、今回は、単純な精度ではなく、カテゴリの正解率に重みをかけるという、配点方式なので、精度 ≠ 総得点となっています。
どういう戦略で得点を上げていくのかも考えなければなりません。

正直、会社の分析が激忙しい中、限られた時間で最高のアウトプットを出すには?にこだわり、上記の項目にバランスよく取り組めたのが良かったのかなぁと思っています。

最後は、いかにデータと真摯に会話できたかに尽きる部分もあります。

どこに着目したら、点数が少しでも上がるのか?ってことを分析して出てきた結果をみて、色々と考えていった積み重ねが、他のチームよりもホンの少しだけ点数が高かったのではないでしょうか。

来週は、フリー部門があります。
ほとんど手をつけていませんが、、、(笑
残り1週間がんばります!

2012年02月21日

データ解析コンペ、課題部門の最終発表

データ解析コンペ、課題部門の最終発表が、2月25日(土)にあります。
最終解答は送ったので、後はパワーポイントを作るだけです。

さて、審査基準が発表になりました。

優勝は、"最もスコアが高い結果を出したチーム"とのことですが、
2位と3位は、"スコアを重視しつつ、他の要素も考慮する"でした。

ちょっと残念が気がします。。。

フリー部門もあるので、他の要素(新規性、信頼性、適用可能性、発表の良さなど)などは、そちらに任せて、純粋に精度だけで判断をした方がわざわざ課題部門を作った意味がない気がします。

純粋に精度の高さで勝負する。
それが課題部門らしい気がするのですが。。。

2012年02月14日

データ解析コンペ、課題編の〆切

データ解析コンペの課題編の〆切が近づいてきた。

モデルの精度も重要なのだが、今回は、RFMのFとMのカテゴリによって配点が異なるということだ。



これをどのようにモデルに反映していくかも、意外と得点に影響が出てくる。

つまり、今回は、『高い精度のモデル ≠ 高い得点』となっている。

具体的に、どのような戦術/戦略を元にしたモデリング作りを行ったかは、2月25日の発表で。

2012年02月10日

IBM SPSS Modelerのコメント記法

IBM SPSS Modeler(旧 クレメンタイン)のコメント記法

別タブの中にコメントが書けるのだが、CLEM式の中にもコメントを書くことが出来ます。
これがあると、CLEM式が複雑になっても、何をやっているのかコメントできます。

(例)偶数と奇数を判別するCLEM式

if index rem 2 = 1 then "奇数"

elseif index rem 2 = 0 then "偶数"

else "不明" endif



コメントを書くまでもないけど。(^^;

◆ 1行コメント → # で書きます。

# 奇数かどうか

if index rem 2 = 1 then "奇数"

 

# 偶数かどうか

elseif index rem 2 = 0 then "偶数"

 

# その他

else "不明" endif



◆ 行頭からの複数行コメント → /* 〜 */ で囲みます。

/*

 改行コメント

  改行コメント

   改行コメント

*/

if index rem 2 = 1 then "奇数"

elseif index rem 2 = 0 then "偶数"

else "不明" endif



※ C言語などでおなじみの // によるコメントは使えません。

2011年12月12日

平均値の欠点

年末になると、年末調整とか冬のボーナスとかが気になりますね。
今日のニュースで、国家公務員のボーナスが4.1%増だったとか。

統計局のホームページから、年収や貯蓄の分布がダウンロードできます。
これによると、
年間収入の平均は、616万円
貯蓄の平均は、1,657万円
です。

どうでしょうか?
え?そんなに貯蓄しているんだっけ?って思う人も多いはずです。

「平均」という言葉は便利な反面、落とし穴的な欠点もあります。
ポイントは分布で、分布ってどうなっているんだっけ?ということを意識しておかないと、平均値の罠にひっかかります。

平均の利点
・ 計算が簡単
・ 平均を足したり、引いたりできる
・ どんな分布だろうと標本平均の分布は正規分布に近づく(中心極限定理)

平均の欠点
・極端に大きな値や小さな値の影響を受けてしまう

「平均 ≠ ちょうど真ん中の人」です。
⇒ 分布が正規分布していない場合は、中央値(中位値)を使うのが良い。

今回の年収やら貯蓄ってのは、左右対称の正規分布になっていません。
分布の山は左側に寄っているので、○○の平均はって言葉に騙されてしまいます。

データは、下記からダウンロードできます。
◆ 統計局ホームページ/家計調査年報(貯蓄・負債編)
http://www.stat.go.jp/data/sav/np.htm

※ 2011年8月26日発表のデータです。


社会生活統計指標―都道府県の指標〈2011〉

社会生活統計指標―都道府県の指標〈2011〉

  • 作者:
  • 出版社/メーカー: 日本統計協会
  • 発売日: 2011/02
  • メディア: −


2011年12月07日

近代統計科学の創始者、カール・ピアソン

カール・ピアソン(Karl Pearson)について調べた。
近代統計科学の創始者と言われているだけあって、業績は数多くあるが、主なものとしては、次のようなもの。

◆ 線形回帰、相関とピアソンの積率相関係数
ゴルトンの相関概念を一般化し、重相関係数や偏相関係数という概念を作った。

◆ 標準偏差
標準偏差、最頻値(モード)の概念を創案した。
ちなみに、中央値(メジアン)、四分位数は、ゴルトンの創案。

◆ 確率分布関数の分類
以後の統計学理論の基礎となり、特に指数型分布族は一般化線形モデル理論の基本となっている。

◆ χ2(カイ2乗)分布の再発見
ピアソンのカイ二乗検定:カイ二乗検定のうち最も基本的なものである。

◆ ヒストグラムという語を創案した。


また、人材育成にも力を入れており、全世界から研究者が集まった。
彼の著書『科学の文法』に影響を受けた人が多く、アルベルト・アインシュタインもこれを読んだそうな。

日本人では、夏目漱石、寺田寅彦が影響を受けた。
夏目漱石は、留学時代に実際にピアソンの講義を聴いたとか!

夏目漱石は、1867年2月9日 - 1916年12月9日
ピアソンは、1857年3月27日 - 1936年4月27日
と同じ時代を生きたんですね。

『科学の文法』The Grammar of Science Karl Pearson(1892年)
Amazonで売られていた!

The Grammar of Science

The Grammar of Science

  • 作者: Karl Pearson
  • 出版社/メーカー: Cosimo Classics
  • 発売日: 2007/03/31
  • メディア: ペーパーバック


2011年12月03日

アトリビューション分析の向かう先

ひょんなことから、西郷さんの師匠である先生に会いに行きました。
そこで、アトリビューション分析について話す機会があったのですが、
なかなか良い議論ができた気がします。

そして、その中でぼんやりと次の発展系が見えてきました。

まだ、頭の中にもわもわっとしたアイデアレベルなのですが、今年中にアイデアを形にできればと思います。

その後は、筑波大学大学院の近所にある居酒屋に行きました。

スモーク系が美味しいお店です。
【茗荷谷駅】いぶしや
http://r.tabelog.com/tokyo/A1323/A132302/13052505/

金曜日だけど、あんまり混んでいなかった。。。w
学生が多いからでしょうかね。

2011年11月18日

数理システム ユーザーコンファレンス 2011

今日は、夕方から社内に戻る必要があったので、午前と午後の講演を少し聴いて社内に戻りました。
午前は、朝野熙彦(ひろひこ)先生による「マーケティング実務家にとってのデータ解析」という内容でした。

当時、安価なパソコンも素敵な統計解析のツールもない時代にフォートランを使ってシステムを書かれていたとか。

なかなか聴けない貴重な講演を聴くことができました。

講演の中で朝野先生おススメの統計の本が紹介されてました。
統計を学習するにあたり、避けては通れない大切な部分を丁寧に解りやすく紹介しているとのことでした。

これからはじめる統計学

これからはじめる統計学

  • 作者: 蓑谷 千凰彦
  • 出版社/メーカー: 東京図書
  • 発売日: 2009/10/08
  • メディア: 単行本




統計学入門

統計学入門

  • 作者: 蓑谷 千凰彦
  • 出版社/メーカー: 東京図書
  • 発売日: 2004/12
  • メディア: 単行本




朝野先生自信も新しい本を書いたとか。
後で買っておこうっと♪

アンケート調査入門

アンケート調査入門

  • 作者: 朝野熙彦
  • 出版社/メーカー: 東京図書
  • 発売日: 2011/10/08
  • メディア: 単行本(ソフトカバー)




最新マーケティング・サイエンスの基礎 (KS社会科学専門書)

最新マーケティング・サイエンスの基礎 (KS社会科学専門書)

  • 作者: 朝野 煕彦
  • 出版社/メーカー: 講談社
  • 発売日: 2010/12/07
  • メディア: 単行本(ソフトカバー)


2011年11月10日

BAF 2011 2日目

Business Analytics Forum 2日目 に行ってきました。
2日目の方がSPSSらしいセミナーで良かったですw

以下、ざっと感想を。

【2S-1】
IT進歩が支える新しい産学協同の取り組み
―きき耳パネルはこうして作られた!―

清水先生の講演は、いつ聞いても面白いですね。
聞き耳パネルを利用するには、マイボイスコムを使うとできるらしい。

【2S-3】
IBM SPSS Modeler TIPsよたび!ユーザーの皆様必見!
―裏ワザ的便利機能を濃縮還元―

西牧さんの発表。
今回で4回目になるんですね。
いつも、楽しみにしています。

今回の発表が素晴らしすぎたので、次回の発表の期待値が上がりまくりです。