読者です 読者をやめる 読者になる 読者になる

無限壁破り駆動開発 <colspan=∞>

テーマは北海道, オープンデータ, Web技術, HTML5, d3.js, カメラ, 韓国語, Javascript, Ruby, Python

北海道工業統計(平成26年速報値)

北海道が発表した工業統計の平成26年速報値を可視化してみた。 事業所数と従業員数は経済規模通りの結果である一方、出荷額と1人あたりの出荷額において意外な結果が得られた。

平成26年工業統計速報

事業所数(平成26年)

ほぼ経済規模通りである。札幌近郊が強い。

f:id:colspan:20151221222716p:plain

順位 市町村名 事業所数
1 札幌市 935
2 旭川市 335
3 函館市 280
4 小樽市 235
5 苫小牧市 207
6 釧路市 174
7 帯広市 135
8 室蘭市 132
9 石狩市 124
10 上砂川町 123

従業員数(平成26年)

こちらも事業所数と傾向は同じで、ほぼ経済規模通りである。

f:id:colspan:20151221222918p:plain

順位 市町村名 人数
1 札幌市 27,277
2 苫小牧市 11,110
3 旭川市 8,025
4 函館市 7,760
5 室蘭市 7,723
6 小樽市 7,084
7 千歳市 7,013
8 釧路市 4,776
9 帯広市 4,726
10 恵庭市 4,062

製造品出荷額等(平成26年)

苫小牧と室蘭が札幌の倍以上の出荷額を誇っている。 特筆すべきは2位の室蘭で、非常に面積が小さい(80.65平方キロメートルで道内170位)にもかかわらず、工業都市として苫小牧に匹敵する規模を持っている。

f:id:colspan:20151221224642p:plain

順位 市町村名 値(万円)
1 苫小牧市 139,098,710
2 室蘭市 129,820,250
3 札幌市 52,576,701
4 千歳市 24,567,929
5 釧路市 23,550,079
6 旭川市 18,739,626
7 函館市 16,950,816
8 小樽市 16,272,541
9 帯広市 13,536,677
10 恵庭市 13,288,614

1人あたりの出荷額(平成26年)

f:id:colspan:20151221222640p:plain

出荷額を従業員数で割った数値である。 一人あたりの出荷額は室蘭が1億7千万円でダントツである。 そして2位以降の市町村たちが番狂わせまくりでカオスである。

佐呂間町枝幸町、猿払村、仁木町、浦幌町では何が起きているのか気になる。 この点については追加調査をしたうえでの後日報告とさせていただきたい。

順位 市町村名 値(万円)
1 室蘭市 16809.5623
2 佐呂間町 12812.4655
3 枝幸町 7745.2822
4 猿払村 7017.1351
5 仁木町 6907.4318
6 浦幌町 6585.2338
7 音更町 6412.2422
8 斜里町 6239.4817
9 芽室町 6046.3506
10 釧路市 4930.9211

北海道の耕地面積

北海道データ分析

北海道には11,550平方キロメートルもの耕地面積がある。これは2位の茨城に7倍の大差をつけて全国1位である。

その耕地面積を農林水産省が発表している資料をもとに詳しく市町村別の内訳を見てみる。

今回参照する資料

農林水産省が公表している「平成23年 市町村別耕地面積(北海道)」を用いる。 この資料には内訳として畑と田んぼの面積も記載されている。

耕地面積(計)

耕地面積の1位は別海町である。別海町は牛の数も1位で、いかに農業に特化した市町村であるかがわかる。 その他上位には道東の市町村が多く、特に十勝地方の面積が大きい。

f:id:colspan:20151209224759p:plain

順位 市町村名 面積(ha)
1 別海町 63600
2 標茶町 30000
3 中標津町 24600
4 音更町 24300
5 北見市 24000
6 帯広市 23000
7 幕別町 22600
8 芽室町 21400
9 岩見沢市 19900
10 士別市 16800

耕地面積の合計と傾向は変わらず道東地域に耕地が集中している。 山脈より東側には平野部が広がっているため、大規模な耕地が存在する。さらに、1年を通して雨量が少なく乾燥しているため、じゃがいもや大豆に適していることがさらに耕地面積を増やす動機になっていると想像する。

f:id:colspan:20151209224842p:plain

順位 市町村名 面積(ha)
1 別海町 63600
2 標茶町 30000
3 中標津町 24600
4 音更町 23900
5 帯広市 23000
6 北見市 22900
7 幕別町 22600
8 芽室町 21400
9 士幌町 16000
10 清水町 15000

田んぼ

f:id:colspan:20151209224857p:plain

田んぼは道央の市町村に集中している。 これは山脈より西の地域において雨量が多いためであろうか。 ところで、もともと北海道は火山灰土が中心であるため、稲作には向かなかったはずである。これだけの耕地が確保できたのは、農業に携わる方々の土壌改良の努力の賜である。

順位 市町村名 面積(ha)
1 岩見沢市 16400
2 旭川市 10800
3 士別市 9190
4 長沼町 9060
5 美唄市 8750
6 深川市 8650
7 当別町 6090
8 名寄市 5230
9 南幌町 5180
10 新篠津村 4840

耕地率

f:id:colspan:20151209224909p:plain

耕地面積1の別海町は総面積も1320平方キロメールと.大きいため、1位になるのはある程度必然とも言える。そこで面積のバイアスをなくすために、総面積に占める耕地面積の割合を計算した。 その結果、ランキングは総面積の小さな市町村がTop6となっている。1〜5位は道央に集中している点と、比較的小さな市町村であることが共通点である。 6位以下の上位は道東に集中しており、特に十勝地方が多い。このことは、十勝地方は地域一帯として別海町と同規模かそれ以上の耕地を持っていると言える。 なお、50%を超える市町村が8、30%を超える市町村が30も存在した。いかに北海道において農業が盛んかがわかる。

順位 市町村名 耕地率
1 妹背牛町 0.7085
2 南幌町 0.6958
3 長沼町 0.6712
4 新篠津村 0.6582
5 秩父別町 0.6538
6 更別村 0.6517
7 士幌町 0.6175
8 音更町 0.5214
9 剣淵町 0.4947
10 別海町 0.4817
11 幕別町 0.4728
12 東神楽町 0.4706
13 滝川市 0.4498
14 中富良野町 0.4462
15 由仁町 0.4408
16 芽室町 0.4164
17 岩見沢市 0.4136
18 大空町 0.3987
19 江別市 0.3871
20 清水町 0.3730
21 帯広市 0.3716
22 訓子府町 0.3714
23 小清水町 0.3623
24 中標津町 0.3591
25 浜中町 0.3519
26 浦臼町 0.3482
27 美唄市 0.3404
28 安平町 0.3167
29 鷹栖町 0.3127
30 本別町 0.3061

北海道の牛の飼育数

北海道データ分析

独立行政法人家畜改良センターが公開している牛個体識別全国データベースの集計結果をを可視化しました。 要するに、何頭の牛を飼っているか、です。

飼育頭数

f:id:colspan:20151201212939p:plain

別海町が1位です。道東に集中しています。 士幌、清水、上士幌、新得、鹿追、大気、帯広は十勝です。

順位 市町村名 施設数
1 別海町 110,936
2 士幌町 69,945
3 標茶町 54,339
4 清水町 53,921
5 中標津町 44,557
6 上士幌町 32,985
7 新得町 32,159
8 鹿追町 30,958
9 大樹町 28,489
10 帯広市 26,925

飼育施設数

f:id:colspan:20151201214331p:plain

同じく別海町が1位です。2位の中標津町に倍以上の差をつけるぶっちぎりの数ですね。 十勝の幕別、清水、足寄頑張った。

順位 市町村名 施設数
1 別海町 790
2 中標津町 336
3 標茶町 322
4 浜中町 207
5 湧別町 193
6 幕別町 181
7 清水町 179
8 足寄町 168
9 豊富町 151
10 稚内市 150

1施設あたりの飼育頭数

f:id:colspan:20151201214340p:plain

頭数を施設数で割った数字です。顔ぶれが変わります。十勝の士幌、新得、芽室、上士幌よく頑張った。 3桁になると、もう工業的な規模ですね。

順位 市町村名 1施設あたりの飼育数
1 愛別町 554.17
2 士幌町 529.89
3 新得町 527.20
4 厚沢部町 512.00
5 芽室町 376.28
6 白老町 360.85
7 上士幌町 358.53
8 上富良野町 350.29
9 白糠町 333.30
10 上川町 326.75

人口比

f:id:colspan:20151201214348p:plain

頭数を人口で割った数字です。 衝撃的なのはこのデータ。人より牛が多いんです。 しかも、数値が1.0を超えるのは51市町村もあるんです。 ただし流石に全道規模では人のほうが多いです(牛134万頭、人口538万人)。

順位 市町村名 飼育頭数の人口比
1 士幌町 10.94
2 別海町 7.00
3 標茶町 6.79
4 上士幌町 6.70
5 鶴居村 5.56
6 鹿追町 5.53
7 清水町 5.45
8 新得町 4.98
9 大樹町 4.87
10 豊頃町 4.83

まとめ

  • 北海道には道東に牛が多い
  • 北海道には人より牛が多い市町村が51ある

北海道道東地方における大雪

北海道データ分析

昨日から本日にかけて、北海道の道東では記録的な大雪が振りました。 釧路や十勝では平年の10倍に達する雪が降っています。

www.asahi.com

観測記録的に見て、今回の大雪は大変珍しいことです。 北海道には大雪山日高山脈など、中央に山脈が連なっています。日本海側から吹いてくる季節風の湿った空気はここで遮られるため、道東には雪が降りにくいのです。

日高山脈 - Wikipedia

しかし、今年は全く様子が違います。 道東地方の平年比が大幅に高まっています。 11月はほとんど積もらないのが普通です。

f:id:colspan:20151127215141p:plain f:id:colspan:20151127215426p:plain

現在の天気予報を見ると雨も振りそうですね…。 足元が怖いです。

出典

www.data.jma.go.jp

北海道に関するデータの可視化をコツコツやってみます

北海道データ分析

先日公開した北海道観光客統計データ閲覧くんを軸に、北海道に関する様々なデータに触れる機会を得ました。 目で見て考えることが、いかに地元の理解を深めることに繋がるかを知りました。

北海道には観光資源が多いことや、北海道新幹線の開通が間近であることなど、明るい話題があるように見えます。その一方で、他の都道府県と同じように過疎化や不況に苦しんでいることも事実です。

北海道には179市町村があります。面積は83,450平方kmもあります。もちろん全国で一番です。ただ、広すぎるが故に北海道にいた頃の私は、地元で何が起こっているかを俯瞰することができませんでした。

しかし、今では自治体のWebサイトに問い合わせれば欲しいデータをすぐ入手できます。世の中の道具を組み合わせて簡単に可視化できます。 だから、毎日コツコツと可視化してみようと思います。

いつかこの積み上げが、都市部への一極集中を食い止める施策につながればうれしいです。

f:id:colspan:20151127212500p:plain

北海道オープンデータハッカソンに参加しました

去る2015年10月17日(土)、北海道札幌市で開催された北海道オープンデータハッカソンin collaboration with W3C Developer Meetup in Sapporoに参加しました。 そこで北海道の観光客統計データの閲覧ツール北海道観光客統計データ閲覧くん」を発表し、クリプトン賞を頂きました。 札幌で大学生活を送った自分には、里帰りの気持ちになれる素晴らしい機会でした。今回のイベントを企画された皆様に本当に感謝しています。

opendata.doorkeeper.jp

発表資料

www.slideshare.net

当日の模様

会場は道庁前のクリプトン・フューチャー・メディア株式会社の会議室でした。素晴らしいオフィスです(私が札幌に住んでいた10年前にこのビルはなかったはず)。 f:id:colspan:20151017194338j:plainf:id:colspan:20151017194342j:plain

f:id:colspan:20151017095506j:plain

オフィスの窓からは道庁の姿も見下ろすことができます。

私はツールの開発を事前に終えていたため、当日はチームを組んだ丸田さん、本間さんと実際にツールを用いてお互いの地元について分析を行いました。お二人からは素晴らしい気づきを得ることができました。

他のチームの方々も短時間の開発であるにもかかわらず、当日に動くものを仕上げていたことに感動しました。 (各プレゼンに聞き入ってしまって写真を全然撮らなかったのが悔いです…)

中でもお気に入りは「バスを使って旬なお魚温泉マップ」です。旬なお魚を視覚的に理解できる教養ツールに仕上がっています。

SAKANA Map in Hokkaido

成果発表後の懇親会では、お互いの作品について、さらにオープンデータ利活用について様々な議論をすることができました。 志の近い方々と非常に濃密な情報交換ができたので、関東から参加して本当に正解でした。北海道のオープンデータのキーマンとなる方々に知り合えたことが本当に大きい。 オープンデータが抱える問題、北海道が抱える問題がよりはっきりと見えてきました。 これからも札幌に通わなきゃいけないかもしれない…。

オフタイム

f:id:colspan:20151017085713j:plain

ハッカソンのあとは、妻と美食の旅を堪能しました。 北海道の今時期は旬の食材の宝庫。 何を食べても超美味しい。

f:id:colspan:20151018112650j:plainf:id:colspan:20151018114716j:plainf:id:colspan:20151018143406j:plainf:id:colspan:20151018143822j:plainf:id:colspan:20151018143843j:plainf:id:colspan:20151017220443j:plain

北海道は本当にいい場所です。今でも大好きです。

北海道の市町村を観光客統計データでクラスタリングする

北海道データ分析

背景

私はこの数ヶ月間、北海道の観光客統計データを用いて地元の観光について調べている。 出身地にどのような特色があるのか、改めて知りたいと思ったからである。

北海道はオープンデータとして北海道観光入込客数調査報告書を公開中である(CC BY 2.1)。 過去15年分の各市町村における観光客数の月次推移をまとめたものである。延べ総数だけでなく、道外・道内、日帰り・宿泊などの詳細な内訳も含まれている。 そのため、各市町村がどのような特色を持っているかを知ることができる。

しかし、データそのものは無機質なスプレッドシートで、閲覧性に乏しい欠点があった。 市町村、内訳項目、時期など様々な分析軸があるにもかかわらず、閲覧・可視化には手作業による加工が多分に必要であった。

そこで、私は愚直にデータをクレンジングして機械可読化した上に、ヒートマップや各市町村の統計データを閲覧できるツールを作成した。 これにより、飛躍的に閲覧性が高まり、北海道全体の観光の特徴を俯瞰できるようになった。

(本ツールは2015年10月開催の北海道オープンデータハッカソンにてクリプトン賞を頂きました。別件にて起稿予定)

課題

しかし、視覚的に俯瞰できるようになっても、似た特色を持った自治体を探るのは手作業である。 北海道は市町村は179もある。人間には根気が続かず、到底無理である。

藤原製麺 札幌円山動物園白クマ塩ラーメン 112.4g×10袋

藤原製麺 札幌円山動物園白クマ塩ラーメン 112.4g×10袋

手段

機械学習を使って似た特色を持った自治体を探す。 具体的には観光客統計データの1年分の月次推移を12次元ベクトルデータに見立てて、市町村をクラスタリングする。アルゴリズムにはk-meansを用いる。

統計データは北海道観光入込客数調査報告書の2011年度、2012年度(2012年1月〜2012年12月)のデータを用いる。メトリクスは道外観光客数を用いた。道外観光客のほうが、より北海道らしい場所へと行く傾向があると仮定したからである。

クラスタリング結果

結果は以下のようになった。

f:id:colspan:20151028224450p:plain

クラスタ数は手作業で探り、直感的に良いと感じた k=12 に落ち着かせた。 観光客数の絶対数も類似度に含めるため、各ベクトルは正規化しなかった。

考察

思いの外よくまとまった。 ある実行結果から20市町村以下となったクラスタを抜粋し、それぞれに名前をつけてみる。

孤高の都市たち

これらはそれぞれ単独クラスタとなった。北海道を代表する観光地であり、個性をはっきりと示せている都市である。

札幌市

f:id:colspan:20151109195441p:plain

小樽市

f:id:colspan:20151109195457p:plain

旭川市

f:id:colspan:20151109195511p:plain

函館市

f:id:colspan:20151109195521p:plain

あと一歩で孤高の都市

一定規模の観光資源・産業規模はあるものの、孤高の都市にはなりきれなかった都市たちである。 上川町、斜里町洞爺湖町は温泉で有名であるが、なぜかそこに混じってしまう帯広市釧路市。 そして、犬猿の仲である帯広と釧路が交わらないところも実態をよく表している。 登別市千歳市が似ている実感はないが、いずれもGWと夏休みの間の6月にがくんと数を下げる点では一致していた。

(組み合わせA)

f:id:colspan:20151109195553p:plain

(組み合わせB)

f:id:colspan:20151109195603p:plain

(組み合わせC)

f:id:colspan:20151109195611p:plain

スキークラスタ

文句なくスキー場である。ここまで綺麗にくくり出せるとは。

f:id:colspan:20151109195634p:plain

北の国からクラスタ

あーあーーーあああああ~~~~~~~~~。

f:id:colspan:20151109195644p:plain

知る人ぞ知る観光地クラスタ

これらは一定数の観光客を集めているという点で集まった模様である。 いずれも道の駅に寄りたくなる感じがする市町村である。

f:id:colspan:20151109195652p:plain

ソースコード

上記の実験結果はgithubにて公開中である。

github.com

展望

海外観光客や人口のメトリクスを足したり、時系列要素を年またぎで足したり、主成分分析を組み合わせたりすればもっといろんな視点で類似する自治体を集められる気がする。

実践 機械学習システム

実践 機械学習システム

データサイエンティスト養成読本 機械学習入門編 (Software Design plus)

データサイエンティスト養成読本 機械学習入門編 (Software Design plus)

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

Pythonによるデータ分析入門 ―NumPy、pandasを使ったデータ処理

参考文献

2015/11/04追記

クラスタリング結果の閲覧性を高めました。github pagesにて公開します。