15 minute read

風音屋(@kazaneya_PR)代表 ゆずたそ(@yuzutas0)です。 この記事は、Google Cloud Champion Innovators Advent CalendarBigQuery Advent Calendardatatech-jp Advent Calendar 2023 24日目の記事となります。

2023年11月に、Google Cloud Next Tokyo ‘23 というカンファレンスで「大学におけるデータ分析の授業」について話をしました。 この記事は発表内容の文字起こしとなります。講演スライドについては以下に公開しております。

ありがたいことに当日は「満席+3列以上の立ち見(別のブースまで人が溢れた)」「アンケート満足度5点中5点」「登壇10分に対して質疑応答30分」と好評でした。 データ分析に関わる方々にとって有益なケーススタディ&リファレンスアーキテクチャになるかと思いますので、ぜひ参考にしていただければと思います。

登壇の様子

(以下、文字起こしとなります。)


自己紹介

スライド

それでは「データ分析の授業における Google Cloud の活用事例」というお話をさせていただきます。

スライド

まずは自己紹介です。株式会社風音屋の代表取締役、横山と申します。 SNSやコミュニティ活動では「ゆずたそ」(@yuzutas0)というハンドルネームで活動しています。よかったらぜひフォローしてください。 Data Analytics分野で「Google Cloud Champion Innovator」として任命されております。

また、東京大学の特任研究員を兼任しております。 東大では民間企業のデータを用いた研究を行っており、内閣府に論文を投稿していたりします。 今回は私が東大の学部生向けに実施した「データ分析」の授業について紹介させていただければと思います。

他にも、データ分析やデータ基盤、データマネジメントといった分野でいくつか専門書を執筆・出版しております。 データ分析でよく使われるプログラミング言語「Python」のカンファレンス「PyCon JP」で賞を取ったりですとか、Google Cloud Day というカンファレンスや日本統計学会など、Google Cloud やデータ分析に関するお話を各所でさせていただいております。

スライド

次に、風音屋の紹介です。風音屋では、データ基盤の構築や保守運用、データ分析のコンサルティングといったサービスを提供しております。 売上が何兆円もあるような超大手クライアントから、登記したばかりのスタートアップまで、幅広い規模・業種・業界のご支援をさせていただいております。 今回「データ分析」の授業を行うにあたって、風音屋のバックアップのもとで分析環境やデータを整備しました。

データ分析教育の課題と理想

スライド

現在、色々な場所でデータ分析の授業や教育コンテンツが提供されてるかと思いますが、現状(AsIs)と本来あるべき姿(ToBe)にはギャップがあると考えております。 ここでは4つの観点でご紹介します。

1つ目の「教育」という観点で申し上げますと、現状、座学によるインプットが多かったりですとか、利用可能なオープンデータが限定されています。 一方、実務におけるデータ分析では、教科書に出てくるサンプルデータほど綺麗に整えられていなかったりですとか、データ量が多かったりですとか、リアルなデータならではの特徴というものが多々あるかと思います。 ですから、リアルなデータを用いて実践的なデータ分析の機会を提供することが、本来は必要だろうと考えております。

2つ目の「インターフェース」はツールに関する話となります。 学生のノートPCにインストールして動作するような分析ソフトだと、あまりよろしくないのかなと思っています。 複数名でのグループワークに向いていない、画面を見せてもらわないと講師がデバッグやレビューを手伝いにくい、教室に集まって分析結果をモニターに投影しないとディスカッションがしにくいといったデメリットがあります。 分析ノートブックをクラウドで管理して、学生と講師が同じURLにアクセスするだけで分析内容を確認できて、コラボレーションしていけるような環境が必要なのだと考えております。

3つ目の「ITインフラ環境」について、授業ごとに分析環境を構築するのは、やはり大変かなと思っています。 講師が事前に準備するのも大変ですし、学生に環境を構築してもらうにしても、特に情報系ではない分野(経済学など)の学生ですと、環境構築は特につまずきやすいポイントとなります。 授業ごとの実験環境・分析環境というのを、クラウドで簡単に準備できる方が、なにかと望ましいでしょう。

4つ目は「セキュリティ」ですね。 研究室と企業が共同研究を行う場合ですとか、企業からリアルなデータを提供していただくという場合には、やはりセキュリティやコンプライアンス面での考慮が必要となります。 ToBeとしては、授業の関係者以外がアクセスできないように分析環境を独立させたり、データ提供時には機密情報をマスキングするとか、授業期間が終わったらデータを破棄して監査レポートを提出するといったガバナンス施策を講じることになるかと思います。

我々は今回、データ分析の授業を行うにあたって、この理想像(ToBe)を実現していきました。 同じような取り組みに関心のある方々は、ぜひ参考にしてみてください。

授業の概要

スライド

こちらが今回実施した授業の概要となります。 東京大学の経済学部で「Pythonを使ったデータ分析の実践」について授業を行いました。 開催期間は2023年度の春学期です。夏休みに入るまでの間、5月から7月までとなります。

授業の位置付けとしましては、渡辺努ゼミのプロアクティブラーニングセミナーという、いわゆるサブゼミになります。 単位が出ますので、きちんとした授業です。 該当ゼミに所属する学生が参加者です。 3年生と4年生を合わせて、学部生14名が対象となります。

メインの講師としては私(横山)が担当しております。 ゲストとしては、今回データを提供してくださったNE株式会社からは執行役員・三原様とデータマネジメント担当・熱田様のお2人、Google Cloud Japanからは山田様が、授業の最終日に参加してくださいました。

スライド

こちらがゲストの皆様の写真となります。 東大の赤門前で、左側よりNEのお2人で、中央に私が続き、一番右がGoogle Cloudの山田様です。

本当は授業風景を掲載したかったのですが、大学の事務局に相談したところ「学生のプライバシー保護のため授業風景の撮影は禁止」という回答をいただきまして、やむを得ず、赤門前の写真で妥協したという形になります。 少しでも雰囲気が伝わればと思っています。

余談ですが、ちょうど赤門は工事中か何かで、足元には工事中の看板があるんですよ。 写真だと上手いこと足元をカットしています。 そうしないと、4人の旅行客が赤門を観光して記念撮影しているようにしか見えなかった(笑)。 各社に「ゲスト講師がちゃんと授業に参加しましたよ」と分かる写真を送りたかったので、ちょっと焦りました。

スライド

授業のスケジュールとしてはこんな感じです。 4つのステップに分かれております。 初日はプログラミング言語である「Python」の基本的な紹介とハンズオンを行いました。

そして、授業の前半では、Pythonを使って計量経済分析のハンズオンを行いました。 神戸大学の春山先生が「Pythonで学ぶ入門計量経済学」というテキストをWebで公開していらっしゃいますので、こちらの教材を使わせていただきました。 授業では「パネルデータ分析」というパートまで実施しました。

余談ですが、この教材を使っていたところ、いくつか細かいミスを見つけまして、修正をプルリクエストで送ったところ、春山先生が快く受け入れてくださいました。 改めてこの場でもお礼を申し上げます。

授業の後半では、ネクストエンジンの取引データを使った実証分析を行いました。 このデータについては次のスライドで紹介しますが、いわゆるECサイトの通販データでして、これを天候などのオープンデータと組み合わせて重回帰分析を行ったりですとか、商品カテゴリ別に物価指数の推移を可視化するといった取り組みを行いました。

授業の最終日ではゲストを招いて成果発表会を行いました。 先ほど紹介したゲストの一同を招き、プレゼンテーションと質疑応答を行いました。

授業で用いたデータ

スライド

今回の授業で使用したデータを紹介します。 民間企業から提供いただいたデータとしては、今回、NE株式会社様からネクストエンジンのデータを提供いただいております。

NE様は、複数のネットショップを横断で管理するSaaS型EC Attractions「ネクストエンジン」を提供しています。 これは例えば、私がファンの皆様に対して、自分のオリジナルグッズをオンラインで販売したいと思ったときにですね、楽天やアマゾンといった複数のネットショップで商品を販売し、横断管理できると、そういったツールになっています。

日本国内のEC市場が年間で約13兆円だという報告がなされてるんですけども、ネクストエンジンでは、そのうち1兆円を超える流通データを保有していらっしゃいます。 ステークホルダーに迷惑をかけないようにマスキングやサンプリングをしていますが、1兆円規模の取引データを授業や研究で扱うというのは、研究機関・教育期間としてはたいへん貴重な機会だと認識しております。

NE様では、dbtによるデータモデリングですとか、生成AIを用いて商品名からカテゴリを自動で判定するといった、テクノロジー活用も積極的に行っています。 そうした取り組みについては、NE様と風音屋とで5月にGoogle Cloud Day Tour ‘23で共同発表しておりますので、良かったらこちらの資料もご覧ください。

今回はAnalyticsHubというBigQueryの機能を用いて、マスキングデータ、取引の詳細内容が見えないようにしたデータというのを、授業用に連携していただいております。

スライド

民間企業の取引データとは別に、天気、気温、カレンダーといったオープンデータを利用しております。 天候や気温で売れ行きが変わるのではないか。 休日と平日とで通販サイトの使い方が変わるのではないか。 そういった仮説をもとにしてデータ分析を行えるようになります。

以下3点のデータを引っ張ってきてます。

1つは技術コミュニティ「BQ FUN」が提供する「加工済みオープンデータ」というものを使っております。 BQ FUN を運営しているna0さんは風音屋アドバイザーの1人で、この発表の次にお話をされるので、良かったらそちらもぜひ聞いてみてください。

次に、株式会社truestar様が提供してくださっているPrepper Open Data Bank(PODB)というデータです。 データウェアハウス製品の1つであるSnowflakeでのデータ提供となっております。

最後に Google Cloud のマーケットプレイス上のデータも活用しております。

データ分析環境

スライド

これらのデータを授業で使うために、このようなシステム構成でデータを連携しています。 基本的にはAnalyticsHubで外部からデータを取得して、授業用環境のBigQueryにデータを集約し、Vertex AI Workbenchというツールで分析を行います。 それぞれ詳しくお話します。

まずは左上です。 データ提供企業のGoogleCloudプロジェクトにデータ基盤があります。 BigQueryですね。 ここからAnalyticsHub経由でマスキングデータを提供いただいております。

その下にあるのがBQ FUNのGoogleCloudプロジェクト。 これもBigQueryですね。 Analytics Hubでオープンデータを提供いただいております。

一番下にあるのがtruestar様のPODBです。 Snowflakeのデータシェアリングという機能を使っていますので、風音屋のSnowflake環境でデータを受け取って、そこから風音屋のBigQueryにデータを受け渡しています。 SnowflakeとBigQueryを併用している部分が、風音屋の「オープンデータ収集基盤」という一連のシステム郡です。

スライドの右半分は、データ分析の授業で使うための独立したGoogle Cloud環境となります。 権限を厳密に管理し、この環境の中でデータ分析作業が完結するようにしています。 左上の「企業提供データ」や左下の「オープンデータ」を右の授業用環境のBigQueryに連携しています。

そのBigQueryのデータを使ってVertex AI Workbenchでデータを分析しています。 Vertex AI Workbench はGoogle Cloud で動くJupyter Lab / Jupyter Notebook のようなツールです。 こちらで学生たちがデータ分析を行い、分析結果をレポートとしてまとめました。

この分析環境での学生たちの作業内容については、監査ログを取得しておき、データ提供会社に対して監査報告という形でレポートをお渡ししています。 正確にはGoogle Cloudプロジェクトの外側でも色々とセキュリティ系の取り組みをやっているのですが、詳細は割愛します。

成果発表

スライド

データ分析環境を提供し、学生たちにはデータ分析に挑戦していただきました。 最終日には、こういった成果発表が行われました。

例えば、特定の商品カテゴリの物価がどのように変動しているのか。 国が出している「CPI」という物価指数と連動してるのか、それとも違うのか。 物価変動の内訳が、高価格帯の商品がたくさんあるのか、低価格帯の商品がたくさんあるのか、それともどの商品も同じような価格帯なのか、といったことを分けて可視化しています。

授業アンケート

スライド

こちらは事業のアンケート結果です。 「物価やプログラミングの知識をつけて、もっといろんな分析をしていきたい」といった意見があります。 先ほどから物価の話をしているのは、物価に強いゼミだからです。 担当教官は物価の専門家ですから、物価について学ぶには日本で一番恵まれた環境と言えます。 恵まれた学習環境を、優秀な学生たちが活かすためのきっかけになったのであれば、日本社会にとって有益な取り組みだったと言っても過言ではないでしょう。

他にも「統計の学習という枠から抜け出して様々な現場での応用方法を想像できました」 「実践的なデータ分析を体験することができました」「大変だったけど達成感を得られました」 「与えられた課題を解くだけじゃなくて、どんな分析をするのか方針を立てるところから学ぶことができてすごく面白かった」といった感想が挙げられています。

スライド

また、「授業の教科書で学んだことをPythonで手を動かしながら確認できた」ということで、メインの授業との相乗効果があったようです。 アンケートには載っていませんが、学生との雑談で「教科書の内容が分かるようになった」というコメントもいただきました。 日本の全ての大学で同じ取り組みをやると良いのではないかと、私は勝手に思っています。 大学関係の偉い人たちにこの発表が届いてほしいですね。

「最初はプログラムを書くことや統計手法を難しく感じていた」「実際にやってみると分析計画を立てたり考察を書く方が難しかった」という旨のコメントもあります。 これは仕事でも同じですよね。 PythonやSQL、BIツールを使うこと自体は難しくないわけです。 何となくデータをこねくり回したり、言われたとおりにデータを集計・抽出するだけだと、ちょっとバリューは出しにくい。 学部生が大学で学問を学んだり、ゼミ論/卒論で研究の進め方を練習することの意義もそこにあるのかなと思います。

「今授業でやってる分析手法をこういうふうに使うことができるのか、という活用先を知ることができてすごくモチベーションが上がった」 「マーケティングやビジネスの最前線で働いてる人たちからフィードバックをいただいたのがすごく貴重な機会だった」 「実際のデータ分析の雰囲気を体験できて楽しかった」 といった意見なんかをいただいており、院進学をするにせよ、官民に就職するにせよ、ポジティブな学びや刺激になったのではないかと思っています。

最後の意見もありがたいですね。 今回はお試しのようなもので「とりあえず半期の授業をやってみよう」と始めたところ「ぜひ来年度もやってほしい」といったコメントをいただいております。 あとは「通年でやってほしかった」といったコメントも嬉しかったですね。 総じて好評だったと受け取っています。

スライド

今回この授業が終わってからも、ポジティブなフィードバックをいただいております。 元々は春学期のみの予定だったのですが、今回の授業が好評だったので、秋学期もゼミに参加してほしいといったことを先生からリクエストいただいています。

また、授業に参加した14名の学生のうち2名が、風見家にインターン生として参加してくれていたりします。 インターンは授業の発展版ということで、リアルなデータを分析し、クライアント企業の執行役員に対して分析結果をレポートしています。 単なる職業体験インターンだと面白くないじゃないですか。 コンサルティング会社に入社したつもりで、がっつりデータ分析をやってもらっています。

クラウド活用のメリット

スライド

今回の振り返りです。 GoogleCloudを利用して良かった点は多々あります。 学生の観点、授業を提供する講師の観点、データを提供する企業の観点でそれぞれ振り返ってみましょう。

まずは学生の観点です。 特に良かったのが、Googleアカウントという使い慣れたIDプロバイダでツールを利用できることです。 GmailやGoogleカレンダーは普段から使っているので、Googleアカウントに使い慣れています。 今回は授業のために専用のGoogleアカウントを発行していますけれども、そういったツールでもスムーズに使い始めることができます。

Vertex AI Workbenchも良いですね。 クラウドサービスで完結していますので、必ずしもITインフラに精通する必要はありません。 情報系の学生でなくても、経済学部の学生であっても、データ分析に挑戦できたというのはポジティブだったかなと思っています。

講師の観点でも、やはりクラウドであることのメリットは大きいなと思っています。 環境構築やハードウェアの問題に時間を取られずに、データ分析の授業を始められました。 Google Cloudに限らない話ではありますが、計算に必要なコンピューティングリソースの確保を、ブラウザ操作で完結できるのはありがたい限りです。 同様に、簡単かつ安全に各種データにアクセスできる点もGoodです。

学生と講師の間でコミュニケーションを取りやすかったのもメリットです。 学生がどんなことをやっているのか気になったら、ノートブックのURLを開けば、実験や分析の内容を確認できます。 講師の手元でエラーを再現できます。 「こういったPythonのコードを書いてくださいね」というサンプルコードの受け渡しも容易です。 分析のアドバイスをするにも、デバッグやエラーシューティングのサポートもするにも、同じ画面をスムーズに共有できるというのは大きなメリットです。

最後に、データを提供する企業の観点です。 AnalyticsHubやCloud LoggingといったGoogleCloudの機能が有効に使えたと認識しています。 細かな権限管理やデータ提供、操作ログ蓄積が可能なので、データを安全に管理・提供できるというのがポイントです。

Google Cloud というよりは授業そのものの話になってしまいますが、データを提供する側の企業にとっては次のようなメリットもあったのかなと思っております。 短期目線だと、アカデミアと連携することによって、専門性の高い研究室やゼミのナレッジを生かすことができます。 社内で既に分析済みのテーマであればダブルチェックになりますし、未実施のテーマであれば新たな知見を得ることができます。 「需要は高いけど緊急度が低い」「手を出せていない分析テーマがある」といった状況だと特にフィットするでしょう。

中長期目線だと、学生との接点が増えることで、自社のビジネスを知ってもらったり、学生への伝え方を工夫したり、学生から反響を得やすいポイントを知ることで、新卒採用にも活かせるかもしれません。

終わりに

スライド

はい。ということで「Google Cloudを用いたデータ分析の授業」に関する振り返りと共有となります。

最後に宣伝をさせてください。 風音屋は大学や企業を問わず、様々な案件を募集しております。 「データ分析のための環境を整備したい」 「データ分析のトレーニングや講座をやりたい」 「共同研究を進めていきたい」 「データ基盤の構築や運用保守を任せたい」 「顧問契約で技術サポートしてほしい」 といったご要望に対して、様々なご支援をさせていただいております。 もしご興味がある方がいらっしゃいましたら気軽にご連絡いただければと思います。

また、こういった活動をビジネスとしてやっていますので「コンサルティング」「データ分析支援」「データ基盤整備」に興味がある方がいましたら、ぜひ風音屋への入社・転職をご検討いただければと思います。

スライド

以上で発表を終わります。 ありがとうございました。

風音屋 採用ページ

Tags: ,

Posted:

Author: yuzutas0

ゆずたそ(@yuzutas0)。 風音屋の代表。 著書に『個人開発をはじめよう!』『データマネジメントが30分でわかる本』『実践的データ基盤への処方箋』など。 PyCon JP, Developers Summit, Google Cloud Day, 日本統計学会といった場で積極的に情報発信している。