Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

SQL: 継続率と獲得数で将来のDAUをさくっと予測してみる

いつものやつ はじめに なぜ将来を予測することが重要か 概要 準備するもの 日々の獲得の予算 継続率の予算 SQLでの算出 基本編 応用 おわりに いつものやつ この記事は Gunosy Advent Calendar 2017、9日目の記事です(フライング)。 qiita.com はじめに Gun…

Gunosyを支えるKPI管理

この記事は Gunosy Advent Calendar 2017 8日目の記事です。 qiita.com 今日話すこと こんにちは、データ分析部の @ij_spitz です。 つい昨日誕生日を迎えて25歳になりました(もうお◯さんですね)。 Gunosyではプロダクト開発の様々な場面でデータを活用し…

プロダクトの変更ログを記録することと、Slack+Zapier+Google Calendarを利用した記録の自動化について

グノシー開発部の@cou_zです。最近はPUNPEEのアルバムをよく聴いています。 日々、KPIを追っていると、意図せずにトレンドが変化することが良くあります。 なぜトレンドに変化があったのかを調査するためには、その時に何が起こっていたのかを知っている必要…

BigQueryのクエリ課金額をslack通知する

はじめに こんにちは、データ分析部の阿部です。 Gunosyには社内警察と呼ばれる人がおり、たとえばデータ可視化の際に円グラフを使うと正しい使い方を教えてくれる、母数という言葉の使い方を正してくれる、方々がいます。 tech.gunosy.io 今回はBigQueryで…

データ分析部が開発・運用するバッチ アプリケーション事情

はじめに こんにちは、データ分析部の森本です。 この記事ではGunosyデータ分析部がどのような視点に基づいてバッチアプリケーション(以下、バッチ)を開発・運用しているかしているのかを紹介します。 クライアントアプリ開発やAPI開発と比較してバッチ開…

エンジニア向けデータ分析サマーインターンシップに参加して

こんにちは、来年度からデータ分析部に所属する山田です。 今はまだ学生です。 一足先にGunosy Summer Internship 2017 データ分析コースのメンターアルバイトとして参加したので、その様子や知見を記していきたいと思います! Gunosy Summer Internship 201…

テキストアナリティクスシンポジウムにて招待講演/研究発表を行いました

データ分析部研究開発チームの関です。 最近は10月のエビ中とBishの対バンイベントに向けて双方の楽曲の予習を行っています。 この度データ分析部では9月7日, 8日に成蹊大学で行われた第11回テキストアナリティクスシンポジウムに参加し, 7日は招待講演とパ…

【Slack×Re:dash×SpreadSheet】らくらくリアルタイムKPI通知

こんにちは、データ分析部のクボタです。最近はアイドルではsora tob sakanaの『ribbon』とアイドルネッサンスの『前髪』と東京女子流の『鼓動の秘密』を良く聴いています。来年のTIFと@jamが楽しみですね。 www.youtube.com www.youtube.com www.youtube.co…

箱根でデータ分析部開発合宿をしました(小田原・箱根おすすめグルメ情報付き)

こんにちは、データ分析部の久保です。 データ分析部では四半期に一度ぐらい開発合宿を行っています。 参加は任意でもちろん業務としてカウントされます。 合宿編 今回の合宿場所は以前も使用したAirbnbのこちらの部屋を使いました。 www.airbnb.jp ホストの…

Gunosy における AWS 上での自然言語処理・機械学習の活用事例: AWS Summit dev day 2017

はじめに こんにちは。Gunosyデータ分析部の大曽根(@dr_paradi) です。最近はJOHN TROPEA BAND featuring STEVE GADD etcのライブを観に行きました。 業務では主にニュースパスのユーザ行動分析、記事配信アルゴリズム開発全般を担当しています。 先日開催さ…

プロダクト改善のためにウォッチしておくべき7つの指標

データ分析部でグノシーというニュースアプリのプロダクト改善を担当している @ij_spitz です。 今回はプロダクト改善のためにウォッチしておくべき7つの指標をSQLで算出してみます。 Gunosyではこれらの指標を、プロダクトに異常があった時に検知するため、…

「これからの強化学習」1章の内容で三目並べ

こんちくわ。データ分析部兼サウンドエンジニアの大曽根です。最近は吾妻光良&The Swingin Buppersのライブに行きました。 今回は4/12に開催した「これからの強化学習」の輪読会の1.3節で紹介した価値反復法のアルゴリズムを、教科書とは異なる例で実装して…

Gunosyデータ分析サマーインターン募集のお知らせ

こんにちは、データ分析部の久保です。 今日はサマーインターンの募集を開始したのでそのお知らせです。 データ分析コース|Gunosy Summer Internship 2017 詳しくはリンク先を見ていただくとして、実際のGunosyプロダクトで使われるような「生きた」データ…

Gunosyデータマイニング研究会 119回, 120回を開催しました

こんにちは。グノシーデータ分析部の関です。 最近はMaison book girlのkarmaをよく聞いています。 今回の投稿では4/24に開催したGunosy DM #119と5/10に開催したGunosy DM #120について紹介します。 これまで同様、これからの強化学習の輪読と論文紹介を行…

Pandasによる実践データ分析入門

こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonのデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分…

【これからの強化学習】 Gunosy データマイニング研究会 #118 を実施しました

gunosy-dm.connpass.com こんにちは。グノシー開発部のアルシャマンです。最近は、KID FRESINOのSalve feat. JJJをよく聴いています。 今日は4/12(水)に開催したGunosy DM #118について紹介します。前回に引き続きこれからの強化学習の1.3~1.5節の輪読と、…

【これからの強化学習】 Gunosy データマイニング研究会を実施しました

今回は、先日開催したデータマイニング研究会という勉強会についてご紹介します。 データマイニング研究会とは書籍の輪読と論文紹介を行い、データマイニングに関する基礎知識の向上及び、先端事例の共有・議論を行うことを目的としています。 2週間に1回…

【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで

こんにちは。初めまして。 データ分析部新入りのmathetake(@mathetake)と申します。先日個人ブログでこんなエントリを書いた人です:mathetake.hatenablog.comそんなこんなでTwitter就活芸人(?)として活動(?)してましたが、これからは真面目に頑張っていこう…

世界を代表する8人の旬なトップ機械学習研究者たち (2017年上半期版)

データ分析部の久保です。 最近行ったライブはAimerのAcoustic Live Tour 2017です。 早いもので2017年も3月になりましたが、機械学習分野は相変わらずとてもホットな分野です。 去年はAI、人工知能という言葉がディープラーニングとともにバズワードになり…

Spark StreamingからAmazon Kinesis Analyticsへ移行する話

はじめに こんにちは、データ分析部の森本です。主な業務は記事配信アルゴリズムの改善とログ基盤の整備です。 Gunosyでは、ユーザーへより良い記事を提供するためにアクセスログをストリーム処理し、集計結果を記事配信アルゴリズムに活用しています。 スト…

ABテストの対象をいい感じに割り振る方法

こんにちは、データ分析部の石塚 (@ij_spitz) です。 最近聴いている曲は久保田利伸さんのLA・LA・LA LOVE SONGです。 ロンバケ最高でした、月曜9時はOLが街から消えるというのも納得です。 Gunosyではプロダクト改善のためにABテストを用いて意思決定を行…

さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門

久しぶりの投稿になってしまいましたが、ニュースパス(現在CM放映中!!)開発部の大曽根です。 作業中はGrover Washington Jr のWinelightを聴くと元気が出ます。参加ミュージシャンが素晴らしいですね。 なぜ時系列分析をするのか 季節調整 実演 おまけ: 時間…

【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門

こんにちは、データ分析部でバイトをしている子田(id:woody_kawagoe)です。 ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。 この組み合わせは非…

Amazon AthenaをBigQueryと比較してみた

Athenaとは、フルマネージドで超高速な分散処理サービスで、AWS版BigQueryとも言うべきサービスです。 今回、GunosyでもAthenaを導入すべきかどうか検討すべく、パフォーマンスの検証を行いBigQueryと比較してみました。

Amazon Kinesis AnalyticsとES/Kibana4でリアルタイムダッシュボード構築

こんにちは。開発・運用推進部の小出です。 猫にイヤホンを噛み切られること数回、最近のBGMはもっぱら環境音です。 「耳からうどんが出ているようにしか見えない」という噂のBluetoothイヤホンが気になっています。 今回は、Amazon Kinesis AnalyticsとElas…

Re:dashで異なるData Sourceのクエリ結果をJOINできるようになったので試してみた - Query Results (Alpha)

こんにちは。グノシー開発部で部長をしている@cou_zです。最近はDJ RYOWのビートモクソモネェカラキキナ 2016 REMIXをよく聴いています。11/23のライブが楽しみですね。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えていま…

データ分析について学んだこと by サマーインターンシップ

こんにちは。データ分析部インターン生の荻原です。 最近はThe Script - Superheroesをよく聞いています。 本記事では、私と同じデータ分析部所属の大原が9/20・21の2日間開催されたエンジニア職向けサマーインターンシップに参加したので、 その模様及びそ…

5分でわかる!BigQuery Tips集

こんにちは。データ分析部の阿部です。 今回はBigQueryについてです。 GunosyではもともとRedshiftで運用していましたが、 クエリによっては時間がかかり処理しきれない 同時にクエリを投げると詰まる などの課題を解決するためにBigQueryを一部で導入しまし…

Sparkで利用できるDeep Learningフレームワークまとめ

こんにちは、Gunosyデータ分析部に所属している森本です。 主な担当業務は記事配信アルゴリズムの改善、ログ基盤運用です。 最近良く聞く音楽はOne Direction - Live While We're Youngです。 本記事では、Sparkで利用できるDeep Learningフレームワークをま…

Deep Learningを応用したデモグラフィックの推定について WebDB Forum 2016 で技術報告 & スポンサーしました

こんちくわ,データ分析部の工藤です. 昨日 9月14日(水) に WebDB Forum 2016 に参加し,技術報告をしてきました. WebDB Forumとは db-event.jpn.org 2016年の今回は,慶應義塾大学 日吉*1キャンパスにて開催されました. Gunosy の発表内容 Gunosyで行っ…