Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

Gunosy における AWS 上での自然言語処理・機械学習の活用事例: AWS Summit dev day 2017

はじめに こんにちは。Gunosyデータ分析部の大曽根(@dr_paradi) です。最近はJOHN TROPEA BAND featuring STEVE GADD etcのライブを観に行きました。 業務では主にニュースパスのユーザ行動分析、記事配信アルゴリズム開発全般を担当しています。 先日開催さ…

プロダクト改善のためにウォッチしておくべき7つの指標

データ分析部でグノシーというニュースアプリのプロダクト改善を担当している @ij_spitz です。 今回はプロダクト改善のためにウォッチしておくべき7つの指標をSQLで算出してみます。 Gunosyではこれらの指標を、プロダクトに異常があった時に検知するため、…

「これからの強化学習」1章の内容で三目並べ

こんちくわ。データ分析部兼サウンドエンジニアの大曽根です。最近は吾妻光良&The Swingin Buppersのライブに行きました。 今回は4/12に開催した「これからの強化学習」の輪読会の1.3節で紹介した価値反復法のアルゴリズムを、教科書とは異なる例で実装して…

Gunosyデータ分析サマーインターン募集のお知らせ

こんにちは、データ分析部の久保です。 今日はサマーインターンの募集を開始したのでそのお知らせです。 データ分析コース|Gunosy Summer Internship 2017 詳しくはリンク先を見ていただくとして、実際のGunosyプロダクトで使われるような「生きた」データ…

Gunosyデータマイニング研究会 119回, 120回を開催しました

こんにちは。グノシーデータ分析部の関です。 最近はMaison book girlのkarmaをよく聞いています。 今回の投稿では4/24に開催したGunosy DM #119と5/10に開催したGunosy DM #120について紹介します。 これまで同様、これからの強化学習の輪読と論文紹介を行…

Pandasによる実践データ分析入門

こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonのデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分…

【これからの強化学習】 Gunosy データマイニング研究会 #118 を実施しました

gunosy-dm.connpass.com こんにちは。グノシー開発部のアルシャマンです。最近は、KID FRESINOのSalve feat. JJJをよく聴いています。 今日は4/12(水)に開催したGunosy DM #118について紹介します。前回に引き続きこれからの強化学習の1.3~1.5節の輪読と、…

【これからの強化学習】 Gunosy データマイニング研究会を実施しました

今回は、先日開催したデータマイニング研究会という勉強会についてご紹介します。 データマイニング研究会とは書籍の輪読と論文紹介を行い、データマイニングに関する基礎知識の向上及び、先端事例の共有・議論を行うことを目的としています。 2週間に1回…

【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで

こんにちは。初めまして。 データ分析部新入りのmathetake(@mathetake)と申します。先日個人ブログでこんなエントリを書いた人です:mathetake.hatenablog.comそんなこんなでTwitter就活芸人(?)として活動(?)してましたが、これからは真面目に頑張っていこう…

世界を代表する8人の旬なトップ機械学習研究者たち (2017年上半期版)

データ分析部の久保です。 最近行ったライブはAimerのAcoustic Live Tour 2017です。 早いもので2017年も3月になりましたが、機械学習分野は相変わらずとてもホットな分野です。 去年はAI、人工知能という言葉がディープラーニングとともにバズワードになり…

Spark StreamingからAmazon Kinesis Analyticsへ移行する話

はじめに こんにちは、データ分析部の森本です。主な業務は記事配信アルゴリズムの改善とログ基盤の整備です。 Gunosyでは、ユーザーへより良い記事を提供するためにアクセスログをストリーム処理し、集計結果を記事配信アルゴリズムに活用しています。 スト…

ABテストの対象をいい感じに割り振る方法

こんにちは、データ分析部の石塚 (@ij_spitz) です。 最近聴いている曲は久保田利伸さんのLA・LA・LA LOVE SONGです。 ロンバケ最高でした、月曜9時はOLが街から消えるというのも納得です。 Gunosyではプロダクト改善のためにABテストを用いて意思決定を行…

さくっとトレンド抽出: Pythonのstatsmodelsで時系列分析入門

久しぶりの投稿になってしまいましたが、ニュースパス(現在CM放映中!!)開発部の大曽根です。 作業中はGrover Washington Jr のWinelightを聴くと元気が出ます。参加ミュージシャンが素晴らしいですね。 なぜ時系列分析をするのか 季節調整 実演 おまけ: 時間…

【初心者向け】Jupyter+Pandas+matplotlibを使ったデータ分析入門

こんにちは、データ分析部でバイトをしている子田(id:woody_kawagoe)です。 ニュースパスのログを集計して分析するといった業務を行っています。Gunosyで分析に利用しているツールとしては主にJupyter, Pandas, matplotlibがあります。 この組み合わせは非…

Amazon AthenaをBigQueryと比較してみた

Athenaとは、フルマネージドで超高速な分散処理サービスで、AWS版BigQueryとも言うべきサービスです。 今回、GunosyでもAthenaを導入すべきかどうか検討すべく、パフォーマンスの検証を行いBigQueryと比較してみました。

Amazon Kinesis AnalyticsとES/Kibana4でリアルタイムダッシュボード構築

こんにちは。開発・運用推進部の小出です。 猫にイヤホンを噛み切られること数回、最近のBGMはもっぱら環境音です。 「耳からうどんが出ているようにしか見えない」という噂のBluetoothイヤホンが気になっています。 今回は、Amazon Kinesis AnalyticsとElas…

Re:dashで異なるData Sourceのクエリ結果をJOINできるようになったので試してみた - Query Results (Alpha)

こんにちは。グノシー開発部で部長をしている@cou_zです。最近はDJ RYOWのビートモクソモネェカラキキナ 2016 REMIXをよく聴いています。11/23のライブが楽しみですね。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えていま…

データ分析について学んだこと by サマーインターンシップ

こんにちは。データ分析部インターン生の荻原です。 最近はThe Script - Superheroesをよく聞いています。 本記事では、私と同じデータ分析部所属の大原が9/20・21の2日間開催されたエンジニア職向けサマーインターンシップに参加したので、 その模様及びそ…

5分でわかる!BigQuery Tips集

こんにちは。データ分析部の阿部です。 今回はBigQueryについてです。 GunosyではもともとRedshiftで運用していましたが、 クエリによっては時間がかかり処理しきれない 同時にクエリを投げると詰まる などの課題を解決するためにBigQueryを一部で導入しまし…

Sparkで利用できるDeep Learningフレームワークまとめ

こんにちは、Gunosyデータ分析部に所属している森本です。 主な担当業務は記事配信アルゴリズムの改善、ログ基盤運用です。 最近良く聞く音楽はOne Direction - Live While We're Youngです。 本記事では、Sparkで利用できるDeep Learningフレームワークをま…

Deep Learningを応用したデモグラフィックの推定について WebDB Forum 2016 で技術報告 & スポンサーしました

こんちくわ,データ分析部の工藤です. 昨日 9月14日(水) に WebDB Forum 2016 に参加し,技術報告をしてきました. WebDB Forumとは db-event.jpn.org 2016年の今回は,慶應義塾大学 日吉*1キャンパスにて開催されました. Gunosy の発表内容 Gunosyで行っ…

NLP若手の会 (YANS 2016) に参加 & スポンサーしました

はじめまして。データ分析部の大原です。最近家での作業中は、「雨 強め」などの自然音を聞いています。歌詞も無いので音楽に惑わされることなくリラックスして作業できるので良い感じです。 さて、少し前の事になりますが、8月28日(日)〜8月30日(火)にNLP若…

データ分析部ロジック共有会を実施しました - Deep Learning を用いた年齢推定の精度改善について

こんちくわ,Gunosyデータ分析部の@hmjです. 最近よく聞く音楽はGOING UNDER GROUND の さえないブルー です. 今回は,先日開催したデータ分析部ロジック共有会という社内向けの勉強会についてご紹介します. 1. データ分析部ロジック共有会とは データ分…

Airbnbを利用した開発合宿のススメ

はじめまして、Gunosyデータ分析部の松嶋です。 先日、データ分析部では、開発合宿を開催しました。 このエントリでは、これまでに蓄積してきた合宿運営ノウハウをご紹介します。

【Slack×Re:dash】リアルタイムKPI通知をコード0行で実現する

データ分析部で部長をしている@cou_zです。最近はLIBROのマイクロフォンコントローラーをよく聴いています。 Gunosyにおけるプロダクト改善は、データ可視化による現状把握から始まると考えています。 ログを収集して、ダッシュボードでKPI(重要業績指標)を…

Scrapy + Scrapy Cloudで快適Pythonクロール+スクレイピングライフを送る

はじめに こんにちは、データ分析部の久保 (@beatinaniwa) です。 今日は義務教育で教えても良いんじゃないかとよく思うWebクロールとスクレイピングの話です。 私自身、日頃は社内に蓄積されるニュース記事データや行動ログをSQLやPythonを使って取得・分析…

海外の有名IT企業のABテストブログまとめ

データ分析部の @ij_spitz です。 普段の業務では主にABテストを用いたプロダクト改善、ユーザーの行動分析などを行っています。 今日はタイトルにもある通り、プロダクト改善をするためにABテストを始めてみたいけど何をすればいいのかわからない、実際にAB…

いまさら聞けない機械学習の評価関数

アライアンス事業開発部の大曽根(@dr_paradi)です。 ニュースパスというアプリの分析と開発を行っております。 今回は機械学習の評価関数のお話をします。 内容は、【FiNC×プレイド】Machine Learning Meetup #1 - connpassで発表したものになります。 発表…

Chainer 1.11.0 で畳み込みニューラルネットワークを試してみる

はじめまして,Gunosyデータ分析部の@hmjです. 2016年の2月からGunosyのデータマイニングエンジニアとして働いていて,今はデータ分析や記事配信アルゴリズム改善を行っています. 今回は,GunosyでのDeep Learningの利用例と, 先日リリースされたChainer …

データ分析部ブログ,はじめました

こんにちは、はじめまして! 本日より株式会社Gunosyのデータマイニングエンジニア達が、 機械学習やデータ分析について 日々取り組んでいる技術やTips等の情報をお届けするブログを始めることとなりました。 定期的にこちらに記事投稿していきますので、よ…