Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

社内技術ブログのはじめかた

はじめに きっかけ 執筆計画を立てる 1. 分析に興味がある人のペルソナを書く 2. 1が検索するであろうクェリの一覧をつくる 3. 検索ボリュームしらべる 4. カテゴリ分け 5. 作るべき記事のリスト(記事タイトルまでだいたいきめちゃう)をつくる 6. 記事を書…

Prod2Vecの推薦/予測システムのパラメータチューニング提案 [論文紹介]

Gunosy8月入社のshunk(@makuramoto1)です.前職は研究員とマネージャーの間みたいなことをやっておりました.現在は,Gunosyのデータ分析や,どのように記事を出したりするかといったロジックを開発する仕事を担当しています.Web業界に初めて参入して,現在…

A/Bテストよりすごい?はじめてのインターリービング

はじめに こんにちは。メディアデータ分析部の飯塚(@zr_4)です。 弊社では現在、複数のニュース形式のアプリケーションを運用しており、各プロダクトでユーザーの趣向にあうような記事リストのパーソナライズを行っています。 左から:LUCRA、ニュースパス、…

サマーインターンシップ2018開催報告

こんにちは、Gunosyデータ分析部内定者の桾澤と片木です。今年も昨年同様エンジニア向けデータ分析サマーインターンシップを実施しました。 学生に混ざり、メンターアルバイトとして参加したので、その様子や課題に取り組む上での気付きなど実際の写真も交え…

NLP若手の会 (YANS 2018) で発表 & スポンサーしました

こんにちは。データ分析部アルバイトの北田 (shunk031) です。最近よく聞く曲は「高速に回転するGPUファン」の曲です。 8月27日から8月29日の期間で開催されたNLP若手の会 (YANS) @ 香川県高松市に、Gunosyから関、久保、北田の3名で参加してきました。 YANS…

ニュースパスを支える関連記事推薦と近似近傍探索

こんにちは。メディアロジック分析部の米田 (@mathetake) です。 今日はGunosy社とKDDI社が共同で運営するニュースパスというニュースアプリケーションで使われている関連記事推薦のアルゴリズムについて書きたいと思います。 特に、約半年前に私が導入しKPI…

第32回人工知能学会全国大会(jsai2018)に参加し、研究発表を行いました

こんにちは、データ分析部研究開発チームの関です。 2018年6月5日〜6月8日に開催された2018年度人工知能学会全国大会にGunosyから大曽根、米田、山田、関の4名で参加しました。 当社はゴールドスポンサーとして協賛させていただき、主著発表1件, 共著発表1件…

今年は2つのコース!Gunosyサマーインターンシップ募集開始のお知らせ

こんにちは、かとうです。 今日はサマーインターンシップの募集を開始いたしましたのでそのお知らせです。 engineer-intern.gunosy.co.jp スケジュールなどの詳細は上記サイトでご確認ください。 今年のサマーインターンシップでは3年目となりましたデータ分…

Tokyo Editors Labに参加してきました

こんにちは。データ分析部の荻原です。様々な動画を見過ぎて突然思い出し笑いをしてしまう事が最近の悩みです。 普段はグノシー動画におけるデータ分析やロジック開発などをしています。今回は4/21 ~ 22に開催された 「Tokyo Editors Lab」にデータ分析部所…

サムネイル画像に対するテキスト認識の性能比較について (Pytesseract / Google Cloud Vision API / Amazon Rekognition)

こんにちは。データ分析部アルバイトの北田 (@shunk031) です。好きな食べ物は畳み込みニューラルネットワークです。 はじめに Gunosyでは広告を出稿する際に使用するサムネイル画像や広告画像において、テキストが占める割合の多い画像を把握したいといった…

言語処理学会第24回年次大会(NLP2018)に参加 & 論文賞受賞しました

はじめまして、データ分析部の小澤(id:skozawa)です。 3月12日(月)〜3月16日(金)に開催された言語処理学会第24回年次大会(NLP2018) @岡山コンベンションセンターに、Gunosyから、関、久保、茂木、桾澤(インターン生)、小澤の5名で参加しました。 スポン…

RedshiftとBigQueryでよく使うSQLの違いTips

データ分析部インターン生の小川です。インターンでは主に動画収集のロジック実装に取り組んでいました。 Gunosyではログの管理にRedshiftとBigQueryを使用しています。 サービスはAWS上で動いているものも多いので基本はRedshiftで、ログの量が多いものやア…

Facebookの予測ライブラリProphetを用いたトレンド抽出と変化点検知

Gunosyデータ分析部アルバイトの五十嵐です。 Gunosyには大規模なKPIの時系列データがあります。 今回はKPIの時系列分析を行なった際に得た知見についてまとめたいと思います。 具体的にはFacebookが開発した時系列予測ツール Prophetを用いて、KPIのトレン…

アプリログの自動異常検知を試してみた~密度比による異常検知入門~

Gunosyデータ分析部アルバイトの鈴木です。今回は密度比を利用したバージョンリリースにおける異常検知について学んだことをまとめたいと思います。 やりたいこと 超長期的にやりたいこと 密度比を用いた異常検知のイメージ ダミーデータでの実装例1 今回試…

自然言語処理×ジャーナリズムな研究まとめ ~ EMNLP2017 Workshopより ~

いつものやつ はじめに 各研究の分類 ニュースの品質に関する研究 Predicting News Values from Headline Text and Emotion Incongruent Headline: Yet Another Way to Mislead Your Readers Deception Detection in News Reports in the Russian Language F…

SQL: 継続率と獲得数で将来のDAUをさくっと予測してみる

いつものやつ はじめに なぜ将来を予測することが重要か 概要 準備するもの 日々の獲得の予算 継続率の予算 SQLでの算出 基本編 応用 おわりに いつものやつ この記事は Gunosy Advent Calendar 2017、9日目の記事です(フライング)。 qiita.com はじめに Gun…

Gunosyを支えるKPI管理

この記事は Gunosy Advent Calendar 2017 8日目の記事です。 qiita.com 今日話すこと こんにちは、データ分析部の @ij_spitz です。 つい昨日誕生日を迎えて25歳になりました(もうお◯さんですね)。 Gunosyではプロダクト開発の様々な場面でデータを活用し…

プロダクトの変更ログを記録することと、Slack+Zapier+Google Calendarを利用した記録の自動化について

グノシー開発部の@cou_zです。最近はPUNPEEのアルバムをよく聴いています。 日々、KPIを追っていると、意図せずにトレンドが変化することが良くあります。 なぜトレンドに変化があったのかを調査するためには、その時に何が起こっていたのかを知っている必要…

BigQueryのクエリ課金額をslack通知する

はじめに こんにちは、データ分析部の阿部です。 Gunosyには社内警察と呼ばれる人がおり、たとえばデータ可視化の際に円グラフを使うと正しい使い方を教えてくれる、母数という言葉の使い方を正してくれる、方々がいます。 tech.gunosy.io 今回はBigQueryで…

データ分析部が開発・運用するバッチ アプリケーション事情

はじめに こんにちは、データ分析部の森本です。 この記事ではGunosyデータ分析部がどのような視点に基づいてバッチアプリケーション(以下、バッチ)を開発・運用しているかしているのかを紹介します。 クライアントアプリ開発やAPI開発と比較してバッチ開…

エンジニア向けデータ分析サマーインターンシップに参加して

こんにちは、来年度からデータ分析部に所属する山田です。 今はまだ学生です。 一足先にGunosy Summer Internship 2017 データ分析コースのメンターアルバイトとして参加したので、その様子や知見を記していきたいと思います! Gunosy Summer Internship 201…

テキストアナリティクスシンポジウムにて招待講演/研究発表を行いました

データ分析部研究開発チームの関です。 最近は10月のエビ中とBishの対バンイベントに向けて双方の楽曲の予習を行っています。 この度データ分析部では9月7日, 8日に成蹊大学で行われた第11回テキストアナリティクスシンポジウムに参加し, 7日は招待講演とパ…

【Slack×Re:dash×SpreadSheet】らくらくリアルタイムKPI通知

こんにちは、データ分析部のクボタです。最近はアイドルではsora tob sakanaの『ribbon』とアイドルネッサンスの『前髪』と東京女子流の『鼓動の秘密』を良く聴いています。来年のTIFと@jamが楽しみですね。 www.youtube.com www.youtube.com www.youtube.co…

箱根でデータ分析部開発合宿をしました(小田原・箱根おすすめグルメ情報付き)

こんにちは、データ分析部の久保です。 データ分析部では四半期に一度ぐらい開発合宿を行っています。 参加は任意でもちろん業務としてカウントされます。 合宿編 今回の合宿場所は以前も使用したAirbnbのこちらの部屋を使いました。 www.airbnb.jp ホストの…

Gunosy における AWS 上での自然言語処理・機械学習の活用事例: AWS Summit dev day 2017

はじめに こんにちは。Gunosyデータ分析部の大曽根(@dr_paradi) です。最近はJOHN TROPEA BAND featuring STEVE GADD etcのライブを観に行きました。 業務では主にニュースパスのユーザ行動分析、記事配信アルゴリズム開発全般を担当しています。 先日開催さ…

プロダクト改善のためにウォッチしておくべき7つの指標

データ分析部でグノシーというニュースアプリのプロダクト改善を担当している @ij_spitz です。 今回はプロダクト改善のためにウォッチしておくべき7つの指標をSQLで算出してみます。 Gunosyではこれらの指標を、プロダクトに異常があった時に検知するため、…

「これからの強化学習」1章の内容で三目並べ

こんちくわ。データ分析部兼サウンドエンジニアの大曽根です。最近は吾妻光良&The Swingin Buppersのライブに行きました。 今回は4/12に開催した「これからの強化学習」の輪読会の1.3節で紹介した価値反復法のアルゴリズムを、教科書とは異なる例で実装して…

Gunosyデータ分析サマーインターン募集のお知らせ

こんにちは、データ分析部の久保です。 今日はサマーインターンの募集を開始したのでそのお知らせです。 データ分析コース|Gunosy Summer Internship 2017 詳しくはリンク先を見ていただくとして、実際のGunosyプロダクトで使われるような「生きた」データ…

Gunosyデータマイニング研究会 119回, 120回を開催しました

こんにちは。グノシーデータ分析部の関です。 最近はMaison book girlのkarmaをよく聞いています。 今回の投稿では4/24に開催したGunosy DM #119と5/10に開催したGunosy DM #120について紹介します。 これまで同様、これからの強化学習の輪読と論文紹介を行…

Pandasによる実践データ分析入門

こんにちは。データ分析部のオギワラです。最近は「NANIMONO (feat.米津玄師)」をよく聞いています。 今回はPythonのデータ分析ライブラリであるPandasについて、実践的なテクニックを「データ処理」「データ集計(Group By)」「時系列処理」の3カテゴリに分…