Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

広告レコメンドでIncrementalトレーニングを実践し、学習コストを大幅に削減した話

はじめに 背景 課題 解決策:Incremental Trainingの導入 1, 特徴モジュール 2, モデルの継承 実験結果 まとめ はじめに こんにちは。Gunosy TechLab Ads MLチームのrui.zhongです。 この記事は Gunosy Advent Calendar 2022 の22日目の記事です。 Ads ML側…

dbt snapshot から学ぶ Slowly Changing Dimension

この記事では、ELT パイプラインにおける Transformation ツールである dbt の snapshot という機能について紹介した後、snapshot の手法を一般化したディメンションモデリングにおける概念である Slowly Changing Dimension を包括的に紹介します。

M1 Mac に挫けない!TensorFlow に躓かない開発環境をつくる

MediaML ではニュース記事のパーソナライズシステムの運用をしています。 その一部に記事やユーザーをベクトル化する Python 製の API があり、内部では TensorFlow を利用しています。 今回、その API を新モデルの検証のために新規構築する機会があり、そ…

プッシュ通知にパーソナライズを導入して開封率が 50% 向上したはなし

本記事では、2022 年春頃に auサービスToday のニュース記事プッシュ通知に導入したパーソナライズシステムについてご紹介いたします。

最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜

はじめに 他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさ トピック別ニュース記事推薦手法 記事の人気度合い(popularity)の考慮 …

【新卒ブログ】エンジニア1年目が体験した新卒研修とOJT

あいさつ 自己紹介 なんでGunosyに入ったの? 新卒研修 新卒研修 Udemy(動画による研修) OJT 概要 動画記事の利用状況を分析する(SQL) 「動画記事リスト」を作成する(Python) 動画記事の挿入を行う(Golang) ABテスト OJTを振り返って 終わりに あい…

Stable Diffusion の画像生成を Windows 10 でじっくり試す

Stable Diffusion を Windows 10 で動かすイメージ画像 (作: Stable Diffusion) *1 こんにちは。初めまして、Gunosy Tech Lab R&D の 森田 (pnnc205j)です。最近好きな牛肉の部位はカメノコです。 今回は、テキストから画像を生成する Stable Diffusion …

好きなことを好きなだけ。学んだことLT会のコンテンツをまとめました!!

こんにちは。GunosyTechLab MediaML 所属の suchida です。普段の業務では、記事配信アルゴリズムの開発を行っています。ここ最近は A/B テストの荒波が収まり、穏やかに開発を進めています。本ブログでは社内勉強会の一つである、"学んだことLT会"について…

人工知能学会(JSAI2022)に参加しました

こんにちは GunosyTechLab AdsML チームで広告周りの開発をしている濱下(@m-hamashita) です。なかなか IDE に移行できずに Neovim で開発をし続けているのが最近の悩みのひとつです。 今回の記事は、6/14〜6/17 にかけて開催された人工知能学会の参加レポ…

リサーチインターンの成果が紆余曲折を経て国際論文誌 Applied Sciences 誌に採録されるまで

こんにちは。Gunosy TechLab R&D チーム リサーチインターン の北田 (shunk031) です。今回はようやく皆様にお見せできる、可愛い我が子(もちろん研究のことです)について書きます。 今回採録された論文の全体像:広告クリエイティブを最適なタイミングで…

言語処理学会第28回年次大会 (NLP2022) に参加しました

こんにちは!GunosyTechLab MediaMLチームの大竹です。普段の業務ではグノシーアプリにおけるニュース記事配信ロジックの開発や記事推薦モデルの開発を行っています。今回の記事は、3月14日〜18日にかけて開催された言語処理学会第28回年次大会 (NLP2022)の…

DEIM2022にゴールドスポンサーとして参加しました

こんにちは、Gunosy Tech Labリサーチアルバイトの大畑です。 Gunosyデータ分析ブログへの投稿は初めてになります。 私は2021年9月よりリサーチアルバイトとして研究を行なっており、今回が初の外部発表になります。 2月27日~3月2日に開催された第20回日本デ…

アンケートを舐めてかかると死ぬ

はじめに アンケートにおける注意点 「何のためにこの質問をするのか」を明確にする できる限りバイアスを排除する 質問文はわかりやすく、誤解のないように よく使う統計手法 母比率に関する検定 適合度の検定 独立性の検定 マン・ホイットニーのU検定(ウ…

オンラインホワイトボードを使った振り返りで数値意識が向上した話

こんにちは!BI チーム新卒の田辺です。 本日は、週次振り返りの数値確認にオンラインホワイトボードツールのMiroを導入した話をご紹介します!

AdKDD & KDD 2021 に参加しました

こんにちは。 GunosyTechLab の Ads ML チームの村田 (id:marice0819) です。ELDEN RING を PS5 でプレイしたいので PS5 を求めてるこの頃です。 こちらの記事は Gunosy Advent Calendar 2021 の14日目の記事です。昨日の記事は ism-kit さんの「Athena view…

Athena view と Terraform による宣言的データモデリングとレイクハウスへの道標

はじめに こんにちは、DR&MLOps*1 チームの楠です! こちらの記事は Gunosy Advent Calendar 2021 の 13 日目の記事です。 昨日の記事は大曽根さんの『Gunosyの施策運用におけるインスティチューショナルメモリ』でした。 本日は、データ分析の民主化を促進…

Gunosyの施策運用におけるインスティチューショナルメモリ

はじめに アライアンス事業本部でニュースパス、auサービスTodayといったKDDI社と協業しているプロダクトのプロダクトオーナーをしている大曽根です。Chief Data Officerとしてデータ周りのあれこれも担当しています。プロダクトの詳細については、以下の記…

ニュース記事配信のパーソナライズロジックのオフライン実験では何を見ているのか?

こんにちは。GunosyTechLab MediaMLチームでエンジニアをやっている 上村です。 今日は9月頃に紹介したauサービスTodayの記事配信ロジックの続編で、記事配信ロジックにパーソナライズを導入する際のモデルの評価方法に関連するお話です。

SaaS Redash 終了に向けた対応と分析の民主化(実践編)

はじめに こんにちは、DR&MLOps チームの hyamamoto です! こちらの記事は Gunosy Advent Calendar 2021 の 6 日目の記事です。昨日の記事は楠さんの『SaaS Redash 終了に向けた対応と分析の民主化(方針編)』でした。 今回は前回記事の続編になるので、ぜ…

SaaS Redash 終了に向けた対応と分析の民主化(方針編)

はじめに こんにちは、DR&MLOps*1 チームの楠です! こちらの記事は Gunosy Advent Calendar 2021 の 5 日目の記事です。 昨日の記事は UT さんの『更新できるデータレイクを作る 〜Apache Hudiを用いたユーザデータ基盤の刷新〜』でした。 5 日目と 6 日目…

その設定、pyproject.tomlに全部書けます

はじめに Gunosy Tech Lab - Media ML のsuchidaです。 最近はPythonの型アノテーションがないとあたふたする人生です。 こちらの記事は Gunosy Advent Calendar 2021の3日目の記事です。 前回の記事はid:skozawa さんの施策の優先順位付けのために分析Dayを…

施策の優先順位付けのために分析Dayを実施しました

こんにちは、Gunosy Tech LabのMedia MLチームでマネージャーをしている id:skozawa です。 もう年末、早いですね。 こちらの記事は Gunosy Advent Calendar 2021の2日目の記事です。昨日の記事は加藤さんのチーム再編とCompany Betsでした。 今日はMedia ML…

ニュース記事の品質と広告効果の関係についてCIKM2021で発表を行いました

こんにちは、研究開発チームの飯塚です。11/1~11/5にオンラインで行われた、CIKM2021に発表参加しました。CIKMとはACM International Conference on Information and Knowledge Managementの略称で、機械学習やWebマイニング、情報検索/推薦といったトピック…

知識辞書をECS on Fargate上で自動構築してみた

はじめに こんにちは、Gunosy Tech Lab - Media MLの suchida です。 気温の低下とともに起床時間が遅くなってる今日この頃です。 早く春にならないかなぁ(笑)。 さて本記事では、知識辞書構築の自動化について紹介します。 特に記事配信システムの一部で…

新プロダクトの記事配信ロジックを1から作った話(ロジック編)

今回の記事の内容は、「auサービスToday」開発の第2弾、記事ロジック編です。 主にサービス初期に「ログがほとんどない状態で、如何に重要または人気な記事を配信するのか」というテーマで、どのようなロジックで実現を目指したかを紹介していこうと思います…

新プロダクトの記事配信ロジックを1から作った話(実装編)

はじめに こんにちは、Gunosy Tech Lab - Media MLの suchida です。 2020年に入社して1年ちょっと経過しました。 在宅ワークは未だ継続中ですが、たまにWeWorkに出社して気分転換してます✨ 本記事では新プロダクト「auサービスToday」の開発において、Media…

グノシーの記事リスト品質向上ロジック紹介

こんにちは、Gunosy Tech Labの谷口です。本記事ではグノシーの品質向上施策の一つである「各タブの記事リストの品質向上」についてお話しします。 グノシーの品質向上 当社ではグノシーの長期的なプロダクト価値の向上を目指し、2020年6月よりアプリの品質…

データ分析配属のはずが、マーケティングチームに配属された話 [新卒エンジニアブログvol.2]

はじめに なぜマーケティングチームに配属された? マーケティングチームでやったこと グノシーのマーケティングチームはどんな仕事? 広告が配信されるまで マーケティング修行を終えて BIチームに合流してから OJT で、マーケティング修行は活きたのか? …

Gunosy Tech Lab 新卒エンジニアブログvol1 入社からの4ヶ月を振り返って

はじめに GTLという組織・Media MLチームについて 入社〜現在までの流れ OJT:スポーツタブのロジック改善 既存ロジック 改善までの道のり (1)パーソナライズアルゴリズム (2)記事wiseな時間減衰 学んだこと、気がついたこと コストの意識 タスク管理 コ…

Spark on k8s を EKS 上で動かす

はじめに DRE Team の hyamamoto です. 皆さん,Spark は利用されていますか? Gunosy では Digdag + Athena によるデータ整形が増えてきており,徐々に Spark の利用は減ってきています. 思い返すと,昨年入社後の OJT も Spark から Digdag + Athena へ…