Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

広告用の機械学習ワークフローを刷新しました

こんにちは。データサイエンス部 ML チームの村田です。スプラトゥーンで新シーズンがはじまりましたね。 この記事は Gunosy Advent Calendar 2023 の 10 日目の記事です。前回の記事は otake さんの パーソナライズド動画推薦システムをつくる でした。 は…

パーソナライズド動画推薦システムをつくる

この記事は Gunosy Advent Calendar 2023 の 9 日目の記事です。昨日の記事は koizumi さんの「インシデント発生時における初動対応の自動化」でした。 こんにちは、データサイエンス部 ML チームの大竹です。 弊社では KDDI 株式会社が提供するスマートフォ…

LLM 論文の探し方

こんにちは。R&D の森田です。牛スネ肉のブロックをまるごと炭火で焼いたら美味しかったので、最近のオススメです。 この記事は Gunosy Advent Calendar 2023 の 2 日目の記事です。前回の記事は nagayama さんの Android DataStore の段階導入 でした。 今…

根っこから理解を深める dbt

dbt

はじめに はじめに dbt はそもそもツールとして何を行なうか ELT における Transform について dbt が担っている機能 dbt は技術的にどのようにして Transform を実現しているか Jinja テンプレートによる SQL の生成 各種データ基盤に向けたデータ変換の手…

新卒エンジニアブログ 研修とOJTの振り返り

2023年4月に新卒エンジニアとしてデータサイエンス部MediaMLチームに配属された大城(k.oshiro)です。 普段はauサービスTodayアプリの記事配信システムの開発を行っています。 本記事は、新卒エンジニアとして入社後にやってきたことを簡単にまとめたもので…

#ECIR2023 にて発表を行いました

はじめに 情報検索のカンファレンスであるEuropean Conference on Information Retrieval (ECIR)が2023年の4月2日から4月6日の間にアイルランドのダブリンで開催されました。 Gunosyから投稿した論文がフルペーパーとして採択されたため*1、飯塚が参加・発表…

動画アプリの推薦システムを開発しました @au5Gチャンネル

はじめに こんにちは、Gunosy Tech Lab (GTL) MediaMLチームの上村です。今回のブログでは、先日プレスリリースがあった au 5Gチャンネル へのレコメンド機能の提供についてご紹介したいと思います。 gunosy.co.jp 「au 5Gチャンネル」とは*1 「au 5Gチャン…

#NLP2023 で平易な要約の生成について発表しました

こんにちは、GunosyTechLab の濱下、森田、大竹、飯塚、久保です。 今回の記事は、3/13〜3/17 の 5 日間にかけて開催された言語処理学会第 29 回年次大会(NLP2023)の参加レポートになります。 NLP2023 について 言語処理学会は人工知能の一分野である(自…

Gunosyにおけるニュース記事の自動要約システム開発 〜ChatGPTの登場を添えて〜

はじめに 背景とモチベーション ニュースキュレーションサービスとしての自動要約技術の重要性 事前学習済み言語モデルの急速な発展 自動要約モデルの作成 タスク設定 モデル データセット T5 の fine-tune 評価 自動評価 人手評価 推論の高速化 ONNX とモデ…

#DEIM2023 にて技術報告、研究発表、スポンサー展示を行いました

こんにちは、GunosyTechLab の上村、飯塚です。 今回の記事は、3/5〜3/9の5日間にかけて開催された第21回日本データベース学会年次大会(DEIM2023)の参加レポートになります。 DEIM2023 について DEIMはデータ工学と情報マネジメントに関するフォーラム と…

#DEIM2023 & #NLP2023 で発表します!

こんにちは。Gunosy Tech Labの飯塚、森田です。 今回の記事は3月の学会発表予定のお知らせです。 3月5日から3月9日にかけて開催される「第15回データ工学と情報マネジメントに関するフォーラム(DEIM2023)」、および3月13日から3月17日にかけて開催される…

広告レコメンドでIncrementalトレーニングを実践し、学習コストを大幅に削減した話

はじめに 背景 課題 解決策:Incremental Trainingの導入 1, 特徴モジュール 2, モデルの継承 実験結果 まとめ はじめに こんにちは。Gunosy TechLab Ads MLチームのrui.zhongです。 この記事は Gunosy Advent Calendar 2022 の22日目の記事です。 Ads ML側…

dbt snapshot から学ぶ Slowly Changing Dimension

この記事では、ELT パイプラインにおける Transformation ツールである dbt の snapshot という機能について紹介した後、snapshot の手法を一般化したディメンションモデリングにおける概念である Slowly Changing Dimension を包括的に紹介します。

M1 Mac に挫けない!TensorFlow に躓かない開発環境をつくる

MediaML ではニュース記事のパーソナライズシステムの運用をしています。 その一部に記事やユーザーをベクトル化する Python 製の API があり、内部では TensorFlow を利用しています。 今回、その API を新モデルの検証のために新規構築する機会があり、そ…

プッシュ通知にパーソナライズを導入して開封率が 50% 向上したはなし

本記事では、2022 年春頃に auサービスToday のニュース記事プッシュ通知に導入したパーソナライズシステムについてご紹介いたします。

最近のニュース記事推薦手法まとめ 〜固有表現の利用から多様性の向上まで〜

はじめに 他ドメインと比較したニュース記事推薦の特徴 1. ライフサイクルの短さがもたらすコールドスタート問題 2. 深い言語理解の必要性 3. 明示的なフィードバックの利用の難しさ トピック別ニュース記事推薦手法 記事の人気度合い(popularity)の考慮 …

【新卒ブログ】エンジニア1年目が体験した新卒研修とOJT

あいさつ 自己紹介 なんでGunosyに入ったの? 新卒研修 新卒研修 Udemy(動画による研修) OJT 概要 動画記事の利用状況を分析する(SQL) 「動画記事リスト」を作成する(Python) 動画記事の挿入を行う(Golang) ABテスト OJTを振り返って 終わりに あい…

Stable Diffusion の画像生成を Windows 10 でじっくり試す

Stable Diffusion を Windows 10 で動かすイメージ画像 (作: Stable Diffusion) *1 こんにちは。初めまして、Gunosy Tech Lab R&D の 森田 (pnnc205j)です。最近好きな牛肉の部位はカメノコです。 今回は、テキストから画像を生成する Stable Diffusion …

好きなことを好きなだけ。学んだことLT会のコンテンツをまとめました!!

こんにちは。GunosyTechLab MediaML 所属の suchida です。普段の業務では、記事配信アルゴリズムの開発を行っています。ここ最近は A/B テストの荒波が収まり、穏やかに開発を進めています。本ブログでは社内勉強会の一つである、"学んだことLT会"について…

人工知能学会(JSAI2022)に参加しました

こんにちは GunosyTechLab AdsML チームで広告周りの開発をしている濱下(@m-hamashita) です。なかなか IDE に移行できずに Neovim で開発をし続けているのが最近の悩みのひとつです。 今回の記事は、6/14〜6/17 にかけて開催された人工知能学会の参加レポ…

リサーチインターンの成果が紆余曲折を経て国際論文誌 Applied Sciences 誌に採録されるまで

こんにちは。Gunosy TechLab R&D チーム リサーチインターン の北田 (shunk031) です。今回はようやく皆様にお見せできる、可愛い我が子(もちろん研究のことです)について書きます。 今回採録された論文の全体像:広告クリエイティブを最適なタイミングで…

言語処理学会第28回年次大会 (NLP2022) に参加しました

こんにちは!GunosyTechLab MediaMLチームの大竹です。普段の業務ではグノシーアプリにおけるニュース記事配信ロジックの開発や記事推薦モデルの開発を行っています。今回の記事は、3月14日〜18日にかけて開催された言語処理学会第28回年次大会 (NLP2022)の…

DEIM2022にゴールドスポンサーとして参加しました

こんにちは、Gunosy Tech Labリサーチアルバイトの大畑です。 Gunosyデータ分析ブログへの投稿は初めてになります。 私は2021年9月よりリサーチアルバイトとして研究を行なっており、今回が初の外部発表になります。 2月27日~3月2日に開催された第20回日本デ…

アンケートを舐めてかかると死ぬ

はじめに アンケートにおける注意点 「何のためにこの質問をするのか」を明確にする できる限りバイアスを排除する 質問文はわかりやすく、誤解のないように よく使う統計手法 母比率に関する検定 適合度の検定 独立性の検定 マン・ホイットニーのU検定(ウ…

オンラインホワイトボードを使った振り返りで数値意識が向上した話

こんにちは!BI チーム新卒の田辺です。 本日は、週次振り返りの数値確認にオンラインホワイトボードツールのMiroを導入した話をご紹介します!

AdKDD & KDD 2021 に参加しました

こんにちは。 GunosyTechLab の Ads ML チームの村田 (id:marice0819) です。ELDEN RING を PS5 でプレイしたいので PS5 を求めてるこの頃です。 こちらの記事は Gunosy Advent Calendar 2021 の14日目の記事です。昨日の記事は ism-kit さんの「Athena view…

Athena view と Terraform による宣言的データモデリングとレイクハウスへの道標

はじめに こんにちは、DR&MLOps*1 チームの楠です! こちらの記事は Gunosy Advent Calendar 2021 の 13 日目の記事です。 昨日の記事は大曽根さんの『Gunosyの施策運用におけるインスティチューショナルメモリ』でした。 本日は、データ分析の民主化を促進…

Gunosyの施策運用におけるインスティチューショナルメモリ

はじめに アライアンス事業本部でニュースパス、auサービスTodayといったKDDI社と協業しているプロダクトのプロダクトオーナーをしている大曽根です。Chief Data Officerとしてデータ周りのあれこれも担当しています。プロダクトの詳細については、以下の記…

ニュース記事配信のパーソナライズロジックのオフライン実験では何を見ているのか?

こんにちは。GunosyTechLab MediaMLチームでエンジニアをやっている 上村です。 今日は9月頃に紹介したauサービスTodayの記事配信ロジックの続編で、記事配信ロジックにパーソナライズを導入する際のモデルの評価方法に関連するお話です。

SaaS Redash 終了に向けた対応と分析の民主化(実践編)

はじめに こんにちは、DR&MLOps チームの hyamamoto です! こちらの記事は Gunosy Advent Calendar 2021 の 6 日目の記事です。昨日の記事は楠さんの『SaaS Redash 終了に向けた対応と分析の民主化(方針編)』でした。 今回は前回記事の続編になるので、ぜ…