Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

dbt seed で csv ファイルのミスを取り除きながら DWH へ格納させる

はじめに 現状の実装と課題: 不整合データの混入による手戻り 対応方針: PR 時点でデータ不整合を検出する CI 環境で dbt が使えるようになった dbt seed とは 方針 実装 csv ファイルの配置 プロファイル設定 dbt_project に seeds の設定を追加する シード…

社内勉強会での発表内容の紹介 〜MessagePackの仕様を読む〜

こんにちは、 ML チームの k.oshiro です。 この記事は Gunosy Advent Calendar 2023 の 17 日目の記事です。 昨日の記事は yamayu さんの 「サードパーティ Cookie を使わない広告効果計測 〜Privacy Sandbox の Attribution Reporting API について〜」 で…

ChatGPTを活用した業務支援ツール「ウデキキ」のチャット実装

はじめに こんにちは。最近所属が変わり、新しく新規事業開発チームに配属された上村です。 本記事は、Gunosyアドベントカレンダー2023 13日目の記事です。 昨日の記事は、田辺さんの「A/Bテストの情報過多と戦う」でした。 今回は、新規事業開発チームで開…

A/Bテストの情報過多と戦う

はじめに 背景: A/Bテスト作業者の増加による品質差が出てきた 課題: 情報過多がさまざまな課題を引き起こしている 原因: 膨大な情報をハンドリングするスキルが個人の経験値・地頭に依存してしまう では膨大な情報をどう扱えばよいのか? 改善1. 情報を削る…

広告用の機械学習ワークフローを刷新しました

こんにちは。データサイエンス部 ML チームの村田です。スプラトゥーンで新シーズンがはじまりましたね。 この記事は Gunosy Advent Calendar 2023 の 10 日目の記事です。前回の記事は otake さんの パーソナライズド動画推薦システムをつくる でした。 は…

パーソナライズド動画推薦システムをつくる

この記事は Gunosy Advent Calendar 2023 の 9 日目の記事です。昨日の記事は koizumi さんの「インシデント発生時における初動対応の自動化」でした。 こんにちは、データサイエンス部 ML チームの大竹です。 弊社では KDDI 株式会社が提供するスマートフォ…

LLM 論文の探し方

こんにちは。R&D の森田です。牛スネ肉のブロックをまるごと炭火で焼いたら美味しかったので、最近のオススメです。 この記事は Gunosy Advent Calendar 2023 の 2 日目の記事です。前回の記事は nagayama さんの Android DataStore の段階導入 でした。 今…

根っこから理解を深める dbt

dbt

はじめに はじめに dbt はそもそもツールとして何を行なうか ELT における Transform について dbt が担っている機能 dbt は技術的にどのようにして Transform を実現しているか Jinja テンプレートによる SQL の生成 各種データ基盤に向けたデータ変換の手…

新卒エンジニアブログ 研修とOJTの振り返り

2023年4月に新卒エンジニアとしてデータサイエンス部MediaMLチームに配属された大城(k.oshiro)です。 普段はauサービスTodayアプリの記事配信システムの開発を行っています。 本記事は、新卒エンジニアとして入社後にやってきたことを簡単にまとめたもので…

#ECIR2023 にて発表を行いました

はじめに 情報検索のカンファレンスであるEuropean Conference on Information Retrieval (ECIR)が2023年の4月2日から4月6日の間にアイルランドのダブリンで開催されました。 Gunosyから投稿した論文がフルペーパーとして採択されたため*1、飯塚が参加・発表…