Gunosyデータ分析ブログ

Gunosyで働くデータエンジニアが知見を共有するブログです。

GPT から Claude 3 への移行ガイド

こんにちは。Gunosy R&D チームの森田です。 GPT-4o が発表されたこのタイミングで!?という向きもあるかとおもいますが、LLMの世界は一ヶ月もすればまったく違う状況になっているのが常なので、いずれは GPT-4o を超えるモデルが発表される時も来るでしょ…

NLP2024 参加報告

こんにちは、データサイエンス部の大竹、R&D チームの森田、久保、新規事業開発室の鈴木、岡田です。 今回の記事は 3/11 ~ 3/15 の 5 日間にわたって開催された言語処理学会第 30 回年次大会 (NLP2024) の参加レポートになります。 NLP2024 について 企業ブ…

dbt seed で csv ファイルのミスを取り除きながら DWH へ格納させる

はじめに 現状の実装と課題: 不整合データの混入による手戻り 対応方針: PR 時点でデータ不整合を検出する CI 環境で dbt が使えるようになった dbt seed とは 方針 実装 csv ファイルの配置 プロファイル設定 dbt_project に seeds の設定を追加する シード…

社内勉強会での発表内容の紹介 〜MessagePackの仕様を読む〜

こんにちは、 ML チームの k.oshiro です。 この記事は Gunosy Advent Calendar 2023 の 17 日目の記事です。 昨日の記事は yamayu さんの 「サードパーティ Cookie を使わない広告効果計測 〜Privacy Sandbox の Attribution Reporting API について〜」 で…

ChatGPTを活用した業務支援ツール「ウデキキ」のチャット実装

はじめに こんにちは。最近所属が変わり、新しく新規事業開発チームに配属された上村です。 本記事は、Gunosyアドベントカレンダー2023 13日目の記事です。 昨日の記事は、田辺さんの「A/Bテストの情報過多と戦う」でした。 今回は、新規事業開発チームで開…

A/Bテストの情報過多と戦う

はじめに 背景: A/Bテスト作業者の増加による品質差が出てきた 課題: 情報過多がさまざまな課題を引き起こしている 原因: 膨大な情報をハンドリングするスキルが個人の経験値・地頭に依存してしまう では膨大な情報をどう扱えばよいのか? 改善1. 情報を削る…

広告用の機械学習ワークフローを刷新しました

こんにちは。データサイエンス部 ML チームの村田です。スプラトゥーンで新シーズンがはじまりましたね。 この記事は Gunosy Advent Calendar 2023 の 10 日目の記事です。前回の記事は otake さんの パーソナライズド動画推薦システムをつくる でした。 は…

パーソナライズド動画推薦システムをつくる

この記事は Gunosy Advent Calendar 2023 の 9 日目の記事です。昨日の記事は koizumi さんの「インシデント発生時における初動対応の自動化」でした。 こんにちは、データサイエンス部 ML チームの大竹です。 弊社では KDDI 株式会社が提供するスマートフォ…

LLM 論文の探し方

こんにちは。R&D の森田です。牛スネ肉のブロックをまるごと炭火で焼いたら美味しかったので、最近のオススメです。 この記事は Gunosy Advent Calendar 2023 の 2 日目の記事です。前回の記事は nagayama さんの Android DataStore の段階導入 でした。 今…

根っこから理解を深める dbt

dbt

はじめに はじめに dbt はそもそもツールとして何を行なうか ELT における Transform について dbt が担っている機能 dbt は技術的にどのようにして Transform を実現しているか Jinja テンプレートによる SQL の生成 各種データ基盤に向けたデータ変換の手…