LayerX事例で、就業規則(平均50ページ)から有休付与ルールをAIが生成し、各パターンを10回実行して精度90%を受け入れ基準とするLangfuseとrunnによる評価・テスト手法を解説。
講演用のスライドだろうか?聞いてみたかったなぁ
AIの「確率」にエンジニアがどう立ち向かうか。Langfuseとかの評価ツール活用事例は泥臭くて参考になる
抽象的で俺には難しい、問題提起は賛成する
スコアリング 期待値明示 フィードバック
AI生成画像が挟まると目が滑る。
AIプロダクトの品質をどう守る? - Speaker Deck
うだうだ言っても少なくともWeb系はAIに「品質チェックして問題あれば修正してください」って打ち込んで満足するだけの世界になるんじゃない?
Xで見た https://x.com/igaki/status/2022317192243810587
langextract がハマりそう
テストの設計と運用に人力が入りますと。ここをAIにすると、悪夢の無限連鎖が発生するし
一般化しないとQAのノウハウも熟成しないだろうし枯れるまで様子見が一番楽
品質チェックに関しては人間が関与することになるよな。結局責任を取る人間がどこまでチェックするのかというお話になるか?
googleとか、一方でnano bananaだveoだと、もっとAIで画像作れ、動画作れといって、YouTubeで「いかにAI動画だけ自動的に選別してシャドウバンするか」ってやってて、お前らはAI使わせたいのか反対なのかどっちやねんって思う
この辺はまだ全然枯れてこない…モデルがどれだけ進化、変化するかで全然答えが違ったりしそう…。1年前の常識が通用しないの勘弁してくれ…。
品質維持のためのリグレッションテスト用途でのrunn活用。なるほど。ありがとうございます!
なるほどなぁ。 / この分野で枯れるまで待ってられるの、すごいな。
AIプロダクトの品質をどう守る?
LayerX事例で、就業規則(平均50ページ)から有休付与ルールをAIが生成し、各パターンを10回実行して精度90%を受け入れ基準とするLangfuseとrunnによる評価・テスト手法を解説。
講演用のスライドだろうか?聞いてみたかったなぁ
AIの「確率」にエンジニアがどう立ち向かうか。Langfuseとかの評価ツール活用事例は泥臭くて参考になる
抽象的で俺には難しい、問題提起は賛成する
スコアリング 期待値明示 フィードバック
AI生成画像が挟まると目が滑る。
AIプロダクトの品質をどう守る? - Speaker Deck
うだうだ言っても少なくともWeb系はAIに「品質チェックして問題あれば修正してください」って打ち込んで満足するだけの世界になるんじゃない?
Xで見た https://x.com/igaki/status/2022317192243810587
langextract がハマりそう
テストの設計と運用に人力が入りますと。ここをAIにすると、悪夢の無限連鎖が発生するし
一般化しないとQAのノウハウも熟成しないだろうし枯れるまで様子見が一番楽
品質チェックに関しては人間が関与することになるよな。結局責任を取る人間がどこまでチェックするのかというお話になるか?
googleとか、一方でnano bananaだveoだと、もっとAIで画像作れ、動画作れといって、YouTubeで「いかにAI動画だけ自動的に選別してシャドウバンするか」ってやってて、お前らはAI使わせたいのか反対なのかどっちやねんって思う
この辺はまだ全然枯れてこない…モデルがどれだけ進化、変化するかで全然答えが違ったりしそう…。1年前の常識が通用しないの勘弁してくれ…。
品質維持のためのリグレッションテスト用途でのrunn活用。なるほど。ありがとうございます!
なるほどなぁ。 / この分野で枯れるまで待ってられるの、すごいな。