ローカルVLMでのブラウザ自動化はAPIコストを気にせず無限ループできて検証に最高。たまに変な数式モードで出力されるのも愛嬌あって面白いな
3.5でも3.6でもなくあえて3にしたのはなぜ?
ローカルVLM
プログラミング経験なさそう
“ローカルに構築したVLMを使えば、高額なAPI利用料を一切気にせず、Web画面の解析と自律的な調査が可能です。日本語のOCR精度も驚異的。HTMLを解析しない堅牢なスクレイピング。日々のAIトレンド調査を自動化した”
何故にそんな古いAIモデルを使うの?もっと小さくて良いAIモデルがたくさん出てるのに。
robot.txt無視してDDoSかよってアクセスしかけてくるAIのBotCrawlerの対処に難儀している身からすると、こういう素人がうちのサーバーに攻撃仕掛けてきてるんだなやめてくれ、としか思えない
“います。一方で、出力フォーマットがなぜか数式モード(LaTeXの \boxed や \text 記法)になっているという、モデル特有の面白い挙動も確認できました。 4. 筆者の考察 今回の実装を通して、エージェントの自律化において
Ollama+Qwen3-VL+Playwrightで、API課金ゼロのWeb調査エージェントを構築。Zenn画面をスクショし、ローカルVLMでトレンド記事を抽出。日本語OCRは実用レベルで、トークン制限なしに推論ループを回せる。
Ollama(Qwen3-VL)×Playwrightで作る完全無料のWeb調査エージェント
ローカルVLMでのブラウザ自動化はAPIコストを気にせず無限ループできて検証に最高。たまに変な数式モードで出力されるのも愛嬌あって面白いな
3.5でも3.6でもなくあえて3にしたのはなぜ?
ローカルVLM
プログラミング経験なさそう
“ローカルに構築したVLMを使えば、高額なAPI利用料を一切気にせず、Web画面の解析と自律的な調査が可能です。日本語のOCR精度も驚異的。HTMLを解析しない堅牢なスクレイピング。日々のAIトレンド調査を自動化した”
何故にそんな古いAIモデルを使うの?もっと小さくて良いAIモデルがたくさん出てるのに。
robot.txt無視してDDoSかよってアクセスしかけてくるAIのBotCrawlerの対処に難儀している身からすると、こういう素人がうちのサーバーに攻撃仕掛けてきてるんだなやめてくれ、としか思えない
“います。一方で、出力フォーマットがなぜか数式モード(LaTeXの \boxed や \text 記法)になっているという、モデル特有の面白い挙動も確認できました。 4. 筆者の考察 今回の実装を通して、エージェントの自律化において
Ollama+Qwen3-VL+Playwrightで、API課金ゼロのWeb調査エージェントを構築。Zenn画面をスクショし、ローカルVLMでトレンド記事を抽出。日本語OCRは実用レベルで、トークン制限なしに推論ループを回せる。