カシカ blog

3Dの力であらゆるものを可視化する、株式会社カシカのコーポレートブログです。

お役立ち情報

AIにブラウザを使わせる　～MCP接続方法とブラウザ情報の受け渡し～

Jul 28, 2025
POSTS

目次こんにちは、エンジニアの池田です。この記事では、以下の内容を紹介します。 MCPとは？ MCPの仕組み今回導入するMCP 導入方法使用例：会社近くにある飲み屋の場所を調べてみよう結果まとめ 1. MCPとは？ Anthropicとの関係 MCP（Model Context Protocol）は、Anthropicが開発したAIモデルと外部システムを接続するためのプロトコル(とりきめ)です。Claude CodeやClaude Desktopなど、Anthropicの製品で積極的に活用されています。 MCPを使用することで、AIが単体では実現できない機能（ファイル操作、Web検索、データベースアクセスなど）を、外部ツールとの連携により実現できるようになります。 MCPの種類 MCPには大きく分けて以下の種類があります：ファイルシステム型: ローカルファイルの読み書きや検索 Web型: ブラウザ操作やWeb検索データベース型: SQLiteやPostgreSQLなどとの連携 API型: 外部サービスのAPI呼び出しシステム型: コマンド実行やシステム情報取得 2. MCPの仕組み前の章ではMCPにいくつかの種類があることを紹介しましたが、ここではもう少し技術的に踏み込んで、MCPがどのような仕組みで動作するのかを解説します。プロトコルとしてのMCP まず重要な点として、MCPは「Model Context Protocol」の略であり、その名の通りプロトコル（通信上の取り決め）です。特定のプログラムやツールそのものを指す言葉ではありません。 AIツール（今回でいえばClaude Desktop）と、外部機能を提供するプログラム（MCPサーバー）が連携する際に、「このような形式でリクエストを送り、このような形式でレスポンスを返しましょう」というルールを定めたものがMCPです。具体的にどのような文字列がMCPの内部で使われるのかはこちらのサイトから確認できます。典型的な命令としては、以下のような内容をやり取りしています。 { jsonrpc: "2.0"; id: string | number; method: string; params?: { [key: string]: unknown; }; } ただし、基本的にはクライアントもサーバも実装にはSDKを使うため、この文字列を直接扱うことは少ないかと思います。 SDKはGitHub上で公開されており、PythonやC#をはじめ、様々な方式で自作のMCPサーバを開発できます。ただし、言語によって開発状況はまちまちで、C#では標準出力経由でやりとりするか、Httpサーバ経由でやり取りするしか選択肢はありません。 MCPサーバの立ち位置も、基本的にはAIツールと操作対象のツールの間に小型のMCPサーバを立て、標準出力にJson-RPCのみ出力して動作するのが一般的な実装方法の様です。

Gemini CLI を早速試してみた

Jun 30, 2025
POSTS

目次こんにちは、エンジニアの有吉です。 6/25に Google 社から Geminiを活用するオープンソースの AI エージェント「Gemini CLI」のプレビュー版がリリースされました。本記事はそれを早速使ってみたレビューとなります。 Gemini CLI とは事前に準備が必要なもの導入手順動かしてみる終わりに 1. Gemini CLI とは Google が開発した AI モデルの CLI ツール Windows で簡単に扱えるのがポイント公式ドキュメント 2. 事前に準備が必要なもの Node.js が必要筆者の環境にはインストール済みだったため、 Node.js をインストールしていない環境で導入を進めるとどうういうことが起こるかは確認できませんでした 3. 導入手順 PowerShell でコマンドを実行するのですが。二種類の手段が用意されています。ひとつは npx https://github.com/google-gemini/gemini-cli もうひとつは npm install -g @google/gemini-cli です。両者の違いを以下に示します。実行するコマンド特徴 npx https://github.

今からでも遅くない！AIで爆速自動コーディング

Jun 24, 2025
POSTS

目次こんにちは、エンジニアの池田です。この記事では、以下の内容を紹介します。 AIコーディングとは？本記事で対象とする環境昨今のAIコーディング動向 Windows上でClaude Codeを使うということ Claude Code導入手順 Claude Codeを使ってみるまとめ 1. AIコーディングとは？ AIコーディングという言葉には、明確な定義があるわけではありません。本記事では、近年のAI開発競争の中で登場したプログラミングに特化したAIと、人間が協調してコードを書くことをAIコーディングとよぶことにします。 2. 本記事で対象とする環境筆者はWindowsユーザーであるため、ツールの導入方法や操作手順などはすべてWindowsを前提に解説します。近年のAIツールの多くはLinuxやMacOSとの親和性が高く、Windows対応が後回しになることも多いため、Windows環境での情報はまだまだ貴重です。 YouTubeやブログでもWindows向けの情報は少なめなので、WindowsでAIコーディングを始めたいという方はぜひ本記事を参考にしてください。 3. 昨今のAIコーディング動向最近のAIコーディングを、以下の4つに分類して紹介します。ブラウザ完結型 API接続型エディタ型 MCP型ブラウザ完結型ローカル環境の設定が不要でOSを問わずすぐに試せる基本的にすべての処理がサーバ側で動作するためローカル環境はスマホでもOK 定額制のサービスが多く使いすぎを意識せずに利用可能例：ChatGPT Codex、Claude Code GitHub Actions ChatGPT Codex等が最近ではコンテナを用いた自動ビルドに対応しており、ビルドエラーを検出して修正まで試みるといった機能も登場しています。ただし、高性能な機能を使用するには、有料プラン（例：ChatGPT Pro等）に加入する必要があるため、誰でも気軽に使える、という段階にはまだ達していません。人間はスマホだけ見て、あとはすべてAIが自動対応というシナリオではこの用途が主流になりそうな印象です。 API接続型エディタ上でAIによるリアルタイム編集が可能 Visual Studio Codeのような既存の開発環境に統合して使用することができるため、試用しやすい APIを使用する方式のため、かかる料金は使った分だけ ※Claude Codeは複数の料金体系から選択可能エディタ拡張型の場合、基本的にはAPIアクセスキーを初回に入力して、これを通じてAIによる分析やコーディングを提供します。拡張機能部分はエディタが開いているファイルや、選択状態をAIに提供します。エディタ拡張型例：Cline、Cody、Copilot シェル型は現在Claude Code一択になります。Claude Codeは薄いエディタ拡張機能とシェルの組み合わせで動作します。月額プランを契約している場合はAPI接続ではなく、月額プランの方で使用することも可能です。シェル型例：Claude Code API料金は従量制が一般的なため、大規模なコードの改修など使用量が増えるとコストも増加します。導入の際はあらかじめ予算を決めておくと安心です。エディタ型エディタに統合されたAIの強力な開発サポート単にAPIをたたくだけでなく、途中で検索などAPI接続以外のAI作業を行うことが可能最新情報の反映など情報を広く使用した開発ができる例：Cursor、Windsurf

すごく簡単なDeepSeek R1のローカル実行方法【2025年2月版】

Feb 5, 2025
POSTS

はじめに近年、AIの発展は目覚ましく、2025年初頭の現在では一般のPCでもChatGPTのようなAIが動く状況になりつつあります。周辺技術も徐々に複雑化しており、プログラム自動開発のCline、ノードベース画像生成UIのComfyなど、次世代のスタンダードとして有力なアプリケーションが出てきています。この記事では、話題になっているDeepSeekの日本語版をローカルPCで動かすための背景知識やツールを紹介し、具体的に導入する手順をご紹介します。目次はじめに目次最近のAI環境前提使うツール・サイト Hugging Face：AIモデルの共有プラットフォーム Ollama：AIモデルの実行用プログラム OpenWeb UI：ブラウザからメッセージを入力できるようにするUIツール試してみよう Ollamaのインストール LLMモデルダウンロードコマンドの取得 Ollama経由でダウンロード【途中確認】Ollama上での実行 OpenWeb UIのインストール OpenWeb UIの実行【動作確認】OpenWeb UIからチャット精度についてまとめ最近のAI環境ここ数年AI関連の競争が激しい状況が続いていますが、特に2024年末～2025年初頭の現在、さらにその傾向が強くなっています。以下は2024年末～2025年の話題をまとめたものです。発表日企業モデル名主な特徴・内容 2024/12/17 OpenAI o1 専門的な内容に強いモデルリンク 2024/12/26 DeepSeek V3 オープンソース、OpenAI互換APIを特徴とする安価なモデルリンク 2025/01/20 DeepSeek R1 OpenAI o1級の性能とされるオープンソースモデルリンク 2025/01/23 OpenAI Operator ブラウザ操作が可能なエージェントリンク 2025/01/31 OpenAI o3-mini 小規模ながら高性能な推論を可能とするモデルリンク 2025/02/02 OpenAI Deep Research アナリスト等の利用を想定した情報収集、資料化ツールリンク特に中国の企業DeepSeekのオープンソースモデル発表は米国精密機械産業の株価やAI関連企業にも影響を与えており、より一層競争が激しくなることが予想されます。

ChatGPTの画像認識を使って画像管理を効率化しよう

Nov 2, 2024
POSTS

はじめに画像認識や物体検出の研究開発において、大量の動画、画像データを効率的に管理し、必要なシーンを素早く検索できる環境の構築は重要な課題となっています。従来の方法では、人間が一つ一つの動画を確認し、メタデータを付与する必要がありました。この作業は膨大な時間と労力を要し、プロジェクトの大きなボトルネックとなっていました。例えば：自動運転の開発には、様々な道路状況の映像データセキュリティシステムには、異常検知のための監視映像製造ラインの品質管理には、製品検査の画像データこれらのデータを効率的に管理し、必要なシーンを素早く取り出せる環境がなければ、開発のスピードは大きく低下してしまいます。本記事では、最新のChatGPTを活用して、この課題を解決する具体的な方法を解説します。動画データの自動解析から、検索可能なデータベースの構築まで、実装に必要な要素を詳しく見ていきましょう。目次はじめに実装手順おすすめのツールとライブラリ実装の際の注意点結論実装手順以下がChatGPTを使った画像データベース構築のパイプラインです。 1. 動画のフレーム分割まず、動画をフレーム画像に分割します。以下はPythonとOpenCVを使用した実装例です： import cv2 import os def extract_frames(video_path, output_dir, interval=30): """ 動画からフレームを抽出する Parameters: video_path (str): 入力動画のパス output_dir (str): 出力先ディレクトリ interval (int): フレーム抽出間隔 """ if not os.path.exists(output_dir): os.makedirs(output_dir) video = cv2.VideoCapture(video_path) frame_count = 0 while True: success, frame = video.read() if not success: break if frame_count % interval == 0: frame_path = os.

技術ドキュメント作成のChatGPT活用法6選

Nov 1, 2024
POSTS

はじめに「ドキュメントを書く時間があったら、コードを書きたい」多くの開発者の方に共感していただけるのではないでしょうか。とはいえソフトウェア開発プロジェクトにおいて、技術ドキュメントの作成は避けて通れない重要なタスクです。実際、業界の調査によると、開発者は作業時間の15-20%をドキュメント作成に費やしているとされています。コードを直接記述したエンジニアが作成する必要があるドキュメントも多く、この作業負荷は決して無視できないものです。もしこの作業時間を数時間単位で削減できたら？本記事では、ChatGPTなどのAIを活用して、技術ドキュメント作成を効率化する具体的な方法を紹介します。適切なプロンプトと組み合わせることで、ドキュメント作成の時間を大幅に削減し、より本質的な開発作業に時間を割くことができるようになります。場合によってはエンジニア本人ではなく、アシスタントさんなどに作業を割り振ることもできるでしょう。今回は特に効果の高い6つの活用法を厳選してご紹介します。これらの手法を組み合わせることで、プロジェクト全体で数十時間規模の工数削減も決して夢ではありません。ぜひ最後までお付き合いください。目次機能・関数の説明生成手順実際の出力例ディレクトリ構成の記述手順実際の生成例シーケンス図の自動生成手順生成例と実際の図 APIドキュメントの自動生成手順 Swagger UI活用データベース設計書の生成手順テーブル説明と設計図の生成エラーハンドリングドキュメントの作成手順出力例まとめメリット注意点 1. 機能・関数の説明生成開発者にとって最も時間がかかる作業の一つが、個々の関数やメソッドの詳細な説明を書くことです。AIを使用することで、この作業を大幅に効率化できます。具体的な手順：対象のコードをChatGPTに入力します（なお機密保持の観点で、有料版のPlaygroundを使うか、API経由でのご利用を推奨します）以下のようなプロンプトを入力：以下のコードを関数ごとに説明してください。説明は以下の例のようなフォーマットで記述すること。例）関数名：fetchData スクロールを監視し、ページ下部付近でさらにデータをフェッチします {あなたのコード} 試しに筆者の開発したコードを読み込ませてみると、以下のようなレスポンスが返ってきます。このような機能一覧をわずか数秒で作成することができます。 `initializeApp` 初期化された設定に基づいてアプリを初期化し、セットアップ。データをフェッチします。 `initializeSAMPLE` アプリを初期化し、ログインユーザーのプロフィールを取得。未ログイン時は警告を表示します。 `handleScroll` スクロール位置を監視し、ページ下部付近で追加のデータをフェッチして表示を更新します。 `fetchMore` 現在の状態を確認しながら、追加のデータを非同期でサーバから取得します。 `renderTabs` タブクリックイベントを登録し、選択されたタブに応じてデータのレンダリングやクリップボードを更新します。 `renderStatistics` ユーザーの統計データを表示し、時間別に分けて表示します。このアプローチによって、時間の大幅な節約ができるとともに、一貫性のある説明フォーマットを持つことができ、読み手にとっても利便性の高い機能一覧を作成することができます。

UIToolkitで自作プログレスバーの作成

Oct 7, 2024
POSTS

こんにちは、カシカでエンジニアをしております、村本と申します。 Unityを使った開発の中でUIToolkitでプログレスバーの自作コンポーネントを作った話をします。作成中のアプリケーションでデータ処理状況を表示するプログレスバーを追加することになり、デザインが上がってきました。左右が丸くなっているデザインでした。 UIToolkit標準のプログレスバーのデザインを変更するには限界があるため、自作することにしました。仕様 0~100%で数値を指定します。数値は半円を含まない位置を基準とします。 0%の時は背景色のみ 100%の時は前景色のみとします。開発作成中のアプリケーションには既に似たデザインのスライダーがありました。背景部分で数値の範囲による状態の違いを表現する機能を持っています。数値の部分が半円かどうかの違いはありますが、スライダーのつまみ以外は同じような構成にできるだろうと思い、これを参考にプログレスバーを実装することにしました。この時点ではプログレスバーの幅が複数種類必要になる可能性があったため、進捗部分の幅は%で指定したいと思いました。そこで下記画像に示すような構造にしようと実装を始めました。ところが実装中に問題が発生しました。端の半円をborder-radiusの指定で作ろうと思ったのですが、UIToolkitでは要素の幅がborder-radiusの指定値の倍未満だと半円部分の比率が変わってしまうようです。(Unity2022.3.16f1) そこで回避するために、こういう構造にしました。ところが、今度は別の問題が発生しました。このアプリケーションではフルHDを基本にウィンドウサイズに合わせて画面を拡大縮小する処理が入っていて、ウィンドウサイズによって要素と要素の隙間が開いて見える現象が発生してしまいました。そこで、上記の問題を解決するために、半円部分と塗り部分をひとつのVisualElementにまとめる方法を思い付きました。paddingで左右に半円分の幅を確保するという方法です。下記画像のような構造になりました。この方法だと重ねるレイヤー数も減り、隙間ができる問題も解消します。参考にした元のスライダーは塗り部分が真っ直ぐのデザインのためこの構造にはできなかったのですが、このプログレスバーは塗り部分の右側が半円になっているデザインなので実現できました。実装最終的にこのような実装になりました。 ProcessProgressBarComponent.uxml <ui:UXML xmlns:ui="UnityEngine.UIElements" xmlns:uie="UnityEditor.UIElements" xsi="http://www.w3.org/2001/XMLSchema-instance" engine="UnityEngine.UIElements" editor="UnityEditor.UIElements" noNamespaceSchemaLocation="../../../../../UIElementsSchema/UIElements.xsd" editor-extension-mode="False"> <Style src="ProcessProgressBarComponent.uss" /> <ui:VisualElement class="process-progress-component" style="flex-grow: 1; flex-direction: row;"> <ui:VisualElement name="process_progress_bar"> <ui:VisualElement class="process-progress-bg" /> <ui:VisualElement name="process_progress_fill" class="process-progress-fill" /> </ui:VisualElement> </ui:VisualElement> </ui:UXML> ProcessProgressBarComponent.uss #process_progress_bar { margin-left: 4px; margin-top: 4px; width: 100px; height: 8px; border-radius: 4px; background-color: #707070; opacity: 1; } .

Webブラウザで動作するVRMビューワの作成

Nov 1, 2023
POSTS

こんにちは、カシカでエンジニアのインターンをしております、石飛と申します。今回はVRMモデルを表示する簡単なwebアプリを作る方法を解説します。 VRMを表示し、カメラのコントロール、モーションの変更、表情の変更の基本的なコントロールができるWEBアプリの作っていきます。やりたいこと VRMとは人型アバターモデルのためのファイルフォーマットです。実際のデータはニコニ立体などから入手することができます。今回の例でもこのサイトに公開されているニコニ立体ちゃんを利用します。公式のガイドに従えば、Unity、Blender、Maya等の標準的なCG開発環境でVRM形式のデータを読み込むことができます。ですが、今回はwebブラウザでVRMデータを表示することを目的とします。実際に作ったアプリのスクリーンショットを下に示しています。 VRMデータを読み込んで表示することはもちろん、カメラを移動して様々な方向からモデルを観察することができます。また、VRMモデルの操作として、表情の変更やFBX形式のモーションデータの適用も可能です。 (完成版のイメージと主な機能) 主なソフトウェア作るとはいってもJavaScript系の既存ソフトウェアを組合わせるだけで、簡単な機能はすぐに実現できます。ここでは、今回の用途において要となるNode.jsとthree-vrmの概要を説明します。具体的な環境構築の方法はこちらの記事を参考にしてください。 Node.js JavaScriptの実行環境としてNode.jsを利用します。 Node.jsがどういうものなのかについては、こちらの記事でわかりやすく解説されています。端的に言えば、ローカルで完結した環境でWebアプリを開発できるようにするものです。 Node.jsではnpmというパッケージ管理ツールを使うことになります。上の記事の受け売りですが、知っている人には「Pythonにおけるpip、Rubyにおけるgem(RubyGems)、Debianにおけるapt、MacにおけるHomebrew、Rustにおけるcargo」と考えればすぐに理解できるかと思います。なので次に説明するthree-vrmも $ npm i @pixiv/three-vrm のようにして、npmコマンドでインストールします。 three-vrm JavaScriptで3DCGを描画するためのライブラリとしてThree.jsがよく知られています。このThree.jsでVRMモデルを扱えるようにしたライブラリがthree-vrmであり、pixivがオープンソースで公開しています。 three-vrmのページからリンクが張られているexamplesでは、VRMの基本的な操作を扱ったデモがまとめられています。今回はこれらデモを参考にしてアプリケーションに機能を追加します。ビューワの実装先述の通りにこちらの記事に従って環境構築すると、正面を向いたモデルがブラウザで確認できるかと思います。 srcフォルダ内にあるindex.tsを編集してから $ npm run build $ npm run start ビルド・実行し直すことで機能を追加できます。編集にあたってthree-vrmのexamplesを参考にすると述べましたが、具体的には各デモに対応するhtmlファイルのscriptブロックを参照します。カメラのコントロール Three.jsの機能を用いることで、マウスドラッグによる視点操作が容易に実装できます。こちらはデモのbasicを参考にしましょう。OrbitControlsをインポートし、シーン設定時にcontrolを生成していることが分かります。 // camera controls const controls = new OrbitControls( camera, renderer.domElement ); controls.screenSpacePanning = true; controls.target.set( 0.0, 1.

Easy guide to Gaussian Splatting

Sep 19, 2023
POSTS

Hello, Alfonso here a engineer in Kashika. Today, I want to explain you how you can start using Gaussian Splatting very easy. この記事の日本語版はこちら例のクマのgaussian splatingデモも展示してます。 pic.twitter.com/eJC9IbRAkB — 株式会社カシカ (@kashikacojp) September 18, 2023 Install Gaussian Splatting code. First you must install several programs and libraries to be able to use Gaussin Splatting. Hardware Requirements CUDA-ready GPU with Compute Capability 7.0+ 24 GB VRAM (if you try small data, less vram is ok.

Gaussian Splatting 簡単なガイド

Sep 19, 2023
POSTS

こんにちは、アルフォンソと申します。カシカのエンジニアです。今日は、Gaussian Splattingを簡単に使い始める方法を説明したいと思います。 This article English version is HERE 例のクマのgaussian splatingデモも展示してます。 pic.twitter.com/eJC9IbRAkB — 株式会社カシカ (@kashikacojp) September 18, 2023 Gaussian Splatting インストールはじめに、Gaussin Splattingを使うのために、いろいろなプログラムとライブラリをインストールする必要があります。ハードウェア要件 CUDA-ready GPU / CUDA 7.0+ 24 GB VRAM (小さいデータであれば、少ないVRAMでも可能) ソフトウェア要件 Git Conda Visual Studio 2019 (または新しいバージョン) CUDA Toolkit SDK 11.8 COLMAP ImageMagik FFMPEG CondaとVisual StudioとGitのインストールは、インストーラをダウンロードして、指示に従ってください。簡単です。 CUDA Toolkitのインストールは少し面倒かもしれません, インストールするにはこのガイドをお勧めします here. nvcc (CUDAコンパイラ)をPATHに入れるのは忘れないでください。まだ, Colmap　と ImageMagick と FFMPEGダウンロードしてインストールする必要があります。インストールの後でインストールのフォルダーをPATHに入れていください。次のステップでは、Gaussian Splatting gitのリポジトリのクローンを作成するのために、次のコマンドを使用してください。