Программирование - работа с данными
Программирование для работы с данными включает использование различных языков программирования, инструментов для обработки больших объёмов данных (Big Data) и инструментов для визуализации результатов. В этой области применяются, например, SQL, Python, а также специализированные технологии для работы с Big Data.
ctured Query Language) — декларативный язык программирования, который используют для работы с базами данных. Некоторые особенности:
Позволяет создавать, изменять и извлекать данные из баз данных, выполнять операции (выборка, вставка, обновление, удаление).
Обращается к базам данных не напрямую, а через системы управления базами данных (СУБД).
На чистом SQL нельзя написать программу — он предназначен только для взаимодействия с базами данных.
Некоторые инструменты SQL для работы с данными:
SELECT — выбор данных.
FROM — указание таблицы, из которой нужно получить информацию.
WHERE — фильтрация данных по условию.
GROUP BY — группировка данных по столбцам.
ORDER BY — сортировка результатов запроса.
-
Абстрактные типы данных (АТД)
Особенно интересным следствием ОО-политики, в которой модули основаны на реализациях АТД (классах), является то, что она дает ясный ответ на вопрос, который остался нерешенным при обсуждении скрытия информации: как нам следует разделять общедоступные и скрытые свойства модуля - видимую и невидимую части айсберга?
-
Subtypes and Supertypes Setting the Scene
Одной из наиболее ранних статей, если не в самой ранней, выражающей позицию POTT, была статья "Types and Persistence in Database Programming Languages" Малькольма Аткинсона (Malcolm Atkinson) и Питера Бьюнмана (Peter Buneman)
-
Абстрактные типы данных (АТД)
Особенно интересным следствием ОО-политики, в которой модули основаны на реализациях АТД (классах), является то, что она дает ясный ответ на вопрос, который остался нерешенным при обсуждении скрытия информации: как нам следует разделять общедоступные и скрытые свойства модуля - видимую и невидимую части айсберга?
-
Алгоритмы, структуры данных
Системы синтеза реалистических изображений должны обеспечивать передачу всех свойств моделируемого объекта: объемность, расположение, передачу полутонов, тени, освещение, текстуры поверхности. Чем выше степень реалистичности изображения, тем больше требуется вычислений для его формирования
-
Выполнение транзакций, ориентированное на данные
В этом разделе подробно описывается выполнение в среде DORA транзакции Payment из тестового набора TPC-C. Напомним, что транзакция Payment обновляет остаток на счету клиента (Customer), отражает факт совершения платежа в статистике округа
-
Методы добычи данных при построении локальной метрики в системах вывода по прецедентам
Русскоязычному термину "добыча данных" или "раскопка данных" в английском языке соответствует термин Data Mining. Нередко встречаются слова "обнаружение знаний в базах данных" (Knowledge Discovery in Databases) и "интеллектуальный анализ данных" (ИАД)
-
Модели и структуры данных
Из выше приведенных формул видно, что вычисление адреса элемента многомерного массива может потребовать много времени, поскольку при этом должны выполняться операции сложения и умножения, число которых пропорционально размерности массива
-
Обзор алгоритмов MOLAP
Под разреженной матрицей понимается такая матрица, не каждая ячейка которой содержит данные. OLAP-системы должны содержать средства хранении и обработки разреженных матриц больших объемов
-
Основы визуальной алгоритмизации
В дальнейшем будем считать, что для двумерного массива A(N,М) в обозначении элемента А(i,j) первое значение i соответствует номеру строки и изменяется от1 до N, а j - номеру столбца и изменяется от 1 до М. В отличие от одномерного массива, в котором использовался только один номер для определения местоположения элемента
-
Параллельная обработка данных
Основные причины появления массивно-параллельных компьютеров - это, во-первых, необходимость построения компьютеров с гигантской производительностью, и, во-вторых, необходимость производства компьютеров в большом диапазоне как производительности, так и стоимости
-
Серверы корпоративных баз данных
Появление в 80-х годах персональных компьютеров (ПК) и локальных сетей ПК самым серьезным образом изменило организацию корпоративных вычислений. Однако и сегодня освоение сетевых вычислений в масштабе предприятия и Internet продолжает оставаться не простой задачей.
-
Структуры данных и модели вычислений
Рассмотрим работу -разрядного двоичного сбрасываемого счетчика, реализованного как массив битов , хранящий двоичную запись числа . Будем считать, что — младший разряд. Пусть первоначально . Единственной операцией в нашем примере будет операция Increment, увеличивающая на 1 по модулю
-
Структуры и алгоритмы обработки данных
КМП-поиск дает подлинный выигрыш только тогда, когда неудаче предшествовало некоторое число совпадений. Лишь в этом случае слово сдвигается более чем на единицу. К несчастью, это скорее исключение, чем правило: совпадения встречаются значительно реже, чем несовпадения. Поэтому выигрыш от использования КМП-стратегии в большинстве случаев поиска в обычных текстах весьма незначителен
-
Язык обработки данных AWK
Средство поддержки программных проектов. По кругу решаемых задач средство близко к make, но является более развитым с точки зрения различных способов оптимизации отдельных частей проекта
-
Анализ вклада Кодда в Великий Спор
Великий Спор являлся спором между сторонниками реляционного и сетевого подходов. Он происходил во время ACM SIGMOD Workshop on Data Description, Access, and Control в 1974 г.; основными докладчиками были Эдгар Ф. Кодд в пользу реляционного подхода (поразительно!) и Чарльз В. Бахман в пользу сетевого подхода, или подхода CODASYL
-
МОГучие способности новые приемы анализа больших данных
Средства BI обладают довольно ограниченными статистическими функциональными возможностями. Поэтому во многих организациях стандартным приемом является извлечение частей базы данных в настольные программные пакеты: статистические пакеты типа SAS, Matlab или R, электронные таблицы наподобие Excel
-
Программная среда для динамического анализа бинарного кода
На текущий момент среда TrEx предоставляет аналитику набор средств, позволяющий восстанавливать алгоритм в виде ассемблерного листинга, нуждающегося в дальнейшей доработке. Среда может получить развитие не только за счет улучшения качества работы уже существующих инструментов, но и решения других, смежных задач, о которых говорилось ранее
-
Сравнение подходов к крупномасштабному анализу данных
Для изучения случаев более сложного использования систем обоих типов были разработаны четыре задачи, относящиеся к обработке HTML-документов. Сначала генерировалась коллекция случайных HTML-документов, похожих на те, которые мог бы найти поисковый робот